可靠性设计基础(1) - 新闻资讯 - 苏州坦顿检测科技有限公司

可靠性设计基础(1)

可靠性设计基础（一）--理解可靠性

一、理解与可靠性定义

我们总是会说：某某公司的东西“好用”；某某公司的产品“质量好”；我也会经常抱怨某某系统“不稳定”；某某公司的产品“不可靠”；某产品或者部件 “容易坏” ；某某品牌的东西“保养麻烦”。这些问题用户或者管理人员一般都会把他们简单归集为“质量问题”、 “可靠性问题”或者“隐含需求”。但是严格追溯起来，这些问题其实往往属于好几个不同类型的问题。技术人员有必须先科学的对问题分类，才能在问题发生的阶段去专题解决问题。

与可靠性相关的概念有以下几个：

01可靠性

可靠性只指产品在规定条件下和规定时间区间内完成功能的能力。这是国家标准中给出的定义。标准的作用是用来衡量一个产品的好坏。那么怎么如何评价一个产品可靠性的好坏呢？这就需要对这个定义进行度量。

一般来说“规定条件下”是恒定不变且长期保持的，是不具备度量条件的。首先一个产品的“功能”基本完整才可能被视为可用的产品，也不具备度量条件。因此可度量的就只剩下“时间”和“能力“。而能力是个很宽泛的概念，比较通行的度量的能力的办法就是”概率“。因此这个定义可以近似等效为：“在固定条件下和规定时间区间内保持功能完好的概率”或者”在固定条件下所有产品平均保持功能完好所持续的时间 （失效概率为50%）“。

这就引出了衡量可靠性的两个参数：失效概率“和”平均无故障时间“。且这两个参数是互为相反数。值得注意的是，如果“规定条件”发生变化，是允许可靠性下降的，但下降的趋势也是可靠性设计的需要关注指标。

本文主要讲可靠性，这些概念后面还会被多次用到。

02可用性

我们经常会听到客户抱怨你的设备不稳定、不好用、不方便等等。用户最终会抱怨是设备不可靠，不稳定。其实准确的说这些都是可用性问题。

可用性的定义是：在要求的外部资源得到保证的前提下，产品在规定的条件下和规定的时刻或时间区间内处于可执行规定功能状态的能力。它是产品可靠性、维修性和维修保障性的综合反映。因此可用性是包含了可靠性的。

可用性与可靠性的关联在于都必须考虑设备的应用环境。但是可靠性更关注的是在这个环境中能用多久（用概率表现的时间），而可用性则反应的是能不能用？能不能用好？以及能不能达到用户的期望？可用性需要考虑客户在合理的使用条件下能完全正常的工作。比如笔记本电脑，显然是可能被用户带出国，那么笔记本电脑在不同国家的电网的额定电压条件下能否正常工作就是一个重要的可用性指标；台式电脑基本就不需要考虑这种问题。埋在地下的电缆，显然有必要考虑被老鼠啃食的问题。这些都是可用性问题。而可靠性一般只用考虑额定条件下的使用时间，兼顾非正常条件下的降效指标即可。

比如说某个设备的操作员突然由一个男士变成一个女士，设备由于没有考虑到操作员的身高和力量的差异，导致女士操作的频次比男士低很多，而引起系统的运行效率下降，我们可以据此就认为设备的可用性不好。但是由于女士操作的频次下降却很可能使设备的可靠性提高了。

再举个例子，某个产品标称值为额定电压12，输入电压范围为10V～15V，平均无故障时间（MTBF）为3000小时。那么它隐含的意义是期望在12V条件下工作3000小时，其失效概率低于50%（估算值）。并没有保证客户在输入15V条件下也能持续工作3000小时。当然这个参数在实际中也不会差距太大（主要与产品寿命分布有关）。但如果产品提供者和使用者没有就这个问题沟通清楚的话，会给双方都带来很大的困扰。这就不再是可靠性问题而变成一个可用性的问题了：“用户实际需要的供电模式是什么？”

03安全性

很显然，在相同条件下更可靠的设备也更安全。但是安全性与可靠性依然是两个不同的概念，有时候甚至是矛盾的。举例来说：核电站的要求的失效概率达到10^-8～10^-9以上（SIL5级）。这样的标准要求如果换算成MTBF，没有任何一个电子设备有可能达到这样的指标。但通过多个电子设备的并联、冗余、监视、保护等措施达到这一标准却是可能的。而新增加的这些保护、冗余等设备事实上会降低整个核电站的平均无故障时间。

为了解决安全性与可靠性的矛盾，许多应用场景会定义不同等级条件下的可靠性指标。比如地铁车辆的规定：发生A类故障（人身安全事故）的MTBF大于1百万小时、发生B类故障（停止运营）的MTBF大于10万小时；发生C类故障（更换维修）的MTBF大于1万小时。

04可维护性

从“1.1可靠性指标的定义”节内容可以看到，通过合理设计“可维修的部件”可以有效提高系统寿命（注意与MTBF的区别）。但是对于用户而言任何更换维护都意味着成本，即使是免费更换也要占用用户的时间成本。维护成本是设备全生命周期成本（LCC）的重要组成部分。因此在设计时应尽可能少的设计“可维修的部件”，迫不得已必须设计的也要尽可能的方便维护，使维护的时间和花费降低到最小。

二、理解可靠性指标

在可靠性设计时经常会涉及两个关键性的概念，平均无故障时间（MTBF）和寿命。

设备平均无故障时间（MTBF）是指“可修复产品“在相邻两次故障之间工作时间的数学期望值。对于这个定义有几点值得推敲：

a、虽然这个指标定义是一个统计值，是衡量整个设备总体性能的，理论上说在系统设计时需要对设备的各个部分进行可靠性指标分解，即所有的单个部件的失效概率应该比整机的失效概率低很多才能保证整机的失效概率大于需求的指标。但是在实际设计中由于“短板效应”的存在，绝大多数电子设备的平均无故障时间（MTBF）都是由于设备中寿命最短的那几个部件所决定的。

b、对于不修复产品，其产品寿命就等于设备平均无故障时间。

c、对于“可修复产品”，其产品寿命由其不可修复的部件的最短寿命决定其设备寿命。

再进一步引申：改善一个产品MTBF指标的关键点就在于提高设备部件寿命的瓶颈。而改善一个产品寿命指标的关键是将某些寿命瓶颈部件变成“可维修的部件”。举例来说：对于一辆汽车而言，如果以整车来看其平均无故障时间（无故障里程）是超过15000公里或者12个月，这显然是由机油这个部件的寿命来决定的。但是因为运行更换机油、更换刹车、皮带等保养措施的存在，一辆车的设计寿命可以达到20年；电脑的显示屏和硬盘的MTBF显然是低于其他部件的，因此电脑销售时这两个部件的质保期也经常会单列。

比如在激光加工设备中，光源显然是属于整机的寿命瓶颈，设计时就需要将其设计为“可修复单元”。因此需要为其设计为方便的维修方式，如果更换一个光源需要把整个激光加工生产线都拆了，这样造成的长时间停工是很难让用户接受的。对于公司售后维护来说也将是沉重的负担和风险。

当然也有反向的例子，手机电池是手机的寿命瓶颈，因此手机发明之初都是将其设计为“可修复单元”。但是随着电池寿命的提高，同时很多厂家为了提高手机更换频次的商业目的，现在更换手机电池已经非专业人士不可了，基本可以被认定为“不可修复单元”了。这其实是降低了手机的整机寿命。

本文以电子设计为主要对象，而电子器件很多都是焊接在板卡上，一般很难更换，这里就不再考虑更换和维修这一条件，因此本文后续的寿命就等同于平均故障时间，不再仔细区分这两个概念了。

三、可靠性指标的运用

绝大多数设备销售都有质保期的规定的，质保期怎么定往往由行业标准、市场策略、销售模式、销售价格、成本利润控制等多方面因素共同决定的。但是不管怎么定质保期是绝对不能超过设备平均无故障时间的。超过这个时间就意味着很多设备没有过质保期就已经不能正常工作了，这时用户如果要求退换、维修、甚至赔偿的话设备供应商就不可能盈利。

标称MTBF时间一般以小时计算。而质保期一般按年计算。这就存在一个对应关系。这个关系不是简单的365*24的关系。因为只有很极端的设备才会完全工作在这种全年无休的情况。而且即使是这样的设备，也不会处在满功率、满负荷并且极恶劣的工况下工作。因此其计算也不必如此保守。一般而言可以分为以下几个种类：

	年使用时间	举例
一般民用设备	1500～2000小时	电视机
高频民用设备	3000小时	冰箱、电灯、手机
低负荷工业设备	3000小时	网络交换机
高负荷工业设备	5000小时	地铁，火车
超高频工业设备	8000小时	核电站

一般来说医疗设备，参照高频民用设备标准即可。

军品一般来说没有明确的使用时间要求。但是要求在标称的使用时间内超低故障率。因此一般而言军品会提高一个标准设计。比如说需求为3000小时的，一般会非硬约束（比如材料特性约束）部分的设计标准至少都要达到5000小时以上。因此我们一般会感觉军品的质量更高。

但是我确实曾经见到过销售的设备标称MTBF是3000小时，但是销售商承诺的免费质保期确是三年的情况。这种情况很多时候是销售人员基于市场压力做出来了一种商业策略。这是一种很不严谨的态度，是很难人信服的。

你可能会有疑问，家里的电器标准只有1年，但是我家里却用了很多年了也没有坏啊？怎么感觉这个值和理论值差异这么大呢？这有以下几个原因：

1、绝大多数人的使用频次其实没有理论那么高。以电视为例，计算时是以3000小时为1年计算的，但实际上你需要每天看8个小时以上的电视才能达到一年3000小时，很多人连一半的时间都达不到。

2、即使是让电器设备运行着，很多时候电器也并没有全功率运行。例如很多人的手机会24小时开机，但是绝对不会有人24小时都在连续打电话。

3、设备运行环境更优。随着生活条件的改善，现在的人已经很难想象谁会在35度以上的高温环境下长时间看电视了。即使看也很有可能开着空调、开着风扇。同时国家电网的改进、防雷措施的升级等，都会大大提高设备的使用寿命（环境因素对设备寿命的影响详细见本文后半部分的内容）。

4、公司采用了更高的设计标准。对于工厂而言每年1%的故障率并不算太高，但是对于客户而言就是100%了，1%的故障率同时意味着每售出10万台的设备就要面对上千人次投诉，当有竞争对手的更有的性能进行对比后，就会发酵为非常恶劣质量事故。因此为了降低客户投诉和与对手竞争的需要，很多厂家不得不提高设计标准。

5、多数的家用电器设计使用在广大的范围内销售的，因此设计人员会按最为恶劣的方式进行计算（也有可能是多年教训的积累）。比如你不可能让一台冰箱在东北能用一年而到了广东就只能用三个月，也不可能让电视机在室内能用三年在室外就只能用一个月。因此设计人员只能按照最恶劣的条件进行设计，这无形中又提高了设计标准。

6、设备的局部性能的改进。一个新设计的电子设备的推出后不久往往很快就会在用户反映出很多设计不足的问题。由于“二八效应”和“短板效应”的存在，设备的问题经常会集中在两三个点上，因此厂家往往会针对性的对其做出改进并应用于后续机型上。同时由于技术的进步很多部件的质量也是再缓慢提高的，因此后续机型的质量往往会优于前面的机型。但是再没有国家标准或者市场因素推动时，厂家一般也不会再重新投入成本做可靠性检测和认证，所以指标还是沿用以前的。

7、销售策略。很多厂家提供一个国家标准要求的最低质保期限，客户如果要求延长质保期就要额外收费了，但是从经济性上来说厂家很少会为延长质保的客户提供差异化的机型。

当然设备寿命也不是越长越好，除了更高的设计指标意味着更高的成本外，更高的寿命会降低用户更新换代的频次，甚至会降低用户的使用体验。以手机为例，由于“安迪-比尔定律”的存在软件技术会不断升级换代，因此手机的硬件存储资源和处理能力很快就会显得不足。因此用户一般都会在两三年内更换手机，否则新的软件应用就会体验很差。这就意味着如果手机厂家把硬件的寿命设计的很长，除了增加自己的成本外还会莫名其妙的背上性能差的恶名。所以现在手机的设计寿命都不超过2年。

本文链接：https://www.tandunlab.com:443/news_147.html

上一篇：【印制板】可焊性测试之边缘浸焊测试

下一篇：半导体测试