电子通信产品的硬件可靠性设计(ZT)-第1页-EDN China电子设计技术互动社区
产品可靠性设计涉及到很多方面,要全面开展起来有一定困难。但是,如果在设计阶段不采取必要的措施,开发出的产品可靠性合格的概率是很低的,这就是所谓的 “预则立,不预则废”,决不是危言耸听。所以,产品的项目负责人及所有研发人员从工作的一开始就应该强化可靠性意识,从力所能及的几个方面贯彻可靠性设计 的思想和方法,尽可能提高产品的可靠性。本文详细描写了电子通信产品的硬件可靠性设计的要点和方法,生动地阐述设计评审的意义,希望能给项目负责人及广大 硬件研发人员有所帮助。
1、可靠性需求分析和指标体系的建立
产品的可靠性需求分析,分定量和定性两个方面。单板及系统的平均故障间
隔 时间MTBF(或平均致命故障间隔时间MTBCF)、可用度、环境条件、温升控制、电磁兼容指标等可以定量地给予明确规定。保障性、维修性、可生产性、不 允许发生事件等方面要定量规定有些困难,但是也应该做一些定性的规划。在研制规范中有一个章节叫“不允许发生的事件”,我在审核文件中发现,这部分的规定 都很马虎,往往只对显而易见的一些事件进行了非常轻描淡写的“不允许发生”的规划,并没有对各种潜在的约束条件可能导致产品发生的故障进行约束,所以,我 们经常发生这样的情况:测试规程、测试用例的设计不能覆盖产品的方方面面,待产品量产或投入市场运行后故障百出却悔恨当初规划或测试不到位。
需 要说明的是,MTBF或MTBCF的指标及其分配要尽可能合理一些,要想一想,我们确定的指标是否可以实现,是否有市场竞争优势。王锡吉教授的《一种新的 可靠性指标预计方法与应用》介绍了适用于整机系统可靠性指标预计的方法RZTEA和硬件单板的可靠性指标预计方法RZTEB,十分适用于我们产品的可靠性 指标预计。何国伟教授的《RMST的系统分析》给我们由单板可靠性指标推算系统的可靠性、可用度指标的方法,建议大家认真阅读、学习上述文章,以便在产品 可靠性指标的确定、分配、预计工作中得到帮助。
2、降额设计
所谓降额,就是要使元器件在设备中实际使用时可能承受的应力 小于其额定应力。不同的元器件所要考虑的应力因素是不一样的,有的是电压,有的是电流,有的是温度,有的是频率,有的是振动,等等。对电容的耐压及频率特 性,电阻的功率,电感的电流及频率特性,二极管、三极管、可控硅、运放、驱动器、门电路等器件的结电流、结温或扇出系数,电源的开关和主供电源线缆的耐电 压/电流和耐温性能,信号线缆的频率特性,还有散热器、接插件、模块电源等器件的使用要求进行降额设计。
通常,根据降额幅度的大小可分为 一、二、三级降额,一级降额((实际承受应力):(器件额定应力) < 50%的降额)在技术设计上最容易实现,降额的效果也最好,但存在成本过高的问题;二级降额(70%左右的降额)在技术设计上也比较容易实现,降额的效果 也很好,并且成本适中;三级降额在技术实现上要仔细推敲,必要时要通过系统设计采取一些补偿措施,才能保证降额效果的实现,所以说有一定难度,但三级降额 的成本最低。一般说来,我们建议使用二级降额设计方法,在保证降额设计取得良好的效果的同时,技术实现难度和成本都适中。对于涉及到频率特性的器件的降额 要谨慎处理。
3、热设计
确定产品的运行环境温度指标,确定设备内部及关键元器件的温升限值。一般说来,元器件工 作时的温度上升与环境温度没有关系,而民用级别的元器件的允许工作温度大多在70~85℃,为了保证在极限最高环境温度(50℃左右)下元器件的工作温度 还在其允许温度范围内并有相当的冗余度,设备内部及元器件的温升设计指标定在15℃左右比较合适。在硬件单板设计时,首先应该明确区分易发热器件和温度敏 感器件(即随着温度的变化器件容易发生特性漂移、变形、流液、老化等),布PCB板时要对易发热器件采取散热措施,温度敏感器件要与易发热器件和散热器隔 开合适的距离,必要时要从系统的角度考虑采取补偿措施。系统或子系统通过自然散热(通风、对流等)措施不能保证设备内部及关键元器件温升限值指标得到保证 时,需要采取强迫制冷措施。注意,对整机系统,强迫制冷措施要尽可能在高发热部位附近实施,要尽量避免使用把热空气送到本来发热不大的部位的散热路线。
散 热设计究竟怎样才算合适?我们可以通过一些仿真工具进行初步的设计(美国Ansys公司的热分析和仿真软件和FLOTHERM软件得到了普遍的使用),拿 出一个方案,然后,通过“设计—仿真—修改设计一再仿真——测试验证—设计修正—再测试”的工程方法来实现。不同的设备,其运行的环境温度极限值指标是不 尽相同的。对于大多数用于电信中心的通信设备来说,可以参照交换机的总技术规范书。为了充分保证产品整机系统的可靠性,一般说来,要求系统在规定的运行高 温条件下至少连续72小时运行功能正常实现且性能指标没有任何程度的下降,在规定的运行低温条件下至少连续72小时运行不会引起功能的丧失和性能指标的下 降。
这里需要提醒的一点是,整机散热设计,往往要开辟一些通风孔、通风槽,要使用一些易散热材料,与电磁屏蔽设计会存在一些矛 盾,而一般说来,电磁屏蔽的设计难度要大于散热设计,所以,在进行整机散热设计时一定要处理好与电磁兼容设计之间的关系。也就是说,什么位置开通风孔/通 风槽、如何确定孔的面积/数量、槽的材料,如何处理缝隙等都需要仔细推敲。好在电信中心使用的通信设备在电磁兼容方面的要求只等同于通用标准 CISPR22中规定的CLASS A的要求,加之现在的大多数PCB板都采用多层布线方式,在PCB一级电磁辐射水平大大降低而抗辐射能力又大大提高,从而使整机的电磁屏蔽设计的难度也大 大降低,所以说,我们要处理好散热设计和电磁兼容设计的关系不是很困难的。
4、电气兼容性设计(或信号完整性设计)
电 气兼容性是指设备内部组件之间以及设备与设备之间有相互连接关系的信号的电气特性,如信号的电平阈值误差、信号脉冲的宽度、信号脉冲的上升沿和下降沿的陡 度及过冲与下冲、信号的延时和抖动、模拟信号的失真度、光收发器件的发送功率和接受灵敏度及误码率、无线发射信号的功率及无线接收设备的接收灵敏度等,在 一定的误差范围内能够“互相容忍”,保证功能的正常实现。建议对以下几方面给予关注:
各功能单板对电源的电压波动范围、纹波、噪声、负载调整率等方面的要求予以明确,二次电源经传输到达功能单板时要满足上述要求。
选用专用器件时要检查其电气性能指标是否符合相关标准的要求。
对高速、高频电路,信号之间的串扰问题。
在研发阶段的调试、电源拉偏试验、高低温试验中,要注意检查信号经传输后到达“对方”该信号的接收端时是否符合“对方”设备对输入信号的各方面电气指标要 求,即信号经过传输后电气性能发生的变化是否在“对方”设备接受信号的容差范围内,以排除影响电气性能长期稳定性的不良因素。
有条件时进行时钟拉偏、抖动注入等试验,验证设备的容差能力。
上 述几点很重要。我们经常在调试或可靠性试验中忽略这些,往往是在调试和试验的过程中只观察功能而不去检查信号的质量,对信号已经发生偏差甚至到了“边缘” 状态并不清楚,所以就不可能去采取纠偏措施,等设备投入量产、运行后,经常碰到原因不明不白的故障,只能通过反复换板的办法来解决,而换板以后时间一长就 旧病复发。
5、电磁兼容设计
对电工、电子产品来说,电磁兼容包括整机系统与外部环境之间的兼容和设备内部部件与部件、分系统与分系统之间的兼容。电磁兼容的问题要在开发工作的前期就给予高度重视,
这是因为:
1、 电磁兼容问题首先是质量问题。国外早就发现,进入数字化时代之后,很多电子设备经常发生让人摸不着头脑的质量问题就是因为数字化电子设备更容易受各种电磁 骚扰(尤其是静电放电、电脉冲群、雷电感应等各种脉冲骚扰)的影响而造成的;我们公司可靠性部在近两年解决一些老大难问题之后也证实,我们设备的故障率及 单板返修率居高不下的主要原因之一就是我们的产品EMC设计不充分。
2、电工电子产品、信息技术设备的电磁兼容(及电安全性)都有具体的 标准或通用标准,在国内市场(尤其军用设备)已经对这一问题越来越重视,信息产业部早在九七年就计划对电信产品(包括已经在网上运行的设备)实施电磁兼容 强检强测制度,只是由于测试条件一直不成熟而未能执行。现在信息产业部通信计量中心的电磁兼容测试中心已经建成并投入使用,国标《电信网络设备的电磁兼容 性要求》也已经由通信计量中心、中兴、华为三家起草完成,今年底将上报有关部门审批,随后就会执行上述制度。在国际贸易中,电磁兼容几乎已成为发达国家对 其他技术相对落后的国家设立的技术壁垒。随着欧盟的89/336 EEC指令于1996年1月1日生效(注:该指令在今年春天进行了修改),美、日、澳等国家和地区的政府都颁布了相应的指令,严禁电磁兼容性不符合它们的 标准的产品进入这些国家和地区的市场或在其范围内生产,所以说,电磁兼容性(及安全性)合格标志是出口产品的“护照”。我公司在电信设备出口方面已经走在 同行的前面,公司的目标是在几年内国际业务达到50%的分额,所以,我们的电磁兼容工作更加要抓紧开展,决不能因这方面的工作不到位而影响国际市场的开 拓。
3、电磁兼容的问题如果在产品研发的早期阶段不充分考虑、不精心设计,一旦产品成型后,其达标的概率非常小,而且解决问题所面临的困难、需要花费的人力和代价将会非常大。上述几点必须首先得到中高层领导的认识和理解,否则电磁兼容工作几乎推动不下去。
电磁兼容设计涉及到电路板、结构、电缆、设备的供电系统和接地体系等各个方面,非常复杂,乍看起来似乎摸不着边际,其实,通过合理的工作方法和在设计中遵循电磁兼容设计的一些基本准则,还是可以受到事半功倍的效果的。
下面具体谈谈产品电磁兼容设计的工作内容。
在产品(包括单板)的规格说明中明确规定所设计的产品必须达到的电磁兼容要求,在产品(包括单板)的调试方案、测试方案中拟定电磁兼容的测试项目。
避免使用静电敏感器件,选用器件的静电敏感度一般不低于2000V,否则要仔细推敲、设计抗静电的方法;在结构方面,要实现良好的地气连接及采取必要的绝缘或屏蔽措施,提高整机的抗静电能力。
CMOS电路要采取抗闩锁设计。
CMOS器件中闲置不用的管脚避免悬空,要视器件的特征把闲置不用的管脚接到电源端或地端。
各功能单板电源引进处要采用合适的滤波电路,尽可能同时滤除差模噪声和共模噪声,噪声泄放地与工作地特别是信号地要分开,可考虑使用保护地;集成电路的电源输入端要布置去耦电容,以提高抗干扰能力。
散热器要与单板内电源地或屏蔽地或保护地连接(优先连接屏蔽地或保护地),以降低辐射干扰。
一般说来各级电源的输入、输出端都要使用合适的滤波电路。
机架、机框是否需要做屏蔽设计?如果做屏蔽设计,要分析电磁场的特性,确定使用什么屏蔽材料,确定开孔的大小及数量,确定搭接方式及搭接材料。
明确各单板最高工作频率,对工作频率在160MHz(或200 MHz)以上的器件或部件采取必要的屏蔽措施,以降低其辐射干扰水平和提高抗辐射干扰的能力。
使用屏蔽电缆的地方要把电缆的屏蔽层真正利用起来(与地或屏蔽壳体可靠连接),并通过实验确定正确的、行之有效的连接方式。
对复杂且工作频率很高或高频噪声分量较大的系统,或者对内部兼容性要求高的系统,层、框之间采用金属丝网或金属箱体进行屏蔽。
一般功能单板的电磁干扰发射和传导干扰发射严格达到A类ITE产品的要求,工控机、二次电源等尽可能达到B类ITE产品的要求。
整机结构上要在合适位置设计布置静电泄放插口并予以警示。
整机保护地连接处不涂绝缘漆,要保证与保护地电缆可靠的金属接触,避免仅仅依靠螺丝螺纹做接地连接的错误方式。
PCB板布置要遵循有关准则。
6、抗振动设计
在电路单板上对体积较大、重量大于14克的立式布置器件采取加固措施。
对尺寸较大的单板和因板上元器件高度原因而需要占用两个以上槽位,并且板重量较大的单板采用纵、横硬质金属条进行加固(也可采取其它合适的方式),以防翘变。
单板插进机框后要有锁定措施。
整机的门、抽屉要有锁定措施,要保证在任何倾斜度时不会自开(虽然这不是设备运行状态的要求,但我们的产品现在整机运输,必须达到这个要求)。
所有采用螺钉连接的地方要使用弹垫或花垫,以对振动和冲击进行缓冲。
接插件连接处必要时采取固定措施(使用带锁扣的接插件)以防接触不良或松动。
7、 生产性、测试性和维修性设计
可生产性必须得到开发人员的高度重视,我们是搞产品,不是做实验,对于那些不考虑可生产性或可生产性很差的开发应当适时纠正,必要时对相关责任人教育、培训。
一般说来,生产性至少有如下几点需要考虑:
a、该产品所用到的(关键)元器件在批量生产时能否保证采购到,能否找到替代品而不致于让供应商卡勃子。所以,我们要认真制定“核心器件选用大纲”并经过三结合的严格审查。
b、公司的生产手段、工艺水平、工人的技术水平、测试设备等方面的现时状况或经过适当的调整、改进、培训、外协能否满足该产品的生产需要。
c、对于实现功能或性能指标使用到的硬件调节部分要尽可能避免灵敏度过高的设计,并在调试工艺文件中对调试方法和调试后达到的状态予以明确。
任何组装级别的硬件都要采取测试性设计和维修性设计。
单板(包括背板)要安排合适的测试点,其中电源电压、时钟信号、关键的逻辑和控制信号的测试点是必不可少的,测试点的位置要醒目、有标注、方便于运行状态下的测试连接。要尽可能把元器件提供的JTAG或其它先进的在线测试手段利用起来。
最大限度地利用元器件原有的测试性设计来实现单板、子系统、系统的BIT(机内测试)功能,要提供与专用测试设备的接口。
对备份件的状态要能够进行测试并通过适当方式(比如:在操作维护终端)予以显示。
一般说来在任何组装级别上,存在不同电压的电源时,要在显著位置对电压值予以标注。
各子系统、模块的供电连接要相互独立,以免在维修一个子系统或模块时切断其他子系统或模块的电源,保证在不中断正常运行条件下维护作业的实现。
强迫制冷设备(风扇、空调、冷却水管道等)的电源供电线路与设备的主供电线路严格分开,在结构安装方面做到便于维修、保养、更换等工作的开展。
整机系统内尽量做到同一电压的电源布线颜色一致(线径根据通过的电流来确定),电源地使用黑色导线,保护地使用黄绿双色导线。
单板设计要考虑提供与生产测试设备的接口,对生产测试设备有特殊要求,或者需要重新购置或开发生产测试设备时,最好尽早说明。
分析、预计可能的故障和故障模式(即FMEA工作),修改包含引起故障扩散的故障模式的设计。
尽可能在设计说明书中描述故障分析和排除方法,为有关随机资料的编写做初步准备。
对特别容易在维修作业时被损坏的器件或连接,在其附近标注警示语。
室外型设备还要充分考虑恶劣天气条件的维护作业的实现。
8、冗余设计
冗 余设计也是可靠性设计的一个重要方面,在我们的各种通信产品中普遍采取了冗余设计。冗余方式通常有主备冷备份、主备热备份、任务分担互助备份、表决备份 等,究竟如何选择?一般在系统设计阶段根据组件在系统中的任务重要性(注:我以前在进行交换机培训讲课时有一个很土的办法,把主处理机比作大脑,把交换网 板比作心脏,把时钟比作血液,把关键的环节或共用资源比作腰或肾、把电源比作基础环境(空气和水)等,这样一来就很容易明确各部分的重要性。)、实现冗余 的复杂度和难度、允许的维护方式和维修策略、成本等方方面面统筹分析,来选择采用合适的冗余方式。这里需要提醒的一点是,依我们现在的设计水平往往不能做 到在任何故障发生时冗余备份都起作用(即我们通常所讲的发生切换),究竟在哪些故障发生时冗余备份才起作用,需要仔细分析设计,并在产品研制规范、产品的 总体方案中予以明确。另外,冗余设计一定要做到在正常运行条件下能对备份件进行测试。
9、试验
由于研制阶段只出少量的样机,并且一定还会有许多需修改的方面,而且我们目前的试验条件也很有限,所以,全面的可靠性试验是不容易的,可以争取条件做如下试验:
极限温度运行试验。
电压拉偏试验。
对通信设备来说,二次电源、主处理机、交换网板、时钟板等关键部件的电磁兼容测试,样机整机的电磁兼容测试。
适当的高低温循环、湿热交变、振动试验,筛除因元器件选用不当而留下的高早期故障率隐患。
高 加速寿命试验(HALT)和高加速应力试验(HAST)。这两个试验的方法我们还要探索,但其意义不应该老是受到怀疑了。我认为,该两个试验有两个最根本 的作用:1、发现设计的薄弱环节,进而采取必要的措施强化设计,使我们的产品更加健壮;2、发现致命故障(或不允许发生的故障),进而通过合适的系统设计 修改来避免致命故障的发生或使该类故障不发生扩散性影响。
产品质量的好坏,涉及到产品活动的方方面面,但是,最重要的一个方面是设计,因 为产品质量的任何方面终究是设计出来的。所以,为了提高产品的质量,至关重要的是提高产品的设计质量。而要保证设计质量,非常关键的一点是在项目管理工作 中加强可靠性设计评审的力度。建议对每块单板、子系统、系统的研制(设计)规范和详细设计方案组织评审,受审设计的设计人员在评审之前向评审小组成员提供 设计说明,评审小组设立组长,组长负责制定详细评审方案,评审小组成员在评审会召开前在详细评审方案的指导下切实对受审设计进行严格审查,并在评审会上提 交审查报告。评审小组组长对评审工作全面负责,除负责制定详细评审方案、主持评审会之外,还要向产品组(必要时还有研究所所长甚至事业部总经理)提交评审 报告。经评审确认必须修改的少量设计或简单设计在设计人员修改完成后必须在评审报告的备忘录中加以说明;经评审确认必须作重大修改乃至重新设计时,待相关 工作完成后必须重新评审。通过评审的设计如果还存在设计性错误,评审小组组长要承担主要责任。参加评审工作的人员要做到认真负责、知无不言、言无不尽,要 大胆地讲真话,尽量把问题在产品活动的早期提出来,切实贯彻“预防为主”的可靠性工作思想,要在我们的产品活动中避免“经过评审的(宁波)大桥竟然在施工 过程中就坍塌”的严重质量事故。可靠性工作难以定量评估其成绩,但有一点是肯定的,那就是,产品的可靠性工作做好了,产品的可靠性提高了,对于提高产品的 质量、提高产品的性能价格比、提高产品的生产合格率、顺利进入市场并不断提高市场占有率、降低产品的维修成本、降低产品的寿命期费用(LCC)等会带来难 以估量的效果。由于种种缘故(最最主要的原因是我们在对核心技术的创新和掌握方面缺乏优势),我们产品的推出一般都落后那些先进的大公司,当我们的产品推 出时,它们的产品在技术和市场方面已经基本成熟了。对于这些技术、市场都已经成熟的产品,质量的优劣、可靠性的好坏就决定了其竞争优势的强弱。各位同仁、 产品研发工作的主力军从高度上认识可靠性问题的重要性。