冗余系统为何还会失效?DFA 分析揭秘

时间:2026-06-25
  相当一部分冗余系统失效并非因为单个通道故障,而是因为相关失效(Dependent Failure)——一个共同原因导致多个冗余通道同时失效。本文将深入剖析DFA(Dependent Failure Analysis,相关失效分析)方法,揭秘冗余系统中危险的"隐形杀手"。
  一、共因失效(CCF):冗余系统的阿喀琉斯之踵
  CCF(Common Cause Failure,共因失效)是指一个共同的外部或内部原因导致多个组件同时失效的现象。这是导致冗余系统失效的主要原因。
  设想一个采用双核锁步架构的安全MCU。主CPU和影子CPU看似独立运行,但如果它们共享同一个时钟源、同一套电源网络,那么时钟故障或电源瞬态跌落就可能同时影响两个CPU,导致比较单元无法检出差异——锁步架构形同虚设。
  双核锁步架构

  图1 双核锁步(Dual-Core Lock-Step)架构。主CPU和影子CPU同步执行相同指令,比较单元在每个时钟周期比对输出。若两者共享时钟或电源,则存在共因失效风险。

  图片来源:ARM Community
  常用的CCF分析方法包括三种:检查表法(使用标准CCF检查表逐项检查)、β因子模型(定量评估CCF对冗余系统的影响)、以及Markov分析(状态转移模型计算CCF概率)。
  二、五大耦合因素分析
  DFA的是识别耦合因素(Coupling Factors),即导致冗余元素失去独立性的共同根源。ISO 26262-9将耦合因素分为五大类别:
  1. 共享资源:共享时钟、电源、地线、总线等硬件资源。这是常见也容易被忽视的耦合因素。例如,两个独立通道使用同一LDO供电,LDO故障将导致双通道同时失效。
  2. 共享信息:共享输入信号、传感器数据或通信总线。主备通道使用同一传感器输入,传感器故障将导致双通道同时输出错误数据。
  3. 共享环境:温度、振动、电磁干扰等外部环境因素。高温环境可能导致两个并行电容同时老化加速,超出规格范围。
  PCB耦合

  图2 PCB中电源平面与接地平面的耦合分析。当多个独立电源通道共享同一接地平面时,地平面阻抗会导致一个通道的瞬态电流在另一个通道上产生噪声耦合,形成隐性耦合因素。

  图片来源:ALLPCB
  4. 共享设计:相同IP核、相同软件版本、相同制造工艺。异构核使用相同版本的浮点运算单元,若该单元存在设计缺陷,两个核将同时受影响。
  5. 共享人员:相同设计团队、相同测试人员、相同维护人员。人的错误具有系统性特点,同一设计人员引入的错误可能影响多个模块。
  三、DFA分析六步法
  DFA是一套结构化的工作流程,旨在识别并消除冗余元素之间的依赖性:
  步:识别冗余元素。确定设计中采用冗余架构的组件和安全机制,明确哪些通道是"冗余关系"。
  第二步:分析功能独立性。检查冗余元素是否在功能上真正独立。功能独立意味着一个通道的故障不会影响其他通道的正常工作。
  第三步:识别耦合因素。按照上述五类耦合因素逐一检查,列出所有可能的耦合因素清单。特别关注"隐形"耦合因素——那些设计中不明显但可能导致相关失效的因素。
  第四步:评估耦合效应。分析每个耦合因素对冗余元素的影响程度。使用定性(高/中/低)或定量(概率值)方法进行评估。
  第五步:设计消除措施。针对识别的耦合因素,设计物理隔离或逻辑独立性增强措施。例如:独立时钟源、独立电源网络、物理隔离布局、多样化设计等。
  第六步:验证独立性。通过分析或测试验证耦合因素已被充分消除或控制。验证方法包括故障注入测试、电源完整性仿真、热仿真等。
  PCB设计要点:两个看似独立的电源通道可能通过PCB地平面产生耦合。建议在PCB设计阶段进行电源完整性仿真,验证各通道的独立性。独立的地平面分割、星型接地布局是常用的隔离措施。
  四、级联失效:故障的"连锁反应"
  与共因失效不同,级联失效(Cascading Failure)描述的是一个组件的失效通过某种机制传播到其他组件的过程。级联失效具有时间和因果上的传递性,而CCF通常是同时发生的。

  热失控

  图3 电池热失控级联失效示意图。机械/电气/热滥用→内部短路→过热→热失控→起火/爆炸。在功率电子中,类似的级联失效可能发生在电机驱动和电源管理系统中。
  级联失效的典型传播路径包括:电气传播(短路导致过流损坏上下游组件)、热传播(局部过热通过热传导影响相邻组件)、机械传播(振动或应力集中导致连锁结构损坏)、功能传播(功能依赖链中一个节点失效导致下游不可用)。
  五、CCF与级联失效的关键区别
  尽管CCF和级联失效都涉及多个组件的失效,但两者在分析方法上有本质区别。混淆这两种失效模式可能导致选择错误的防护措施:
  特征CCF级联失效
  失效触发单一共同原因同时影响多个组件一个组件的失效逐步传播
  时间特性通常同时发生具有时间延迟和传播过程
  因果关系多因一果(共同原因→多组件失效)连锁反应(A→B→C)
  分析方法检查表法、β因子模型故障传播分析、失效场景仿真
  防护措施多样化设计、物理隔离故障隔离、过压/过流保护
  安全仪表系统中的表决逻辑架构(1oo1/1oo2/2oo3等)。2oo3架构使用三个独立传感器进行多数表决,任一传感器故障时仍可通过剩余两个传感器的多数表决维持正常运行。

上一篇:全面解析电感基本理论及工程应用要点
下一篇:3D 封装中硅通孔的电–热–结构耦合分析

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

相关技术资料