美国航天工程的定量风险评估技术应用 — 一篇关于航天飞机PRA技术应用的论文

在之后的30年时间里,NASA的哥伦比亚号、挑战者号、发现号、亚特兰蒂斯号和奋进号航天飞机先后共执行了135次任务,帮助建造国际空间站,发射、回收和维修卫星,开展科学研究,激励了几代人。
航天飞机计划共花费1137亿美元。其中,挑战者号和哥伦比亚号分别于1986年和2003年失事,共造成14名宇航员罹难。

综述
本篇论文发表于二十世纪末,是SAIC(Science Applications International Corporation,科学应用国际公司)的技术专家Joseph R. Fragola回顾其团队在挑战者号事故后,协助NASA推进PRA技术应用,建立航天飞机项目运营实时风险监测系统工作成果的综述性文章。
虽然是20年前的文章,但里面的信息量还是很丰富的。有些地方见微知著,不禁让人产生“原来他们是这么干的!”、“原来他们也是这样干的!”和“不知道他们到底是怎么干的!”的感叹。
(5)贝叶斯方法还能这么用!(怎么做到的?)
以下基于英文论文原文翻译,有些文字为便于理解,做了调整和补充。欢迎大家分享,或者通过邮箱和公众号留言反馈交流。

航天飞机概率风险评估
Joseph R. Fragola
Advanced Technology Division, SAIC, New York, NY USA

摘要
航天飞机系统的概率风险评估(PRA)最近已经完成。这个积年累月的工作结果代表了航天飞机应用风险技术七年来的成果。本次航天飞机运行风险评估中使用的基本方法是基于场景的,其主要内容是对危险事件的潜在演化过程进行定量风险评估。该危险事件演化过程以假定的初因事件发生为起点,其过程的后续发展,将被航天飞机系统设计的防护和缓解措施所阻止和转移。
此外,这一方法还包括统计更新程序,使未来的航天飞机飞行和试验数据能够持续不断地纳入其中,从而为美国宇航局提供一个“实时”的飞行任务风险模型。风险评估数据库包含了所有与航天飞机飞行相关的历史记录,包括飞行失败和试验异常的前兆,以及实际飞行中的故障或异常。本文介绍了研究的结果,或是核查时遇到的困难,并提出了解决办法。本文还进一步探讨了工作成果在航天飞机系统决策中的应用。

简绍
风险的定量评估并不新鲜。它的根源至少可以追溯到17世纪,当时人们收集和分析了安全航行的频率和死亡率统计数据,从而构成了海运和人寿保险业的基础。然而,与起源于古代的定性风险评估相比,定量风险评估仍然是一个新生事物[1]。此外,即使在其诞生之后,定量风险分析也仅限于那些诸如保险业之类的特定情况—“……一个几乎无限的统一观测序列”[2]。这一限制是基于概率的狭义定义的逻辑基础,“……仅适用于同一事件反复发生,或同时涉及大量统一因素的问题”[2]。从这个狭义定义的角度来看,对重要的决策问题只能如此回复:“我们的概率理论中不能处理例如一场战役的胜利的概率,这是因为我们不能考虑或想象一个包含它的母体。”[2]
这种观点在本质上否定了主观概率的概念,并且这种观点直到本世纪中叶都一直是主流的统计理论观点。事实上,这是持续至今的频率学说与贝叶斯争论的根源。
到了本世纪初,这个争论非常激烈,几乎导致双方之间的公开战争,其中一方面是凯恩斯所积极倡导的主观主义者,包括逻辑学家和物理学家,另一方面是代表大多数统计学家的频率派学者。Ramsey[4]试图通过假设它们具有共同的基本语义来弥合这些差异。然而,重大的理论分歧一直存在,直到deFinetti澄清了概率的定义,引入了“可交换性”的概念,为归纳推理的概念提供了一个理论基础。后来的工作[6],[7]强调了这种替代的概率观点与决策者主要面临的假设类型选择之间的关系。特别是明确指出了,准确处理不确定性在任何定量预测中所起的关键作用:“定量预测必须始终是在不确定性范围内进行预测;在不同的情况下,不确定性的边界的数值将有所不同,要使一项规则能有效应用,就必须明确说明它的不确定性的应用边界”[6]。
基于这种方式,预测总是对不同数值变化的相对概率的陈述,并且更容易与经验学习的常识相一致,因为它允许随着新的观察或新的证据的交流而改变信心的程度。

在美国宇航局的早期应用
定量风险评估的理论基础在美国宇航局的诞生和阿波罗计划的开始时,就已经牢固地建立起来。然而,尽管早期有证据表明美国宇航局对量化风险的研究很感兴趣,但在项目实施过程中,美国宇航局一直回避量化风险方法。事实上,在肯尼迪宣布登月计划后的几个月里,美国宇航局的创立者们决定他们必须为阿波罗计划制定一个量化的数字目标,经过讨论后,他们认为,对于任务完成而言,100分之1的风险是可以接受的;对于乘员组安全返回,1000分之1的风险是可以接受的。他们还认识到,仅仅设定一个可接受的失败风险指标是不够的,“对于成功的设计以及任务成功而言,识别潜在的故障及其风险是至关重要的。” [8]
美国航天局的管理人员知道:“风险是决策衡量的基本公分母。”[8]这种早期的思想理论导致了定量风险模型的发展,这些模型是针对阿波罗计划的所有要素而建立的。随着该项目的发展,到1960年中期,至少存在阿波罗指挥和服务舱(CSM)、[9]月球舱(LM)、[10]和土星五号运载火箭[11]的模型或建模方法。
尽管有这些工具可用,而且大家都认为需要以定量方式处理风险,但随着项目的进展,美国宇航局逐步放弃了定量方法,并依赖基于五个定性因素的决策方法:
(5)对未解决问题、纠正措施计划和预计完成日期的审查。
单点故障的识别主要是通过故障模式和影响分析(FMEA)来完成的。在这些分析过程中,对系统的每个组成部分进行了审查,以确定其潜在的故障模式,以及每种故障模式对组件本身、子系统、系统、运载器、任务和乘员组的后续影响。因此,这种自下而上的分析旨在识别那些可能危及任务的单个部件故障。分析还指出了可在现有设计中采取的潜在方法,或者,可能的设计变更,其目的是消除故障模式,或者将其频率降低到可接受的较低水平,或者减轻其后果。通过这种方式,FMEA显示了风险分析所期望的一些特征。在整个设计过程中,收集无法消除或缓解的单点故障,以及保留这些故障的理由,并在关键项目清单(CIL)中列出所有确定的单点故障。该清单提示在开发、制造、安装和测试过程中特别注意这些项目。由于FMEA及其相关CIL是上述五因素决策过程中的关键决定因素,因此整个过程通常被称为“FMEA/CIL”过程。

FMEA/CIL过程
因此,FMEA/CIL过程是一种静态定性、自下而上的方法,旨在评估和降低单个独立部件故障造成乘员、车辆或任务损失的风险。虽然这种方法在生产可靠的航天器和运载火箭方面确实是非常成功的(基于阿波罗的成功),但它的各个特征最终导致了一些缺点。这里不可能对该过程的缺点进行展开讨论,仅将主要问题的摘要罗列如下:
·无自然概率边界(发生概率未量化);
·无风险关注点(风险未排序);
·针对单个独立故障,忽略相关故障或共因故障影响;
·难以合并人为和软件错误;
·处理动态情况的困难;
·没有识别和处理不确定性的系统方法;
·在试验资源方面的重大财务成本。
在了解FMEA/CIL过程缺陷以及美国宇航局(NASA)关于实施定量风险评估的初衷之后,必然会询问:NASA为何会在定量风险评估方面向后转,并在已经了解诸多方法缺陷的情况下仍然热衷于采用定性的方法。
对这样一个问题的答案当然会包含一些推测的成分。但作者的经验和现有的历史证据,都支持这样一个可能的答案。这些证据如下:(1)考虑到阿波罗时代实际的环境,FMEA/CIL过程中的许多缺陷并不是那么严重,(2)无论如何,当时可用的定量方法没有充分解决这些缺陷,和(3)利用现有定量模型,对实际任务中“将要发生”的事件的风险预测结果是完全不可接受和不准确的。这,再加上充足的试验资金,对于项目具有较高成功概率的共识,以及阿波罗13号机组人员的成功救援(尽管有共因失效),所有这些似乎都使美国宇航局的FMEA/CIL过程得到认可和制度化。这一理念根深蒂固,以至于在随后的航天飞机研制时代,从20世纪70年代到80年代初,即使受到严格限制的试验预算,并出现相当严重的研发问题而表明对风险量化具有潜在的需求时,美国宇航局仍然选择不采用定量风险分析。

航天飞机定量风险评估
当罗杰斯委员会[12](特别是不知疲倦的理查德·费曼教授[13])建议美国宇航局重新考虑采用定量风险分析方法时,美国宇航局对定量分析的传统性的厌恶有所减轻。这些建议导致了在挑战者号事故和目前的航天飞机PRA之间的一系列开创性的定量评估研究。这些研究的结果(已在其他地方报道过[14])给航天飞行项目的管理者留下了深刻的印象,足以使他(们)对航天飞机从起飞时的主机启动到着陆时前轮停止的整个飞行阶段的航天飞机风险进行全面调查。此外,这项研究还将深入到一些重要风险领域,调查各个要素的风险驱动因素,在某些情况下这些因素可能深入到部组件。这项研究还将最大限度地利用美国宇航局的经验,以及承包商的经验,对航天飞机独特的设计、试验方式和可重用性提供信任。最后,这一阶段要完成的工作的一个重要特点是给美国宇航局留下一个“实时”的任务风险模型。这种实时模型在航天飞机项目风险管理中的应用现状,以及其潜在的后续应用,将在以下各节将讨论。

风险管理和实时航天飞机风险模型
当定量风险评估被重新引入到美国宇航局的太空计划中时,风险评估技术得到了持续的发展。计算机硬件和更新、更快的量化算法的进步,使量化风险的计算时间从几天缩短到一夜,再到数小时。此外,最初可用的原始工作站变成了集成平台,增加了数据预处理器和分析后处理器。事件树可以自动链接到所有恰当的故障树,数据库中的数据可以自动链接到故障树基本事件集。以前绘制故障树的繁琐任务,以及对其进行更改的技术状态控制的更繁琐的任务,现在都自动实现了。分析人员可以使用一种简捷、非常快速的图形化方法来建立事件树和故障树,这些神秘而基本的可视化模型能够自动生成漂亮的输出树。
随着激光打印机的出现,任务更加简单,程序代码可利用标准输出格式实现自动分页和从一棵树到另一棵树的自动输入输出转换。工程中甚至可以从独立的低级事件组中自动创建模块化事件,以帮助实现快速量化。现在,随着最新一代笔记本电脑的出现,整个核电站一级PRA(即,在反应堆堆芯出现损坏之前触发事件路径的风险)现在可以在几十分钟到一小时内进行量化。
这些进步,使得PRA模型可以在运营决策中动态使用。风险的持续评估允许及早发现潜在重大风险影响的不利趋势,从而允许管理层提前干预。PRA以这种方式成为“实时”系统,因为它持续监测核电站的“生命体征”,并根据其风险影响对其进行核准。
近期为航天飞机完成的风险评估也以类似的方式进行。整个模型在个人电脑或笔记本电脑上实现。
如果不需要计算门概率,量化计算最快可在10分钟内完成;如果需要计算门概率,则最快可在20分钟内完成。基于每个有效序列的5000个样本的整个基于蒙特卡罗的不确定度传播分析可以在不到15分钟内完成。此外,可以定期输入正在进行的方案数据,以检测潜在的不利趋势,可以评估最近的设计变更是否具有降低风险的潜力,并且可以在降低成本效益风险的基础上评估拟实施的设计变更。


航天飞机PRA在预算受限条件下的风险控制中的应用
预算环境下如何应用PRA描述当前航天飞机项目的示例,已经在其他文献中给出[14]。然而,在预算大幅减少的情况下,另一项可能更重要的用途是管理运营风险。这种零基风险管理的概念始于应用一个简单的原则,即将处理任何事情所需的操作步骤减少到实现处理功能所需的实际步骤。对于航天飞机来说,最基本的步骤就是发射下一次飞行所必须的步骤。
这些保留的步骤,应研究其可能的重组方式,以便进一步使步骤减少。一旦减少到一个最小的集合,剩下的步骤将完全删除任何测试或检查步骤,没有飞行后的调查,没有维护维修活动,除了装载有效载荷和启动发射所需的步骤外,什么都没有。这就是零基。然后,根据对每个航天飞机任务风险因素的重要性,对一组零基发射过程步骤进行评审和排序。通过这种方式,可以评估由于取消相关保证工作的相关流程步骤而产生的差异风险。评估完成后,将根据其在确定或消除任务风险方面的历史记录有效性、相关风险缓解情况以及所需的相关实施成本等对该保证步骤措施进行评估。然后,在成本/风险降低优先级的基础上,将保证步骤添加到每次或分组发射所需的实际处理步骤中,直到获得与当前规定可接受的飞行风险一致的估计风险目标。所有额外的保证步骤都被确定为频率降低或消除的候选步骤,需经过项目管理评审,然后,可以根据可测量的过程参数建立和跟踪一系列基于风险的工作指标,以识别并引导管理层注意任何过程风险的增加。最终,一个“实时”过程风险管理体系得以建立。该体系可以系统地、逐步地利用积累的飞行经验来替代当前保留的地面保证措施所提供的信任,考虑到飞行经验的不断增长,地面保证措施将逐步减少其频率并最终消除该措施。
这样一个以航天飞机PRA为背景的风险管理处置系统,可能为解决航天飞机运行成本与安全风险之间的困境,提供直接帮助。以这种方式管理航天飞机项目,只会保留那些具有最高成本效益的保障工作项目,并能够允许用航天飞机飞行经验以有序的方式逐步取代地面过程保证措施,从而即使在未来极为严峻的预算限制情况下,也能保持航天飞机的飞行频率而不会增加风险。这也可为美国宇航局提供一种方法,使其能够保证,如果航天飞机的运营被转让(似乎越来越有可能)[15],那么当前的航天飞机安全水平不会受到损害。

致谢
作者要感谢NASA JSC的David Whittle先生和NASA总部的Bryan O'Connor先生,感谢他们支持本文所依据的一些工作。作者还想感谢曾工作于美国宇航局总部,现就职于Futron公司的Benjamin Buchbinder先生的开创性努力。感谢SAIC的Gaspare Maggio先生在本文所述的航天飞机PRA工作中所做出的贡献。最后,特别感谢SAIC的Darrell Walton先生和Erin Collins女士在编写本手稿时给予的协助。

参考文献
[1] Fragola, J.R., 'Reliability and Risk Analysis Data Base Development, An Historical Perspective', submitted to Reliability Engineering and System Safety, special issue on Reliability Data Bases, Elsevier - North Holland, Amsterdam, The Netherlands.
[15] Iannotta, B., 'Firms Double-Team Shuttle Management Issue', Space News, August 7-13, 1995, pg. 3.(全文完)
扫描二维码