【论文】英美情报分析沟通概率政策综述 / 四六文摘

本文机器翻译由百分点智能翻译提供

官网地址：http://translate.percent.cn/

公司官网：https://www.percent.cn/

商务和技术咨询欢迎联系400-6240-800 或 fanyi@percent.cn

1.导言

情报分析员必须评估世界当前和未来的状况。例如，目前朝鲜的弹道导弹能力如何？它的能力预计在未来5年内如何发展？这些计划和行动的战略意图是什么？这些评估通常在不确定的条件下进行，因为相关信息可能丢失，甚至不可知（如外国领导人的意图），信息收集可能有偏见，信息可能不可靠，也可能有目的地误导。因此，大多数分析性评估本质上是主观概率判断。分析师不仅期望准确判断这些概率，还期望他们以真实的方式向情报消费者传达这些概率及其对这些概率的信心。这些消费者包括依赖事先情报报告的其他分析师，以及决策者和其他决策者（如军事指挥官），他们在国防和安全方面做出关键决定。

情报评估中概率的明确沟通很重要，因为沟通失误会导致情报报告的“决策”错误，进而可能引发错误和有偏见的决策。2003年美国领导的联军入侵伊拉克旨在寻找事实上不存在的大规模毁灭性武器（WMD），这些后果十分明显。对这次重大情报失误的事后分析批评情报组织在评估中低估了“不确定性”，表明比现有资料所证明的更有确定性。巴特勒报告进一步质疑情报产品的起草和展示是否“有助于读者了解情报评估所附带的不确定性范围”。2004年美国国会报告强调了报告中的连带错误问题，该报告指出，在先验情报的基础上，“不从第一层传承不确定性，……给人的印象是，其判决比理所当然的更有确定性”。Chilcot调查强调了这种情报对决策的有害影响，它引用了英国首相托尼·布莱尔的观点，即情报组织“确信”伊拉克拥有大规模毁灭性武器。

正如上述引言所指出的，关于情报评估中的不确定性的讨论有时混淆了概率和信心的概念。然而，分析人士和情报组织似乎都觉得很难处理这两个概念。例如，Friedman和Zeckhauser发现，分析师们把概率判断与信心判断混为一谈。同样，美国参谋长联席出版物(JP)2-0联合情报(用于军事行动中的联合和多国情报)指出，信任应使用各种语言概率在三个层次上表达(例如，低信任可由“可能”表达)，适度的信心可以用“可能”和“不可能”来表示，而高度的信心可以用“几乎肯定”和“遥远”来表示。

在本章中，我们关注情报社区的概率沟通。

情报界（IC）中的一些人可能相信，与概率传递错误相关的问题可以通过完全避免来解决。这可以通过建议完全确定性或者忽略通信概率来实现。Kessehnan搜索了写于20世纪50年代至21世纪50年代的《国家情报评估》(NIEs)(又称情报报告或产品)的内容，Mandel和Barnes分析了在大约6年期间产生的2013个加拿大战略情报预测所使用的语言，这些研究人员发现，代表确定性的“意愿”是分析师最常用的词。Friedman和Zeckhauser发现，1964年至1994年间编写的NIE中有显著比例(即18%)没有对与预测结果相关的概率作出任何评估。然而，忽略概率并不是解决错误传播问题的灵丹妙药。例如，1961年美国入侵猪湾，旨在推翻古巴卡斯特罗共产主义政权的失败，事后分析指出，除其他外，在没有美国军方明目张胆的支持下，在秘密行动中，忽视了向决策者传达成功的机会，正如2004年美国国会报告中所承认的那样，该报告指出，“尽管分析者不愿这样做，但分析人员必须愿意面对不确定性，并在其评估中明确说明这一点”。

为了鼓励分析人员毫不含糊地交流评估中的概率，情报组织近年来已对此类交流实施了正式政策。几乎所有这些策略都建议分析师使用语言概率（例如，诸如“非常可能”之类的术语）。在本章中，我们批判性地回顾了美国和英国的这些政策——它们彼此共享其情报产品，以及产生联合情报的国家。我们指出他们承诺使用本质上模糊的语言概率来传达概率，尽管在这样做时存在有充分记录的缺陷。我们还指出，在开发和完善通信概率的方法时，似乎不愿有效利用相关的科学证据，我们认为这种方法导致通信不确定性的方法不够理想。

2. 情报分析中现有的沟通概率策略

在对伊拉克大规模杀伤性武器（WMD）情报失败的调查提出建议后，美国和英国于20世纪50年代中期出台了在情报评估中沟通概率的政策。在英国，2004年《巴特勒评论》指出，“虽然不主张对[表达]……不确定性采取特定做法，……我们建议情报界（Intelligence Community）再次审查他们的惯例，看看是否有利于刷新它们”，在美国，2004年国会的报告指出，“无论使用什么装置来表明确定性的程度——数学百分比、图形表示或关键短语——共同体内的所有分析人员都应该对这些指标的含义以及如何使用它们有一个共同的理解”，第419页。

在美国，国家情报总监办公室(ODNI)制定了政策，在英国，国防情报局(DI)和最近的情报分析专业负责人(PHIA)制定了政策。ODNI和PHIA都负责监督各自国家的情报界（IC）。尽管他们有各种各样的沟通概率的选择，美国和英国都选择使用语言概率来传达情报评估的概率。具体而言，两个国家的分析人员（如同其他许多采用类似方法的分析人员一样）必须使用标准化词汇，即从最低到最高概率排序的选定词汇或短语列表。在某些情况下，短语被数值组合在一起

，可以是点估计（例如，80%；参见参考资料)，但通常是范围(例如，55％-80％)。谢尔曼·肯特(ShermanKent)在创建中央情报局(CIA)国家评估办公室(今天的美国国家情报委员会(National Intelligence Council)的前身)方面发挥了关键作用，他是最早倡导这种标准化词汇的人，虽然当时在中央情报局没有正式实施，

多年来，美国和英国的词汇经历了几次修订。表17-1和表17-2显示了美国和英国词典、的最新版本，如表171所示，美国词典包括七个类别，包含总共14个短语，其表示从1％至99％的数值。表17-2显示，英国词典包括七个类别，共包含八个短语，这些短语映射到两种格式的近似数字范围，即百分比和分数。这两种格式只是近似同义的。例如，35%接近1/3的分数“等效”，但不确切。然而，这种轻微的差距通常在英国标准的视觉显示器中变得明显。

短语	数值(%)
几乎没有机会/遥远	1-5
极不可能/极不可能	5-20
不太可能/不可能(不可能)	20-45
大概甚至是偶然的/大概甚至是偶然的	45-55
可能/可能(可能)	55-80
极有可能/极有可能	80-95
几乎肯定/几乎肯定	95-99

表17-1：国家情报局局长办公室编制的标准化词汇。自2015年1月起使用。

短语	百分比(%)	分数值
远程机会	§5	§1/20
极不可能	§20	§-§
可能性不大	§-§	§-§
现实可能性	§50	§1/2
可能/可能	§-§	§-§
极有可能	§-§	§-§o
几乎肯定	§	§19/20

表17-2：情报分析专业主管编制的标准化词汇。也称为“概率尺度”。自2018年3月起使用。

注：符号§指“近似等于”。

虽然这些标准在适用范围上属于国家标准，但在使用相关标准的组织中，这些标准的执行略有不同。例如，英国国家犯罪局(National Crime Agency in UK)使用标准的视觉表示，其中语言概率项沿着从0％到100％的水平线示出，每个项的边界表示为百分比概率，但不表示为分数。低于50%的概率用蓝色阴影表示，高于50%的概率用紫色阴影表示。

尽管我们认为，IC应该制定明确的准则，以传达不确定性的方面，例如概率和信心水平，但我们对他们所采取的解决办法感到关切。在本节的剩余部分中，我们总结了其中许多关注点，因为它们涉及当前美国和英国词典的具体特征。尽管两个词典表现出差异，但它们共享相同的通用方法，这需要选择限定词概率项的集合，然后尝试通过将它们与数值概率间隔对准来设定这些项的含义的界限。具体地说，两个词典提供了分析者可以从中选择的七类概率。这具有使0-1概率标度粗化的效果，并且可人为地夸大稀有事件、尾部风险或原本被描述为黑天鹅(即，具有极低概率但也极高后果严重性的事件)的表示可能性，虽然词组如“远程机会”和“几乎无机会”是词汇中最低的概率类别，但这些词组并不传达准确描述尾部风险所需的极小机会。事实上，它们很可能是几个数量级。例如，一项对这类术语可解释性的研究发现，英国情报分析师样本对“远程机会”的峰值解释约为23%，加拿大分析师样本对“远程机会”的峰值解释约为17%，显然，分析师无法有效地传达使用这个术语的1%的机会，更不用说1/10, 000的机会，这在黑天鹅领域仍然很大。我们相信，向决策者传达概率的IC标准应该使分析师在评估时尽可能细致。

我们对依赖口头概率的交流方法的另一个关切是，这些术语不仅传达概率，还传达给接受者“方向”。方向性是指阶段本身是积极的还是消极的。例如，加强一个积极词语，例如有可能使用“非常”或“非常”，将提高所传达的概率，而对一个消极词语则会降低概率。这本身没有问题。然而，研究已经表明，具有负方向性的短语的解释比正词短语具有更大的可变性，这得到了来自情报分析人员的研究的证据。

美国词典中的所有类别和英国词典中的一个类别都包含一个以上的短语，因此打算完全替代。有人认为，提供同义词允许在情报报告中的文体表达，然而，一些证据表明，在分析者的头脑中，词汇中的同义词可能不是可互换的，交流的接受者可能会将词汇中区分的术语视为近义词。Ho等人。例如，发现情报分析家把遥远的机会视为近乎同义词，不太可能。然而，我们看到，在美国和英国的词汇中，这些术语在它们各自的尺度上占据相邻的序数位置。

两个词典中的口头术语与数值范围相关联。这旨在提供概率术语含义的固有模糊性的界限。然而，Budescu Por、Broomell和Smithson发现，词汇中言语概率短语的接受者往往不牢记这些标准，并默认他们对这些短语的个人解释，从而违背了他们的目的。这些作者也显示了语言理解中的变异性。

通过呈现数字范围可以稍微降低概率，短语意在与语句本身中的概率的语言表达一起表示。然而，如果为了给口头术语提供足够清晰的含义，必须在智力估计中包括数值范围，那么为什么要使用这些术语呢？为什么不简单地列出这些幅度，然后大概可以专门针对评估量身定做？此外，目前有一些类别的数字范围相当大（即美国词典中高达25%的点和英国词典中高达20%的点）。因此，有些短语比其他短语模糊得多。宽泛的解释空间增加了误解概率的机会。例如，撰写情报报告的美国分析师可能打算“可能”意味着55%（即范围的底部），而阅读他/她的报告的人可能理解它意味着80%（范围的顶部）。

现行标准虽然采用了同样的一般方法，但在许多具体方面却存在差异，这些差异可能损害双边互操作性并导致通信错误。例如，美国词典包含14个分为两组的词组，而英国词典包含8个词组的单一集合。在词典之间只有五个词组，值得注意的是，英国词典包含了“现实可能性”这个词组。Barnes“禁止”在加拿大概率词汇中使用“现实可能性”一词，因为他认为它缺乏精确性（另见Kent 1964年关于黄鼠狼词的讨论）。事实上，研究表明，美国和英国的分析师通常不会用这个短语来表达概率。

最后，美国词典并不涵盖概率区间的终点（即0%和1%），而英国词典则涵盖了类别之间的差距（例如6%-9%）。因此，完全确定性不能用美国词典在语言学上表达，而概率尺度上的特定点不能用英国词典表达。同样，省略终点排除了. 99至1, 以及. 01至0之间的所有数量级。在美国词典中，每个类别与下一个类别略有重叠，而在英国词典中，如上所述，类别之间存在差距。使用美国词典的分析师可能会发现，在类别顶端或底端传递概率时，很难选择特定的短语。鉴于类别范围广，这尤其成问题。例如，希望表达55%数值的分析师可以使用“大致均匀的赔率”，其底部范围为45%或“可能”，顶部范围为80%。显然，如果决策者认为被表达的可能性是45%或55%对80%，那么他们会做出不同的反应。最后，虽然美国词典中的类别与数值范围相关联，但在英国词典中，它们与数值和分数范围相关联。这些分数的分母在类别内和类别之间都不同(例如，第二类代表§-§/5，第三类代表§-§)。在英国词典中，共有七个不同的分母。缺乏一个共同分母意味着信息不能轻易地聚合(汇总)，必须努力寻找一个共同分母。

3. IC对语言概率的承诺

情报组织非常喜欢用概率的语言而不是数字来沟通。Friedman和Zeckhauser在对国家情报评估（NIEs）的分析中发现，只有4%的人包含概率的数值表达式（例如：因此，2000年代中期在英国和美国引入的词汇，只是将IC长期以来对精确性和概率量化的偏向制度化。在偏好使用语言概率方面，IC并不孤单。事实上，研究已经表明，人们通常更喜欢用概率语言而不是用数字来交流, 特别是在这种情况下，在情报分析领域的特征条件下做出判断，即，当人们感觉相关信息不可靠或不知道时。

出于几个原因，人们可能更喜欢用语言而不是数字表达概率。Wallsten等人。发现有些人说使用语言而不是数字更容易，也更自然。对一些人来说，这种偏爱在认为问题不重要和/或信息不可靠时尤为明显。在IC中，巴恩斯观察到，分析师最初认为难以估计数值，分析师还担心，数值估计会误导提供错误的精确感，这可能导致决策者对情报评估过于自信。最后，分析师担心数值被用于评估其分析性能，因为这些数值很容易测试（例如：，通过使用Brier分数)。独立分析师的情绪由监管IC的组织分享。例如，国家情报局局长办公室指出，“对这种[分析]判断给予准确的数字评级将意味着比我们预期的更严格。“

然而，鉴于用文字传达概率的巨大、有充分记录的陷阱，这种好处值得怀疑。研究一再表明，在实验室环境和应用领域，这种变异性在人之间以及个人内部是明显的。具体地说，个人可能对特定短语有广义或模糊的解释。另外，不同的人可以使用不同的短语来指代相同的概率值和/或可以使用相同的短语来指代不同的值。

研究还表明，语言概率的解释可能受到使用语境的影响，这些上下文可以在外部提供(例如，事件的基本速率或结果的严重性)或在人的内部(例如，人对主题的态度)。在情报分析方面，Mandel报告说，情报分析员和大学生的组合样本在用于描述被描述为失败的行动时，与描述同一行动为成功的行动相比，对语言概率进行数字解释的区别要小得多。

最后，目前还不清楚语言概率如何有效地组合。这在情报界（IC）中尤其令人关注，其中通常要求分析员表达多个(独立和交互)事件的概率如何组合以导致结果或一组结果。例如，想象一下，为了显示特定的威胁场景，必须发生四个独立事件的链。在一种情况下，事件的概率估计为. 75，. 10，. 70和. 01。在另一种情况下，它们被给予美国标准等价物，‘可能’、‘不太可能’、‘可能’、‘几乎不可能’。如果被问及四个事件发生的概率是多少，那么对于分析员来说，使用数值概率来计算连接概率将是容易的，该连接概率仅仅是四个项的乘积，等于10, 000中的514。我们强烈怀疑，使用语言概率的分析师会被误入歧途，这不仅是因为口头术语不能传达如此小的概率，还因为单词不适合算术运算。

英国和美国情报界采用的交流概率的类似方法表明，IC认为，使用语言概率的陷阱可以通过采用标准化词汇来减轻，这些词汇试图确定所选短语的预期含义。然而，研究表明，人们发现很难压制语言概率的正常含义，即使为它们提供了词汇标准，以便查阅。

目前在共享情报的组织中使用的多个词汇（例如：英国和美国。这些情况要求分析人员（和其他智力消费者）迅速改变对短语的使用和理解，并在心理上处理不同的词汇。如果研究表明，即使是一个词汇也没有得到很好的遵守，那么接受情报的个人进行额外调整的可能性是什么？查看表17-1和表17-2说明由于词汇中的组织差异而需要的杂耍行为。例如，尽管英国词典使用“不太可能”表示25%-35%，但美国词典使用它表示更广泛的概率范围（即：因此，来自两国的情报产品的消费者需要推测这些产品是否打算进行相同或不同的通信。为了说明由于组织内部对词汇的修订而需要采取的心理杂耍行为，我们可以参考英国，2018年3月5日，英国国防情报局(DI)的标准版本被情报分析专业负责人(PHIA)的版本所取代。因此，预计分析师及其客户将更新他们对前一个词典中几乎所有短语的理解，并在提及3月5日之前编制的报告和该日之后编制的报告时使用这两个词典。

简而言之，IC希望允许分析师使用语言术语来传达他们熟悉的概率，但不希望允许分析师确定这些术语的含义。在这样做时，我们认为，国际中心高估了它在体制上授权含义、通过连续修订随意改变其含义、以及从其分析伙伴和合作者获得相应遵守的能力。

4.IC应该制定循证政策

在情报失灵后，IC的政策发展历来没有考虑相关的证据基础，除了轶事“吸取的教训”之外，这在很大程度上也适用于制定和完善情报评估中传达概率的政策。尽管我们不能排除，国家情报局局长办公室和专业情报分析主任办公室在制订政策过程中考虑了相关的研究结果，我们认为科学发现点与IC采用的解决方案之间的不一致性表明对相关研究成果的利用是无效的。我们还没有看到任何证据表明，在全面采用这些方法之前或之后对所采用的方法的有效性进行了测试。因此，无论是国家情报局局长办公室还是情报分析专业负责人都不知道他们的词汇是否是交流概率的有效方法。

评估标准化词汇有效性的一种方法是比较词汇倡导者和分析者之间的相似性和差异。例如，分析家是否按预期使用词汇中的短语？他们是否认为短语可以替代，就像在词典中倡导的那样？幸运的是，在IC中，关于概率如何传递的研究越来越多。一些研究基于对实际情报报告的内容分析，虽然这种方法的外部有效性高，但是该方法是有限的，因为它不能使研究人员确定分析人员在使用特定短语时记住了什么概率值，除非它们还在报告中提供数值(鉴于倾向于以语言方式而不是以数字方式传递概率，这可能相对不常见)。

部分为了克服这种限制，其他研究已经使用了定量方法

参考文献，它引出人们用来交流概率的词汇，并测量人们如何用数字方式解释语言概率（关于某些具体方法的详细情况，请参阅参考文献）。然而，无论使用何种方法，现存的研究主体都指向政策（词典提倡的）与实践（分析师所做的）之间的差异。下面我们总结了这项研究的主要发现及其对美国和英国词汇的影响。

Kessehnan统计了预先选定的63个单词和短语列表，包括国家情报总监办公室在20世纪50年代至2000年代中期撰写的《国家情报评估》中的原始词典中的单词和短语，她的分析揭示了几十年来使用的语言的趋势。从 1950 年代到 1990 年代，“偶数”的使用逐渐减少，然后增加。在国家情报总监办公室（ODNI）的词汇中，有意可互换的“可能”和“可能”等词语的流行程度不同。从1950年代到1990年代，“可能”的使用有所增加，而“可能”的使用有所减少。事实上，国家情报总监办公室（ODNI）词汇中的短语并不同样受欢迎，在本世纪初至本世纪中叶，国家情报评估（NIE）中没有出现“远程”和“甚至机会”。尽管Kessehnan无法辨别分析人员在使用特定短语时提到的可能性，但很明显，国家情报总监办公室(ODNI)为恢复那些已经“过时”的语言所做的努力可能会面临接受方面的挑战。

Mandel研究了加拿大一个战略情报单位的战略分析人员使用的标准化词汇，其目前包括在国家情报总监办公室和专业情报分析主管(PHIA)现有词汇中的一些短语。他向军事情报分析师（他们在工作中没有使用词典）和大学生的组合样本询问，为每个短语提供最好的数字概率等价物。他的调查结果表明，对目前国家情报总监办公室和专业情报分析主管词汇中的短语的解释没有直接映射到规定的数字范围。在某些情况下，基于95%置信区间，参与者中值等价性估计的可信范围低于或高于类别范围。例如，在专业智商分析主管（PHIA）的词典中，虽然“极不可能”代表10%-20%，但在曼德尔研究中，中值最佳估计值的相应95%置信区间为8%-10%。同样，虽然“可能”的意图是代表55%-75%的专业智商分析头（PHIA）的词汇，95%置信区间的中值估计是75%-80%。最后，诸如“可能”和“可能/可能”这样的词组在参与者的心目中并不完全如此，因此，依赖美国和英国报告的加拿大分析师可能误解了他们的美国和英国同行打算交流的概率。当然，在美国和英国情报产品的其他消费者中也会发生误解。

Wallsten等人对119名中央情报局分析员的语言概率词典进行了考察。他们发现词典的平均大小（跨越0到1个概率区间）大约是8个短语。这远远低于目前的国家情报总监办公室词汇，相当于目前的情报分析专业负责人词汇。Wallsten等人。此外，还发现分析师词汇中出现的词组存在相当大的变异性。有170个不同的短语。“不太可能”和“可能”是最常见的短语，出现在大约70个分析师的词汇中。为了目前的目的，我们指出，尽管分析员词汇中的短语的排序与国家情报局长办公室和专业情报分析主任办公室规定的排序有普遍的对应关系，分析家对这些词汇中的短语的数值解释再次不同于预期的解释在类别范围之外解释的短语。美国国家情报局（ODNI）规定，美国分析人员可能不会解释短语，这一事实表明，期望他们压制对语言概率的本土解释，可能是不现实的。

最近，Dhami在26名英国情报分析员撰写情报报告的语言概率词典的研究中发现了类似的结果。分析师的词汇平均包含十个短语，总共使用了145个独特的短语。“可能”和“不可能”也是最常用的一些短语。此外，尽管分析员词典中短语的排序通常与美国和英国词典中的排序一致，但其词典中包含出现在这些词典中的短语的分析员没有按照规定使用它们。例如，尽管“可能”被评为分析师词汇中的“极不可能”之前，但他们使用短语来表示最大概率高于英国词汇规定的范围。一些短语的解释高于或低于专业情报分析主管（PHIA）现有词汇规定的类别范围，分析家认为不可能“可能”和“可能”按预期可互换。

最后，Ho等人研究了61名加拿大和英国情报分析家对美国和英国词汇中短语的解释，试图比较循证词汇与美国和英国词汇的效力。研究人员使用一组分析员得出不同的基于证据的词汇，这些词汇使用与美国和英国词汇相同的概率短语。基于证据的词典依赖于不同的统计方法来设置对应于每个概率短语的数字范围。Ho等人。然后研究一组截然不同的分析员，记录了他们的数值概率等价性估计的比例，这些估计落在各种词典规定的范围内。英国和最好的循证词汇在极端表现优于美国词汇（即最低和最高概率短语），而美国和循证词汇在中等概率表现优于英国词汇。总体而言，Ho等人表明，循证词典在捕捉分析师对机构授权术语的解释方面优于英国和美国词典。

5. 结论和前进道路

在本章中，我们强调了一些与使用语言概率来传递概率相关的重大缺陷。这是由于短语解释的变异性、语境因素对短语解释的影响以及聚合短语含义的困难。要求分析人员在使用诸如国家情报总监办公室和专业情报分析主管所倡导的标准化词汇时，压制其短语的正常含义，这是非常成问题的，几乎是站不住脚的。应当采取另一种方法来沟通概率，这种办法借鉴了科学理论和证据，并将克服与使用语言概率有关的缺陷。情报产品中概率的传播错误可能造成毁灭性后果，这一事实突出表明有必要改进目前的政策和做法。

也许默认策略应该要求分析人员使用他们自己选择的数值范围（以及适当的精确数值概率）。情报组织不仅应鼓励并允许分析人员更精确、更清晰地传达概率，还应鼓励分析人员以有助于他们产生更精确概率的方式进行分析。回想一下，美国国家情报总监办公室（ODNI）在美国避免使用数字概率，因为他们认为这可能意味着比预期的更严格，我们认为即使评估的基础是主观概率判断，分析也应该严格。在IC中，只有频发概率（或相对频率）可以被量化仍然是一个深刻的误解。面对贝叶斯主义和理性选择理论的基础, 我们建议IC至少投资于研究相对有效性的研究。

文章来源：https://www.researchgate.net/publication/341523231

【论文】英美情报分析沟通概率政策综述

相关推荐