核电灾难的概率与辛普森案 | 用数学的语言看世界 02
续借昨日《从辛普森案到赌场必胜法宝》继续
THIRD▶
条件概率与贝叶斯定理
使用频率最高的公式之一
好像开始有点长篇大论了,接下来我们来讲点不同类型的概率!
前面我们都在思考独立事件的概率,如果发生两个独立事件,那么两者同时发生的概率等于两个事件概率的乘积。例如在概率 p 的条件下抛两次硬币,正面同时朝上的概率为 p x p。不过,当然还存在不是两个独立事件的情况。
假设你们班上有 36 位学生,其中 1/3 的同学擅长理科,1/2 的同学擅长数学。那么,随机挑选一个学生,这个学生既擅长理科又擅长数学的概率是多少?如果两者属于独立的事件,那么概率为 1/3 x 1/2 = 1/6。但是,学习理科经常要用到数学,所以擅长理科的学生多数也擅长数学。所以,这两者“并不是两个独立的事件".
将班上 36 位学生按照是否擅长理科和数学进行分类,结果如下表所示:
然后按照上表计算槪率。班上 36 位学生,其中同时擅长理科和数学的学生共有 10 人,所以概率为 10/36≈0.28。这个概率稍大于之前 计算的 1/6≈0.17。
假设擅长理科同时又擅长数学的概率记作 P(理科→数学)。按照上表所示,擅长理科的学生共有 10 + 2 = 12人. 12 人中 10 人同时擅长数学, 那么P(理科→数学)=10/12 = 5/6。
[遇见数学]注: 教科书中多是这样表示 P(数学|理科)
另一方面,不擅长理科却擅长数学的概率为8/24 = 1/3。也就是说,是否擅长理科最终会影响擅长数学的概率,这两者并不是独立事件。因为是在“擅长理科”的条件下计算出 的概率 P(理科→数学),所以 P(理科→数学)叫作条件概率。
那么,擅长数学同时又擅长理科的概率又是多少呢?按照上表计算, P(数学→理科)=10/18 = 5/9。这个概率与P(理科→数学)=5/6 不同。这两个概率看起来相似,实际上完全是两码事。
不过,这两个概率也并不是完全无关。两者关系如下:
此处的 P(数学)指的是擅长数学的概率=1/2, P(理科)指的是擅长理科的概率=1/3。带入数字 1/2 X 5/9 = 1/3 X 5/6 验证,即可证明这 个公式的正确性。
以上公式中的数字并不是偶然相等。请详见以下说明。
按照上述说明分别计算 P(数学)P(数学→理科)和 P(理科)P(理科→数学),可以发现两者的计算结果均等于
正因为两者都在计算“既擅长数学又擅长理科的概率”,所以两边的计 算结果相同.
是数学界著名的“贝叶斯定理". 托马斯·贝叶斯是18世纪的英国牧师,他原本想要计算神存在的概率,结果却发现了这个公式。然而,这个公式在贝叶斯生前并没有公布,而是在他过世半个世纪以后,法国的数学家皮埃尔-西蒙·拉普拉斯撰写了一本有关概率的书箱,并在书中介绍了这个公式。在那之后,这个公式开始被人熟知。
FOURTH▶
乳腺癌检查是否没有意义?
伪阳性的概率
使用概率时,条件概率的计算往往成为关键。运用贝叶斯定理, 会让概率的计算一目了然。我们可以以讨论乳腺癌检査的优缺点为例, 来说明贝叶斯定理。
前面我们讲过,在某种程度上可以控制健康长寿的概率 p, 不过如果想要增大 p 值,必须每年都要参加体检。美国癌症协会建议女性从 40 岁起最好每年接受乳房X光检查,以便尽早发现乳腺癌. 然而,美国政府的预防医学工作组却发表了“不建议 40岁女性定期接受检查”的观点,引起了广泛的讨论。
如果不幸患上了乳腺癌,据说乳房 X 光检查结果呈阳性的概率髙达 90%。公式表达如下:
概率高达90%的话,可能大家觉得还是接受检查比较好。那么,预防医学工作组为什么不建议接受检査呢?
假设接受乳房X光检查,结果呈阳性。这个时候想要知道,呈阳性的情况下真的患上乳腺癌的概率是多少?不过,90% 的概率指的是与此相反的情况,即患上乳腺癌时检查结果呈阳性的概率。这两者虽然槪率不同,但是存在一定的关系。套用贝叶斯定理的话,使用公式
根据最近的统计结果,美国40岁女性患上乳腺癌的概率为0.8%。 也就是说,
另一方面,40岁女性接受乳房X光检查结果呈阳性的概率 P(阳性)为0.08 (这个数字是从之前的数据中推导得出。详细说明请参考我的个人主 页)。集齐
等关键数据后,将其带入贝叶斯定理的公式,结果如下:
也就是说,“结果呈阳性时患上乳腺癌的概率”仅有 9%。伪阳性的概率超过 90%。
预防医学工作组表明,因为在接受检查的女性中,检查结果呈阳性实际上却没有患乳腺癌的人数超过了 90%,所以不建议接受检査。一旦结果呈阳性,必须接受活体组织检查等对身体负担更大的检査,同时对心理的打击也会更大。调查显示,即使知道是伪阳性,3 个月后 2 个人中还是会有 1 个人对健康感到不安. 而且,美国政府也需要一个标准来确定保险的覆盖程度。不接受检查的话,存在无法发现癌症的风险,不过接受检查同样也存在风险。
不过,对当事人来说,人的生命只有一次,为了尽早发现癌症,即使存在伪阳性的风险,还是想要接受检查 P 实际上,建议40岁女性接受乳房X光检查的美国癌症协会发表声明,公开反对预防医学工作组的劝告。你的妈妈从40岁起每年都会接受乳房X光检查。
40岁女性接受乳腺癌检査,结果呈阳性并患上乳腺癌的概率只有 9%。但是,检查结果呈阳性后再次接受检查的话,结果又会怎么样呢? 为了计算方便,假设两次检查的可靠性相同. 因为第 1 次检査结果呈阳性,所以乳腺癌的概率为 9%,换言之 P(患上乳腺癌)=0.09。而且, 这位女性接受第 2 次检查后结果仍然呈阳性的概率为 P(阳性)=0.14 (计算方法请参考我的个人主页)。因此,再次运用贝叶斯定理,计算结 果如下:
检査一次结果呈阳性的话,患上乳腺癌的概率只有 9%。但是,再检查一次结果还是呈阳性的话,概率就上升至 58%.
接受检查前患有乳腺癌的概率为 0.8%。接受检查后结果呈阳性患 乳腺癌的概率为 9%, 但是这并不代表检査没有意义。因为再一次接受检查,结果还是呈阳性的话,患上乳腺癌的概率达到 58%。运用贝叶斯定理,每次获取新信息时都知道如何修改概率。从数学的角度体现 出学习“经验”。
概率通过数字告诉我们接受检查存在的风险与不接受检查存在的风险。先准确理解数字的意义,再进行判断,这就是本章題目“从不确定的信息中作出判断”的意义。
FIFTH▶
用数学来"学习经验"
先验/后验概率
下面我以特殊的骰子为例,来说明学习“经验”是怎么一回事儿。 在学校学习概率时,老师们总是强调“虽然前一次掷骰子掷出 1, 但是下一次掷骰子掷出任何一面的概率都是不变的”。也就是说,掷两次骰子时,两次的概率是相互独立的. 例如,假设不是特殊的骰子,第一次掷出1的概率是 1/6, 第二次掷出 1 的概率也是 1/6。
不过,如果普通骰子和特殊骰子混在一起,分不淸哪个是哪个时, 第一次是否掷出 1 会影响第二次的概率。
普通骰子掷出1的概率为 1/6,假设特殊骰子掷出 1 的概率为 1/2。公式表示如下:
正因为普通骰子和特殊骰子的数量相同,假设手头上普通骰子和特殊 骰子的概率是五五开,即
按照以上数据,掷出 1 的概率为
这个公式的导出方法请参考个人主页上的补充说明。因为其中混有容易掷出 1 的骰子,所以掷出 1 的概率为 1/3, 大于 1/6。
那么,假设第一次掷出 1,再次掷同一个骰子时,第二次掷出 1 的概率为多少呢?首先要注意的是,第一次是否掷出 1 会改变骰子是否特殊的概率。代入贝叶斯定理的话,
P(掷出1)P(掷出1→普通)
=P(普通)P(普通→掷出1),
因此 ,
P(掷出1→普通)=1/4, P(掷出1→特殊)=3/4
本来骰子是否特殊的概率为 P(普通)=P(特殊)=1/2, 但是如果第一次掷出1 的话,那么骰子特殊的概率增至 3/4。
一旦掷出1,那么骰子中特殊骰子的概率会增加,所以再次掷同一 个骰子时,掷出 1 的概率也会增加。计算公式如下:
第一次掷骰子时掷出 1 的概率为 P(掷出1)=1/3≈0.3。不过掷出 1 后,再次掷同一个骰子时掷出 1 的概率增加至P(掷出→掷出1)= 5/12≈0.4。知道第一次掷出的是 1 后,骰子属于特殊骰子的概率从 1/2 变成 3/4。因此,按照以上数据,下一次掷出1的概率从 1/3 更正为 5/12。这就是我所说的运用贝叶斯定理来学习“经验”。
SIXTH▶
核电站重大事故再次发生的概率
如何把握安全性
这个概率的计算方法与日本人正在面对的重大问題有关。
我们有时候必须从不确定的信息中作出判断。例如在福岛第一核电站发生事故之前,据说日本的核电站发生事故的概率极小。但是, 这次事故发生后才发现,原来核电站的构造如此复杂,连专家们都无法完全把握其安全性。也没有人准确地算出事故发生的槪率到底是多少。这类似于刚才所说的骰子是否特殊,掷出 1 的概率到底是 1/2 还 是 1/6。
我在报纸中看到,在这次事故发生之前,东京电力公司向日本政府提交的数据是核电站发生炉心熔融等重大事故的概率为一座核电站在 10 000 000 年运行期内会发生1次事故。但是,日本开始使用核电站才不过50年。目前日本国内差不多有 50 座核电站,再加上最近刚建成的核电站,将核电站数除以运行年数,运行的核电站总计约为 1500 座X1年。那么,如果东京电力公司计算的概率正确的话,在过去 50 年日本发生重大事故的概率为 1500/10 000 000 = 0.00015。表示如下:
另一方面, 反对建造核电站的人们主张要重视发生重大事故的概率.
我不知道他们估算的危险性有多高, 不过假设他们担心每隔几个世代就会在日本的某地发生一次重大事故的话, 难道是每 100 年发生一次吗? 如果反核电运动人士主张重视的概率是正确的话, 那么在过去 50 年发生重大事故的概率为 50/100, 也就是
如果比喻成特殊骰子,“东京电力公司估算正确”相当于“拿到普 通骰子”,“反核电运动估算正确”相当于“拿到特殊骰子". 正如特殊 骰子掷出 1 的概率会变高,假设反核电运动的主张正确,那么发生重大事故的概率也同样会变高。
在接下来的计算中,为了计算方便,假设东京电力公司估算的概 率和反核电运动人士主张的概率中有一个是正确的. 当然,也有一种可能性是东京电力公司和反核电运动人士估算的槪率都是错误的,所以这是一个很大的假设。不过我们的目的在于说明贝叶斯定理的使用方法,在这个假定下计算即可.
在事故发生前,很多人都相信东京电力公司的所言. 至少允许建造核电站的政府官员判断核电站是安全的。假设相信东京电力公司主张正确的概率为 99%,那么记作:
按照上述数据,计算50年之中发生重大核事故的概率为:
换言之,即使反核电运动人士强调 100 年间发生一次事故也很危险,如果他们正确的概率只有 1%,那么在日本国内某处发生重大事故的概率约为 0.005 次,估算为10000年间发生一次。
然而在日本,核电站的运行时间才不过 50 年,就发生了炉心熔融。一旦发生了事故,我们需要重新审视东京电力公司那个正确槪率为 99% 的主张。于是,运用贝叶斯定理的话,
事故发生以后,东京电力公司的主张正确率从 99% 急降为 3%. 原因在于东京电力公司主张的事故概率 P(东电→事故)为0.00015,这个数值极小。虽然主张几乎不会发生事故,既然发生了事故,东京电力公司的主张正确率变低也在情理之中。运用贝叶斯定理,通过数学的语言来表现什么叫作“失去信任”。
那么在事故发生以后,下一次发生事故的概率又是多少呢?如果设备的运行率与事故之前相同的话,那么
反核电运动人士所说的每 50 年发生 0.5次,也就是每 100 年发生 1 次。
为了方便说明贝叶斯定理的使用方法,简单地假设“东京电力公司和反核电运动人士估算的概率中有一个是正确的”。当然,也有一种可能性是东京电力公司和反核电运动人士估算的概率都是错误的. 而且, 因为 P(反核电→事故)=0.5或者 P(反核电)=0.01 等数值是我自己随意计算得出的数字,不能这个按照表面意思来理解这些计算结果。
这次事故发生半年后,大概在2011年10月17日,东京电力公司重新公开发表了福岛第一核电站再次发生炉心熔融的概率,改为每 5000 年发生一次。在日本国内约有50座核电站,所有核电站重新运行的话,在日本某地发生重大事故的概率为每几百年发生 1 次。
当我们获取新信息,只要根据这些新信息来修改概率,就可以降低不确定性。这就是学习“经验”。继续使用核电站存在风险。另一方面,对于依赖大受进口化石燃料的日本来说,停止运行核电站同样存在风险. 而且,当然还要考虑化石燃料对地球气候变化的影响。比较各方面的风险后再作判断,也就是说,计算风险需要正确理解概率。
所谓进步,就是积累经验,获取更加正确的知识。每当遇到新信息, 我们需要拥有能够改变之前判断的勇气和沉稳的内心。这也是我们从 贝叶斯定理中学到的.
SEVENTH▶
欧·杰·辛普森真的杀害了妻子吗?
用数学来看清本质
也就是说,只要能够证明辛普森有家庭暴力,他杀害布朗的概率为90%。提出这个概率的话,想必就不能“排除合理怀疑”了。所以,显然这是一个重要的证据。90% 的概率也足以用来反驳德肖维茨教授的主张。这就是数学的力量。
事件发生时凶手所使用的黑色皮手套最终决定了审判结果。在辛普森家中发现的手套中沾有两人血液以及布朗的金色发丝,同时还检验出了辛普森的 DNA。检察院提交了作为证物的手套,但是他们致命的失败在于要求辛普森戴上手套。因为沾有血迹的皮手套收缩了一些, 所以辛普森的大手难以戴上。而且,后来媒体曝光出发现这个皮手套的警官是一名种族歧视者,辩护团主张这位警官有可能捏造证据诬陷黑人辛普森。由于警方草率管理证据遭到曝光,持有合理怀疑的陪审员们讨论后一致决定辛普森无罪。虽然数学起了一定的作用,但是仅靠数学也不一定能贏得审判。
但是, 辛普森审批中最重要的问题是"有家庭暴力, 而且妻子遇害时, 丈夫杀害妻子的概率".
据说在美国, 已婚女性被丈夫以外的人杀害的概率为 20000 人中有 1 个人. 假设受到家庭暴力的妻子被丈夫杀害的概率为 1/2500, 即 100000 人有 40 人被丈夫杀害. 遇害的妻子总共为 40+5=45 人, 其中被丈夫杀害的妻子为 40 人, 所以受到家庭暴力的妻子被杀害时, 丈夫是犯人的概率为
也就是说,只要能够证明辛普森有家庭暴力,他杀害布朗的概率为90%。提出这个概率的话,想必就不能“排除合理怀疑”了。所以,显然这是一个重要的证据。90% 的概率也足以用来反驳德肖维茨教授的主张。这就是数学的力量。
事件发生时凶手所使用的黑色皮手套最终决定了审判结果。在辛普森家中发现的手套中沾有两人血液以及布朗的金色发丝,同时还检 验出了辛普森的 DNA。检察院提交了作为证物的手套,但是他们致命的失败在于要求辛普森戴上手套。因为沾有血迹的皮手套收缩了一些, 所以辛普森的大手难以戴上。而且,后来媒体曝光出发现这个皮手套的警官是一名种族歧视者,辩护团主张这位警官有可能捏造证据诬陷黑人辛普森。由于警方草率管理证据遭到曝光,持有合理怀疑的陪审员们讨论后一致决定辛普森无罪。虽然数学起了一定的作用,但是仅靠数学也不一定能贏得审判。
上文节选自《用数学的语言看世界》, 已获人邮图灵许可, [遇见数学] 特此表示感谢!
《用数学的语言看世界》
向上滑动阅览简介及目录
作者者:大栗博司
出版社:人民邮电出版社图灵新知
出版年:2017年4月