谎言、天杀的谎言、和统计学(博士)
最近随着美国疫苗注射工作的大规模展开,疫苗的安全性和有效性得到了极为充分的验证。就拿最近“爆出”会导致血栓问题的J&J疫苗来说,其导致血栓的概率其实大约只有百万分之一,小于人被雷劈的概率。而辉瑞和摩德纳的两种mRNA疫苗连这个级别的安全事件都没有观测到。可以说,美国疫情得到最终控制,大家熬出头来的日子已经能够看见了。这是科学的伟大胜利。
在这样的时刻,我们不得不回顾一些曾经流传过的反疫苗阴谋论,看看那些说法是多么荒唐。就拿当年的辉瑞疫苗面瘫风波来说,一群直接造谣的阴谋论者大家都可能见过并不难辨别,但还有一些更讲究技巧的忽悠方式。比如说,有人首先撇清自己,声称自己不反对疫苗,同意疫苗有益处,也不赞同那些粗制滥造的阴谋论,但是认为辉瑞的确有故意回避问题、那些辟谣也只是按辉瑞口径说话,理由经不起专业人士的推敲云云。
比如有一位统计学博士就是这么做的,我这里就不点名此人是谁,其实很多人也都知道此人。他文章中两段“专业”论述如下:
这种做法的'优点'非常显然,首先作者可以矢口否认自己有什么反疫苗的动机,只是从一个专业人士的角度较真和就事论事罢了。然后既然他又“专业”的证明了辉瑞公司就是在遮遮掩掩,那很多人就会自然的想到:辉瑞在面瘫的事情上要遮掩,就不会遮掩什么其他更严重的事情?他们的疫苗或者任何疫苗能够被信任吗?但当然,这话他自己没说,是读者自行想到的,他对此不负责任。
只是,他要真想做到撇清自己,他的有关专业论述就必须过关。让我们看看是否真的如此。
拿图一来说,其中的数字没有什么大错误。但里面有个数字“1”,指的是对与实验中疫苗注射组同样人数的普通人群中在相应时间内面瘫发病人数的估计值,他认为1是上限,这就有问题了。
这涉及到普通人群中得面瘫概率到底多大,他引用的估计是10万人中15-30,30正好对应那个上限1,但是很容易找出其他估计,例如25-35,这样1就不是什么上限,而是中值。考虑到面瘫是种并不严重的罕见病,很多人不去就医在家自行痊愈,就算去就医的也未必能够完全进入统计数字,所以人群中的真实发病率估计更容易偏低而不是相反。而辉瑞对照实验中是对每位参与人员跟踪观察,不会漏掉任何发病病例。所以在和一般人群的估计数字对比时,使用高一点的估计是更合理的,至少不能简单的把那个“1”说成'上限',好像他做了什么让步似的。
当然这不是主要问题所在。问题的关键是,他用泊松分布算出“四人及以上得面瘫的概率仅为1.9%”。这里面的问题不在于那个1.9%的准确性,而在于他故意用了个“仅为”来提示这个数很小,给读者造成印象辉瑞实验组出现四人面瘫是个一般情况下很罕见的现象,是此事和疫苗有关联的重要证据。
但他并没有解释,为什么1.9%这个数算小。或者,在研究这类问题时,到底什么算大,什么算小。不必博士,任何对统计学稍有最基本常识的人都知道,这样的概率算不算小,或者说“显著”,比较的标准不是100%,也不是50%,而至多是5%。也就是说,这类实验中计算出来的这种概率(统计中称为一类偏差),如果比5%都大,那就什么结论都不能得出来。而且近些年来大家的共识是,5%这个门槛太低了,会造成大量的垃圾结论,一般真要结果有意义,该使用的数值是1%甚至0.1%。
而1.9%离5%真的非常接近(统计学上这种接近不是指绝对数值,而是指数量级),把这个值称为“仅为”,是不折不扣的忽悠不懂统计学的读者。
而且事情还远远的没完。再看第二张图。这里提到一个叫“多项假设检验”的东西,该作者说,这个东西不关键,也不影响前面的论述,只是他做为“统计学博士”,为了严格起见必须提一提。
真的吗?多项假设检验在统计学中是个非常基本的东西,通俗地说,指的是你同时观测多个指标,根据指标与标准值的偏离来判断某系统是否有“异常”。就单一指标来说,哪怕系统完全正常,指标读数也会有一定随机性而不会正好是标准值。所以只有对标准值的偏离达到一定程度,或者说,在系统正常情况下达到这样大偏离的概率小于一定程度,才该给出预警。而这个偏离程度的标准,就是前面所说的5%或者更低的1%,0.1%等。但然而,在同时观测多个指标的情况下,哪怕系统正常,出现其中一个偏离正常值达到如此范围的概率明显要大于单指标的情境。
这时就不能仍然沿用5%而必须对标准进行调整。最常用的做法是所谓的“邦费罗尼调整”,其计算公式非常简单,拿单指标时的标准-即所谓“门槛概率”-除以指标(即假设)总数即可。
那么我们就算使用单假设检验中最粗糙的门槛概率5%,按该作者本人引用的文件,至少还有其他三项指标如“神经、神经发炎、血栓”,那么加起来就已经有个四个假设,经过邦费罗尼调整后,门槛概率为1.25%,低于该作者声称“仅为”的1.9%。
因此按照严格的统计学,那个1.9%的概率看似小,但其实不足以在疫苗和面瘫二者中得出任何统计有效的因果关联。
笔者本人也是“统计学博士”,并且在硅谷某家社交网络公司工作。每周最重要的工作之一是“模型线上检测”——即通过将新模型用于少量实际用户后再观察与标准模型的指标差别,得出新模型是否优于标准模型的结论。这是个典型的多假设检验问题,通过公司系统可以看到多个指标的差异以及相应偏差概率。对于概率小于5%的,会认为毫无意义甚至不必显示。如果在多个指标中仅有一两个达到2%或类似数值,也不值得关注,一般只有在概率小到0.1%时,才能真正得出新模型有优越性的结论。
哪怕没有统计学背景,这些也都是入职培训时就应该解决的最基本问题。谁要是连这些问题都搞不清楚,就该立即被公司解雇。
更不要说什么“统计学博士”。连5%和邦费罗尼调整都不懂,不但不该被授予博士,连本科统计课期中考试都不该及格。
我不相信那位“统计学博士”是这类情况,毕竟他还正确的利用泊松分布计算出了1.9%,他还知道“多假设检验”——只要知道这个词,就会知道什么叫邦费罗尼调整。
所以这位作者为何会给出这样偏离专业的论述,我看是另有原因。
英语中有句老话,叫 “lies, damned lies, and statistics”——谎言、天杀的谎言、和统计学。其实这对统计学很不公平。统计学本身是一门严格的数学,和其他数学分支一样,内部没有任何谎言存在的空间。所以有问题的,从来不是统计学,而是心术不正的统计学博士。