信了100年的P值 也许信错了?
提起P值,每位对科研稍有涉及的人,基本都知道P<0.05意味着差异有显著性。如果继续深究,差异显著性的意义是什么?大都会满脸迷茫,以一种像是回答又像是询问的口气说道,是概率吧?
就在我们对P值究竟为何物还一头雾水,且还带着一丝盲目崇拜的时候,有些大牛开始质疑P值的价值,认为P值并没有大家所认为的那样可信。甚至,类似“P值已死”的观点还不时冒出来,掀起一阵阵的争论浪潮。
P值从问世到现在,已经近百年。我们信了100年,用了100年。在我们的意识里,能经得起时间考验的,都是真理。如果它没有“生命力”,怎么会风靡科学界100年?在百年“诞辰”之际,难道P值真的到了寿终正寝的时刻了?
今天我们就来了解一下P值背后的原理、在整个统计学框架里扮演的角色、P值的前世今生、以及未来的命运。
P值在整个统计学框架中扮演的角色
我们首先来看看在整个统计学框架里,P值在充当着什么样的角色。
现代统计学主要由两大部分组成:统计描述,统计推断。
统计描述,就好像给数据拍张快照,看看它们长什么样子。我们熟悉的平均数、中位数就是用来看看数据在什么位置扎堆。标准差、四分位数间距等,是用来看它们亲密或疏远的程度。当然也可以用直方图、箱线图、散点图等统计图形,来更为形象直观地展现扎堆的情况。
统计推断,是根据我们手中的样本数据,来推断其背后类似的整个群体是否具有相同的特征。因为大部分时候很难做到对全体进行研究,只能折中,研究其中的一小部分,然后据此来推断全体的一般规律,比如我们购买桔子时,不能把桔子都吃完,才判断这一堆桔子是甜还是不甜,只能尝一个,然后据此判断桔子的整体情况。不过,值得一提的是,现今火热的“大数据”可能做到对所有数据,即总体进行研究。
统计推断,包括参数估计和假设检验两部分。参数估计是指用样本数据估算总体的未知参数。如果是用一个数值进行估计,则称为点估计;如果估计时给出的是一个区间范围,则称为区间估计。
假设检验,用样本的特征信息来推断总体的特征的过程。假设检验有点像侦探,通过手里有限的证据,大胆做出推测,作为进一步调查分析的起点,以最终了解事情的全貌。该文的主角P值,就在这一过程中发挥给予肯定还是否定的判官的作用。
P值背后的原理是什么?
如上所述,P值在假设检验这一过程中发挥判官的作用。说到假设检验的原理,通常要从抛硬币游戏说起。
一天中午,饭店里酒足饭饱后的两位年轻人小李和小王都不想埋单,于是提议用抛硬币来决定谁掏钱,具体规则如下:一元硬币抛10次,谁的菊花朝上多,谁赢。
小李先抛,6次菊花朝上。小李很是得意,自认为胜券在握。
然后,小王开始抛,竟然有9次菊花朝上。
小李的脸立马由晴转阴,一脸怒色,指着小王吼道,你丫作弊,硬币有问题!
小王反问道,凭什么说硬币有问题?难道抛10次9次朝上不可能吗?
显然,理论上是有这样的可能存在的,但毕竟这样的概率太小了。通常,我们认为,完全公平竞争,菊花朝上的概率为1/2。小李坚持认为小王在作弊,小王用的硬币可能两面都是菊花,毕竟电影中就常出现这样的桥段。小李提出检查小王的硬币,但小王坚决拒绝。因此,一番争执后,经过商议,采取了一个折中的办法,再次进行实验来验证。
按照统计学语言,描述如下:
小王提出假设(H0):硬币是公平的
小李坚持硬币被动了手脚(H1):导致结果偏向小王
这里的H1称之为备择假设,也就是有待证明的观点。H0被称为检验假设,就是有待证明观点的反调。二者非此即彼,不相兼容。
结果,仍旧出现了9次菊花朝上的情况。假如硬币公平,出现这种情况的概率是1/512。比这种情况更加极端的是,10次统统朝上,其概率更低,是1/1024。
抛10次9次朝上的概率,和10次都朝上的概率,二者之和就是P值,远小于0.05。据此,10个硬币9次朝上和更极端的10次都朝上,属于小概率事件。
于是,拒绝H0,接受H1。即推断出小李的猜测“硬币有猫腻”是正确的。
总之,假设检验的基本过程为,依据实践或常识提出一个观点(H1),例如桔子是甜的,然后故意唱反调桔子不甜(H0),然后证明桔子不甜的概率很小,否定这一观点,反过来推断出桔子是甜的(H1)。
假设检验的核心思想是:
如果您还是觉得上诉解释太烧脑,只要铭记一条简单粗暴的黄金口诀就ok了:If P is low, H0 must go!
貌似天衣无缝的P值,何以屡遭质疑?
上诉假设检验的推断流程,在小编看来,简直就是浑然天成,天衣无缝。然而,大咖们并不这么认为。自上世纪20年代诞生以来,大咖们对其批评不断,其所用的语言也是极尽讽刺之能,先后被比作蚊子(这东西很烦人,又挥之不去)、皇帝的新装(P值方法中到处都是显而易见的问题,却被所有人无视)、不育的风流才子(这位“才子”强行抢走科学佳人做压寨夫人,却让科学佳人后继无人)。
为什么P值备受争议,我们一起来追溯一下P值和假设检验的历史,并从中寻找答案。
1900年,统计学家Karl Pearson在其论文中提出了我们耳熟能详的卡方检验,文章中一同被介绍的,还有 “P值”。
1925年,Ronald A Fisher,也就是现代统计学之父,提出了显著性检验的思想。P值能风靡学术界这么多年,Fisher是第一推手。Fisher给出了在各种情形下P值的计算方法。
1928年,Jerzy Neyman和Karl Pearson的儿子—— Egon Pearson提出了假设检验(简称N-P),即后来流行的“备择假设”的概念。
Fisher的显著性检验,没有需要首肯的观点(H1),而Egon Pearson的假设检验不仅有要首肯的观点,还有一个唱反调的主假设Hm(与H0类似),同时还提出了效应值、把握度,I类、II类错误的概念,且采用拒绝域而非P值来做决策。
除了形式上的差别,二者深层次的哲学指导思想也不同。Fisher的显著性检验其思想基础是假设总体无限多,手中的数据是从中随机抽取的一小部分样本。Pearson的假设检验是假设我们可以从总体中无限制抽取样本。
对于统计学的实践意义,二者的观点也是大相径庭。Fisher认为统计学的功用是只能总结某观点对立面的数据具有的特点,不能直接推断出某观点正确与否,且不能直接依据数据结果判断现实和指导行动。这意味着,Fisher并没有打算将显著性检验当做辨别是非的判官用,只是用来查看数据是否值得进行深入研究这一中间环节的一个小帮手。
而Egon Pearson认为,没有任何一种统计推论思想能够不参与决策。他们直接忽视了P值这个指标,将它作为一种指导行动的决策方法,还引入了包括统计效力、假阳性、假阴性和很多其他如今在统计学概论课上耳熟能详的概念。很明显,Pearson的思维方式的实操性很强,迎合了研究者使用统计学开展科研的初衷。
Fisher和Pearson争执不断。Pearson批评Fisher的某些工作还不如毫无用处,而Fisher则嘲讽Pearson的方法无比幼稚、甚至骇人听闻。
就在双方的争论尚且难分高下之际,其他研究人员的耐心早已消耗殆尽,想尽快将这些统计学的最新成果推而广之。他们开始给科学家们编写统计学应用指南。1940年,Lindquist首次将Fisher的显著性检验和Egon Pearson的假设检验糅合在了一起, 提出了原假设显著性检验(Null Hypothesis Significance Testing, NHST)。就是把Fisher粗略的P值计算法硬塞进了内曼和Pearson二人建立的规则严密的统计系统中,创造出了一种混合的方法,然后“P值为0.05,即可将统计结果视为显著”的规则应运而生。
追溯完P值和假设检验的历史,大家应该明白,
我们现在广泛使用的假设检验,看似流畅统一严谨合理,但其实是一道大拌菜,是卡方检验、显著性检验、 N-P假设检验硬生生组合在一起的大杂烩
“P值已死”的观点并非完全空穴来风。P值从来没有可以肯定(H1)或否定(H0)某个观点的功能,因为基于某个样本得出的结论,当样本大小变动时,结论也可能会改变。
问题重重的P值,用于实践有什么影响?
并不完美的P值用于实践,引发一系列问题。
首先,P值显著并不等同于现实中确实如此,容易使研究者夸大或缩小某现象的影响。比如,一项覆盖超过19000人的研究显示,与现实中结识夫妻相比,网恋夫妻离婚率更低(P<0.002),婚姻满足感更高(P<0.001)。现实情况是,网恋夫妻离婚率为5.96%,现实中结识夫妻为7.67%。根据7分幸福感评分,网恋夫妻幸福感为5.64分,现实中结识夫妻为5.48分。网恋夫妻与现实中结识夫妻的离婚率和幸福感,虽然P值很小(千分之1和千分之2的概率),提示有绝对的差异,但绝对数值的差值却很小,分别仅相差1.71%和0.16%。
其次,P值不能直接等同于某现象的发生概率。很多科学家看到某研究结果的P值为0.01,就会认为该结论不成立的概率只有1%。但其实P值无法告诉研究人员这样的信息。现实中,结论不成立的概率远大于P值。P值为0.01,结论不成立的概率超过10%,结果可重复的概率只有73%左右,再次结果为0.01的概率只有50%。简而言之,实验结果不可重复的概率高得惊人,就跟抛硬币猜正面向上还是朝下其正确概率相似。
再其次,研究人员不能根据P值直接判断事实。要对事实作出判断,还需要结合更多信息来综合考虑。就好像某种罕见脑瘤的表现之一为头痛,一个人清晨醒来觉得有点头痛,然后就断定自己患上了该脑瘤。这当然不是不可能,只是概率太小,所以还得拿出更多证据来排除感冒等这类更为常见的原因,才能最终确诊。
最后,因种种现实原因,不少研究者为了追求所谓的显著性结果,选择进行“P值操纵(P-hacking)”,即通过增加样本量、数据分层等手段,来让P值达到有显著性。这导致一些探索性的研究结果,看似确定无疑,实际上研究结果很难重复。还有人曾利用统计学分析得出了奇葩的结论:大学生听披头士乐队的音乐会变得更年轻;吃巧克力可以减肥(目前该文章已被撤回)……。
P值:弃之不用还是进一步完善?
对于毛病诸多的P值,是弃之不用,还是进一步完善让其浴火重生,各方态度不一。
一些国际大牌杂志对此态度有些偏激,直接宣布禁用P值,比如说政治杂志《Political Analysis》和心理学杂志《Basic and Applied Social Psychology》(BASP)。但搞笑的是,当BASP的主编被Nature问道“没了P值怎么办”时,主编“淡定”地回答“我也不知道什么样的统计方法可以取代P值”。显然,在建立好新房子之前就急着推倒旧房子,不是明智之举,只能沦为无家可归的流浪儿。因此,这本杂志成为了抛弃P值试验的小白鼠,结果可想而知。
很多统计学家呼吁用贝叶斯等决策方法替代P值。贝叶斯法则诞生于18世纪,其思想是把概率视为某种结果的似然性而非出现的频率。这其中蕴含了某种主观因素,而这也是统计学前辈们极力想避免的。但是,贝叶斯分析框架能够使观察者将自己的认知相对容易地融入结论,以及计算出现新数据后概率如何变化。但贝叶斯检验需要研究人员来定义和检测两个替代假设,显然并不是所有的研究人员都有能力进行贝叶斯检验。
当然,更多的统计学家们支持对其进行改造,让其趋于完美,具体方法如下:
1、避免使用“显著”或“不显著”来进行判断。如心理学家Cumming建议,研究者应当给出置信区间和统计效力,以让读者获悉研究结果的靠谱程度。
2、将P值的阈值从现行的0.05降到0.005。P < 0.05只能称之为有提示意义(suggestive),P < 0.005才叫有显著意义(significant)。对这一观点持支持态度者不在少数。2017年7月,针对是否支持将P值阈值降低,Nature对读者做了个调查,结果6938人中竟有69%人表示支持。如何真要实施这一改变,影响可谓深远。很多小伙伴觉得P < 0.05已经难于上青天,再要降低,提高门槛,真的会要了老命?
3、还有人赞同将同一个数据用多种方法进行分析。倘若不同的方法得到的结论不同,就表明研究者应该继续开动脑筋,努力找到原因所在,这能让我们更好地了解现象背后的真相。
总之,已经风靡了100年的P值,虽然备受争议,但就此让它退出历史舞台,有点难度。在一个更为完美的替代方案问世之前,它仍旧会有很强的生命力。
对于P值,不知您的态度是什么?