100个实验只能验证36项,心理学还靠谱吗?
2005年的一篇论文在标题里宣称“大多数已发表的科学研究结果都是错的”,而2015年的一项研究发现,100项心理学实验中只有36项能够得到验证。难道说三分之二的心理学都不可靠吗?心理学能挺过这次可重复性危机吗?
交易担保 哔哩哔哩 心理学面临大危机? 小程序
点击图片
可观看完整视频
2005年8月,期刊PLOS Medicine上发表了一篇文章,题目是《为什么大多已发表的科学研究结果都是错的》(Why most published research findings are false)。在这篇文章中,首当其冲受到质疑的对象,就是心理学。
在2010年发表的一篇论文中,研究者发现心理学领域的阳性结果,也就是实验证实了某个假说的结果比例最高,大约能占9成。他们怀疑这其中涵盖了大量的假阳性结果,也就是说某项研究看起来证明了某种观点,但这其实只是人为或巧合带来的错觉。
为了检验这些实验,在过去十年间,一批心理学研究团队采取了一种简单粗暴的方法,那就是把过去的心理学实验重复一遍。他们会严格遵循当时的实验方法、实验材料,遵循或适当改进实验方案,并且大量增加样本量。
终于,2015年8月,一部分重复结果发表在了Science上,其中,270位研究人员共同重复了100项心理学实验。然而研究结果却令人震惊:仅有36%的实验验证了当初发表的结论。我们都知道,想要判断一个科学发现的质量,可重复性是一个重要的指标,这项研究引发了一场地震:难道三分之二的心理学研究都是假的吗?心理学究竟还靠谱吗?
在回答这个问题之前,先让我们看看都有哪些理论遭到质疑:
实验一:
2010年哥伦比亚大学的研究者发现,有一种 “征服者姿态”特别好用。这个姿势是将双手高举,形成V字。论文把这个姿势命名为power posing,并且说这种姿势能让睾酮水平上升,与压力有关的皮质醇水平下降。其结果就是,做出这个姿势的人,会觉得自己变强了。
实验二:
2012年,普渡大学的研究者针对著名的“艾宾浩斯错觉”进行了一项实验。艾宾浩斯错觉指的是当一个圆形被较小的圆所包围的时候,看起来会比被较大的圆包围的时候要大。而在2012年的这项研究中,研究者在高尔夫场地里制造了这种错觉,他们提出,当我们让球洞看起来更大的时候,玩家就更容易把球打进洞里。
实验三:
20世纪70年代,奥地利心理学家瓦尔特米舍尔提出了你经常在鸡汤文中读到的案例:“棉花糖测试”。米舍尔找了一批4-5岁的孩子,分别发了一块棉花糖,并且让他们自己待着。他告诉孩子们:我过一会就回来了,如果那时你们还没吃掉第一块棉花糖的话,就能得到第二块。随后米舍尔追踪了这些孩子的成长轨迹,发现那些当年成功抵制了诱惑的孩子,在各个方面都更加成功。
经过重复验证,这三项实验的结果全部被推翻了。在power posing问世5年之后,瑞士苏黎世大学的研究者将样本量从原始研究的42人,增加到了200人,却没能得到同样的结论。对于高尔夫场里的艾宾浩斯错觉,也没能得到成功重复,并且研究者还注意到,原论文可能操纵了实验数据。而对于著名的“棉花堂测试”,2018年的一项重复研究对918人进行了10年以上追踪观察,研究者发现,棉花糖实验的预测能力并没有米舍尔所说的,以及人们想象中的那么强。
除此之外,还曾有研究“证明”了以下结论:
1、当想着一个沉重的秘密时,我们会将山丘的坡度高估13°,因为感觉自己快完蛋了。
2、如果用牙齿咬着一根铅笔,我们会觉得一幅图更加有趣,因为我们被迫做出了微笑的表情。
3、在一场智力桌游中,想象一位教授的形象能让我们表现得更好,因为人们通常会把教授和智慧联系起来。
4、在照片上笑得更真诚的人将更加长寿,因为微笑表明这个人更容易流露积极情绪,进而能更好地应对压力。
这些研究听起来都很有趣,也因此往往能得到大量曝光。根据google scholar的统计,咬着比的研究已经被超过2000篇论文引用。而“power posing”研究的参与者之一,就曾在TED大会上建议求职者在面试前做出这个姿势。同一场大会,她之后的演讲者,则介绍了嘴里咬着笔的研究,这场大会录像的观看次数,已经超过了5000万。然而我们很遗憾地告诉大家,过去十年间的重复实验推翻了以上所有的发现。
那么我们回到开头的问题:心理学还靠谱吗?事实上,过去十年间心理学的可重复性危机,更像是一个好消息,这意味着心理学成为了少数走上了自我修正道路的学科之一。在大量的重复实验中,即使是失败的重复也常常能为心理学家带来新的认知,或是引入原始研究中没有的维度。
比如那个打高尔夫球的重复实验,失败的重复帮心理学家排除了一个错误答案。这项研究的核心问题是:大脑中负责形成有意识图像的通路,和其他利用视觉控制动作的通路是相互独立的吗?而最终的结果证实确实如此,因为尽管被试感觉球洞变大了,但在打出高尔夫球时,他们大脑中形成的无意识图像并没有受到艾宾浩斯错觉的影响。
而有时候,即使重复实验失败了,但也并不意味着原始研究的结论是错的。比如我们之前提过的,桌游与教授的实验。它背后的理论其实是心理学中的经典效应“启动效应”。其实大量心理学研究已经证明了,语言或他人能在无意识中影响我们的判断和决策,尤其是通过激活刻板印象的方式。尽管在这项研究中,它没能被重复出来,或者说教授的形象并没有“启动”我们大脑中的那一点智慧,但启动效应仍然是个经得起检验的心理学现象,启动效应领域所发表的众多研究也依旧是有效的。
因此我们会发现,心理学这门科学的基石依然稳固。可重复性危机并没有推翻整个领域,恰恰相反,“潮水退去,才知道谁在裸泳”。这场危机恰恰提升了心理学自我质疑的能力,使其变得更加成熟。
我们需要知道的是,科学的认识永远是暂时的,知识是种种建构,它们有朝一日都会被结构,从而得到更好地重构。正如美国天文学家菲尔·普莱特所言:“科学的一部分过程,就是承认我们有时会犯错。这可能会非常、非常困难。但它的另一面是最美好的,那就是更进一步的认知和理解。”