心理学的可重复危机简史及应对危机的方法

最近几年,心理学研究所能够制造的大新闻,大概就是可重复危机了。这个问题已经受到了非常广泛的关注,Wikipeida也收录了可重复危机(replication crisis)的词条。

可重复性问题到底是从何时开始的?是如何出现的?作为研究者,我们该如何应对心理学可重复性危机?

一、心理学可重复性危机简史

以下是一系列在Science和Nature上被报道并引起广泛关注的事件,在这里将首先相关事件作一个回顾。

◇事件1◇

Bem (2011)的预见未来的实验。已经是知名社会心理学教授的Bem在人格与社会心理学的顶级期刊Journal of Personality and Social Psychology上发表的标题为“Feeling the Future”的文章指出:通过9个实验,包括了1000多名被试,他发现未来发生的事件,可能会影响到被试当前行为反应。在这个颇具有预见性的讨论中,他讨论了统计方法、可重复性和这种预见未来现象的问题。当然,心理学界的人很快提出了质疑,两个研究小组采用贝叶斯统计对他的数据进行了分析,表明无法从数据中得到这个推断。此后的重复实验也没有发现Bem的这个结果。此时,人们还无法预知,这个事件将成为心理学可重复危机历史的一部分。

◇事件2◇

到2011年年末,另一重磅事件彻底让人们开始反思心理学中方法的严谨性了。这就是Stapel的论文造假事件。Stapel本人是荷兰Tilburg University社会心理学的教授,刻板印象方面的专家。2011年4月8号,他在Science上发表一篇题为 “Coping with Chaos: How Disordered Contexts Promote Stereotyping and Discrimination”的论文。这篇文章的主要内容讲述的是,凌乱的环境居然会加重人们的刻板印象。但是到了2011年11月1日,Nature报道,Stapel的这篇论文涉嫌造假,标题是“Report finds massive fraud at Dutch Universities”,而Science也撤回了此论文(2011.12.02)。此后,Nature 和Science都对这个事件进行了持续的关注。Stapel的文章之所以能够被发现是数据造假,是因为他的研究生举报了他的造假行为(想想如果没有研究生举报,他会继续作假到什么时候?)。而Tilburg于2012年12月的调查报告显示,在他职业生涯中发表的137篇论文中,有55篇数据完全是捏造的。他指导的10个博士生毕业论文的数据也同样是造假的。另有10篇论文,无法断定是否有造假行为。Science在报道这个最终报告时,提出一个事实:整个心理学领域都有无法推脱的责任(Final Report on Stapel Also Blames Field As a Whole),因为Stapel的55篇数据造假的论文中,审稿过程中完全没有发现问题。而这并不是在审稿过程中无法发现的问题。因为在2012年,宾大沃顿商学院的Uri Simonsohn对Smeesters已经发表的两篇论文结果进行仔细的检查之后,怀疑作者的数据有问题。随后Smeesters所在的大学对其进行了调查,Smeesters声称自己由于某些客观原因,原始数据丢失,但是其所在大学无法接受这个理由,接受了其辞职(见Science的报道)。

荷兰蒂尔堡大学心理学家德里克·斯塔佩尔(Diederik Stapel)(图源网络)

◇事件3◇

回到2011年,Simmons, Nelson & Simonsohn 在Psychological Science上发表了一篇名为False-Positive Psychology的论文。这篇文章指出心理学研究中,有一些比较常见的做法会让整个领域的假阳性过高。不过这个文章仅在学术界引起了一些关注,媒体的报道相对较少。在这一年,Virginia University的Brian Nosek在Google Group里成立了一个叫做Open Science Framework的讨论组,11月7日发起一个倡议,建议对2008年发表的研究进行大规模的重复,这应该就是后来的Open Science Framework的萌芽。

Open Science Framework 官方网站截图

◇事件4◇

2012年1月,无法重复的启动研究。在中国的农历尚未到2012年之时,社会心理学的社交网络圈爆发了一个新闻:著名的老年启动效应无法重复出来。在哈佛的幸福课(positive psychology)中,讲课的老师就引用过这个研究。研究表明:当大学生看到一系列与老年相关的词汇之后,他们走出实验室的速度会变慢,也就是说,变得更像老年人。2012年1月,开源杂志Plos One发表了Doyen等人一个研究,声称无法重复出这个著名的效应。他们做了两个实验,第一个实验完全重复Bargh等人的实验,第二个则对参与实验的人进行了某种暗示,再现了这个效应。对于这个结果,科普作者Ed Yong进行了报道,并且开头引用了心理学教科书中著名的历史事件“聪明的汉斯”的故事,暗示原作者们Bargh等在方法上的严谨性。正常情况下,这种无法重复的原因多种多样,对于批评可能也无需太在意。但是Bargh作为自动化加工(automatic process)方面的权威,面对这个研究和报道,表示非常愤怒,在自己的博客上进行了激烈的反击,对重复实验的作者、发表重复实验的杂志以及报道这个重复实验的科普作者进行抨击,语言比较激烈,后来删除了该博客。正如其他信息的传播一样,客观理性的内容往往很难引起注意,但是充满情绪的内容总是非常广泛地传播,于是Bargh的博客在社会心理学家之间传播开来。

著名实验:聪明的“汉斯”实验现场(图源网络)

Bargh这个博客引起广泛争议的同时,再次让社会心理学家们感受到了可重复问题的压力。于是一个原本不太受到关注的网站进入了大家的视野,这就是Psychfiledrawer。这个网站的目的是让心理学家把自己未发表的数据上传,以减少在论文发表中对阳性结果偏爱而阴性结果无法发表的这个问题。原本没有多少人关注这个网站,但是Bargh事件之后,许多人纷纷把自己重复过的数据上传。更有意思的是,诺贝尔经济学奖得主卡尼曼也站出来说话了。在题为“A proposal to deal with questions about priming effects”的邮件中,他老人家让社会心理学家解决自己领域的问题。

事情发展到2012年,越来越多的重复失败结果被曝光,要么是在一些网站上公开数据,要么是在一些学术期刊上发表。而对于Bem预见未来的实验,也有重复实验的报告在Plos One上发表。Michigan大学Lawrence Sanna辞职,原因是Simonsohn怀疑他的数据有问题,Nature进行了报道。心理学家也开始讨论怎样的重复才能算是一个合格的重复实验。于是有了提前注册(pre-register)、然后按照注册的方法进行实验,最后来报告结果。Perspectives on Psychological Science上,也有专刊来讨论可重复性的问题,这一次非常集中地讨论了与可重复性相关的问题。2012年,John等人关于可疑研究操作(Questionable Research Practices)的调查报告发表,心理学家们承认,自己在研究的实践中,一些通常的做法大大地增加了假阳性的概率。

同样是2012年,科普作者Ed Yong回顾了一系列事件之后,认为在社会心理学领域存在着可重复危机,这一报道在Nature上以“Replication Studies: Bad Copy”为题,作为新闻发表。

直到2013年1月,Center for Open Science(COS)正式在Virginia University成立,成为心理学家组成的非政府组织来应对这次可重复危机。COS整合了在此之前已经搭建的开放科学框架的平台(Open Science Framework),开始组织全世界的心理学家进行联合的大规模重复实验。这一年,Perspectives on Psychological Science再次组织特刊讨论了可重复性以及一些实验方法上的问题。在这一期中,Lebel将PsychDisclosure.org推出,提出了研究者要将自己的研究方法部分完整报告出来的要求。

Center for Open Science官网截图

2014年,关于重复实验应该如何做,研究者们基本上有了一些共识,许多杂志开始鼓励提前注册的重复实验或者提前注册OSF进一步完整,成为一个可以公开注册研究和分享数据的平台。Journal of Experimental Social Psychology上,发表了题为“The Replication Recipe: What Makes for a Convincing Replication?”的文章。这一年,在Social Psychology这个杂志5月的一期中,也发表了一系列经过提前注册过的重复研究,能够重复原先实验结果的并不多。不过一个比较积极的消息是,Klein等人的多实验室项目(ManyLab),对心理学中经典研究进行重复,大部分是有结果的。Cumming 也在Psychological Science上发表了题为“The New Statistics: Why and How”的文章,他指出需要在统计方法上进行变革。Psychological Science也改变了其审稿的政策,对方法部分不再有字数的限制,开始启用一些强制政策来加强方法部分的严谨性,如要求像Lebel指出的那样报告方法部分四个方面的内容,使用效应量和置信区间等。其他的杂志也有一些相应的调整。

值得注意的是,2014年5月,剑桥心理学家Schnall在其博客上表达了Social Psychology上发表的一篇关于她2008年研究的重复研究的不满,认为做重复研究的人是Bully。Dan Gilbert也在Twitter上表达了对进行重复研究的人的愤怒。平心而论,热衷于做重复实验的人,确实在对原研究的态度上不太好,在Facebook和Twiiter上有许多嘲讽。

2014年,绍兴文理学院的陈巍博士在《心理技术与应用》杂志上发表了《可重复性:盘旋在具身认知实验室上方的“幽灵”》一文,介绍了在具身认知领域方面可重复性的问题。

2015年,最大的事件就是COS于2013年组织的大规模重复实验的结果得以发表,许多人期待的结果在Science上发表,其结论是对100项研究的重复,大约39%能够重复出来(根据对重复的标准不同,这个比例有一点变化)。这个研究的结果有大量的数据在osf.io上共享,供研究者去挖掘。确实有不少研究者利用这些数据进行了后续的分析。还有一些其他的重复报告也发现先前的一些效应无法重复,如孤独会让人洗热水澡的重复、权力姿势(power pose )。许多人以为,可重复危机基本上就已经确定了,心理学要开始进行艰苦卓绝的方法变革,来提高本领域研究的可重复性了。

2015年,温州大学教育学院教师仲晓波老师在《心理科学》上发表了《心理学实验的可重复性》,对心理学的可重复性问题从统计角度进行了比较深入的介绍。

2016年3月,Science上的一个评论再次引起争议,Gilbert等人分析了COS大规模重复实验的数据,认为三个方面的错误使得他们的不足以得到心理学研究的可重复率只有39%的结论。这一评论再次激起了Nosek等人的回应、博客上的论战以及媒体的报道。另一个非常著名的心理学效应似乎也无法跨过重复实验这道坎:自我损耗(ego-depletion)的重复实验也未能重复出其效应,而元分析也显示了相似的结果。这个失败让笼罩在心理学家头上的乌云更加密布,因为这个理论非常符合直觉,大量心理学家的时间和精力、大量的研究经费投入在这个问题的研究之中。如果这个效应是假的,那可能就不是某一两个实验室的问题,而完全是整个领域的大问题!不过自我损耗理论的主要提出者Baumeister认为重复实验是有问题的。所以这个效应是否能够重复,我们还需要拭目以待。

图源网络

国内方面,2016年,心理学界的老前辈、北大的朱滢教授在《心理科学进展》上发表题为“开放科学数据共享软件共享, 你准备好了吗?”的文章,呼吁心理学家重视研究的开放性。聂丹丹与同事在《中国临床心理学杂志》上发表“可重复性:心理学研究不可忽视的实践

胡传鹏(2016)对可重复性问题的详细介绍即“心理学研究的可重复性问题:从危机到契机”,发表在《心理科学进展》上,从可重复危机的发展、原因及对策等多个角度对这一危机进行了介绍。同时,文章报告了国内心理学研究者是否能够正确理解统计指标p值的结果,结果令人震惊但也可以理解:

在这个文章中,胡传鹏及同事也总结了在科研中,相对正确的做法和不正确的做法:

到2016年结束的时候,许多正确的做法在国际上正在成为新的标准。作为中国的研究者,可能需要及时了解这些变化,采用新的做法,才能避免在科研中落后。

二、为什么会出现可重复性危机呢?

主要有以下几个原因

  1. 统计上:对NHST的误解/过度依赖。对NHST的误解导致二分的思维(Krik,2008),p<0.05被当作是否有效应的主要标准;是研究者的可疑研究操作和出版偏误的部分原因。

2.研究实施中:可疑的研究操作。研究者在研究实验中自由度大,操纵结果使之显著(loanidis, 2008; Simmons, Nelson, & Simonsohn, 2011);选择性报告或忽略某些因变量或者变量的某些水平( John, Loewenstein, & Prelec, 2012);样本量的选择以及如何终止手机数据的问题,有72%的心理学家承认在进行统计分析观察是否显著后决定是否收集更多的数据(John et al., 2012).总体来说,可疑操作是“发表论文动机”+“对假阳性的误解”的结果。

3.制度原因:出版偏误(publication bias)+奖励机制。心理学和精神病学领域有超过90%的论文发表了显著性的结果。Franco, Malhotra, and Simonovists(2014) 对221个社会科学研究的调查结果如下,

三、如何解决可重复性危机?

  1. 统计上。使用其他方法用以替代NHST。目前提出的替代方法主要有:①基于估计的统计法(Cumming, 2012, 2014);②贝叶斯方法( Miller, 2011; Wagenmakers et al., 2011);稳健统计(Robust statistics)(Erceg-Hurn & Mirosevich, 2008; Wilcox, 2011)。

  2. 提前注册(pre-registration)。在提前注册的时候主要报告包括以下内容:①研究假设;②方法部分,包括研究设计、计划使用的样本量(选择样本量的规则、这些样本量将从何处获得、以及为什么这么选和终止实验标准)、数据排除标准和研究的程序;③数据分析计划,包括相关变量以及他们的计算方法、统计技术、变量与协变量以及关系、多重分析时的方法、使用非NHST时报告理由。

  3. 开放数据和材料(Open data and materials)2014年,透明与公开促进委员会(Transparency and Openness Promotion Committee, TOP),出台了透明与公开期刊的标准。2015年,psych.Sci 和cognition均要求公开数据;现在:nature, science均要求公开数据。

注1:本文转载自胡传鹏博士,本文转载自https://www.sohu.com/a/205764065_652510

注2:关于心理学可重复的问题,有一个网站非常好,以时间线的方式展现了一些重要的事件,有兴趣可以围观:Replication in Psychology: A Historical Perspective。

◇参考文献◇

Bem, D. J. (2011). Feeling the future: Experimental evidence foranomalous retroactive influences on cognition and affect. Journal ofPersonality and Social Psychology, 100(3), 407-425. doi: 10.1037/a0021524

Brandt, M. J., Ijzerman, H.,Dijksterhuis, A., Farach, F. J., Geller, J., Giner-Sorolla, R., . . . van 'tVeer, A. (2014). The Replication Recipe: What makes for a convincingreplication? Journal of Experimental Social Psychology, 50(0), 217-224.doi: The Replication Recipe: What makes for a convincing replication?

Doyen, S., Klein, O., Pichon,C.-L., & Cleeremans, A. (2012). Behavioral Priming: It’s All in the Mind,but Whose Mind? PLoS One, 7(1), e29081. doi: 10.1371/journal.pone.0029081

John, L. K., Loewenstein, G.,& Prelec, D. (2012). Measuring the Prevalence of Questionable ResearchPractices With Incentives for Truth Telling. Psychological Science, 23(5),524-532. doi: 10.1177/0956797611430953

Miller, G. (2011). ESP PaperRekindles Discussion About Statistics. Science, 331(6015), 272-273. doi:10.1126/science.331.6015.272

Simmons, J. P., Nelson, L. D.,& Simonsohn, U. (2011). False-Positive Psychology. Psychological Science,22(11), 1359-1366. doi: 10.1177/0956797611417632

陈巍. (2014). 可重复性:盘旋在具身认知实验室上方的“幽灵”. 心理技术与应用(01), 23-25.

胡传鹏, 王非, 过继成思, 宋梦迪, 隋洁, 彭凯平. (2016). 心理学研究的可重复性问题:从危机到契机. 心理科学进展, 24(9), 1504–1518 doi:10.3724/SP.J.1042.2016.01504

聂丹丹, 王浩, 罗蓉. (2016). 可重复性:心理学研究不可忽视的实践. 中国临床心理学杂志(04), 618-622.

仲晓波. (2015). 心理学实验的可重复性. 心理科学(04), 807-812.

朱滢. (2016). “开放科学数据共享软件共享”, 你准备好了吗?. 心理科学进展, 24(6), 995–996. doi:10.3724/sp.j.1042.2016.00995

(0)

相关推荐