真相, 你的实证研究结果中到底隐藏了多少不为人知但自知的秘密?

箱:econometrics666@126.com

所有计量经济圈方法论丛的do文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

在很多地方看见有人专门提供让变量变得显著的程序,在计量社群也有讨论,希望此篇文章能够揭露一个事实:隐藏的研究人员的决策对应用微观经济学结果存在很大的影响。你想要一个变量显著,然后变量就能显著,就很难谈经济学的科学性,自然也就很难用来指导政策实践?进一步地,关于有些不便公开讨论的问题可以到计量社群交流。

关于下方文字内容,作者李松泽,中央财经大学中国经济与管理研究院,通信邮箱964916858@qq.com
作者之前的文章:实证应用经济学中的稳健性检验是什么? 怎么做?哪些策略呢?中介效应分析新进展和检验方法!谁嫁(娶)给了谁?基于CHIP的DID方法发现, 与岳父母的教育有关!重新思考BK中介模型, 关于中介效应分析的神话与事实!JEEM上关于中国环境领域下载量最高的文章很有意思!男神毛咕噜最新Top5大作, 另外, 有序因变量依然使用OLS回归! ⑦万字长文述"家庭经济学"进展, 诺奖得主贝克尔长耕于此!最全利用工具变量控制内生性的步骤和代码—在经管研究中的应用,⑨如何设计双重差分法DID: 各种政策研究的最佳指南!
Huntington‐Klein, N., Arenas, A., Beam, E., Bertoni, M., Bloem, J.R., Burli, P. et al. (2021) The influence of hidden researcher decisions in applied microeconomics. Economic Inquiry, 1– 17. https://doi.org/10.1111/ecin.12992
Researchers make hundreds of decisions about data collection, preparation, and analysis in their research. We use a many‐analysts approach to measure the extent and impact of these decisions. Two published causal empirical results are replicated by seven replicators each. We find large differences in data preparation and analysis decisions, many of which would not likely be reported in a publication. No two replicators reported the same sample size. Statistical significance varied across replications, and for one of the studies the effect's sign varied as well. The standard deviation of estimates across replications was 3–4 times the mean reported standard error.

摘要

在一项研究的数据收集、前期准备和分析过程中,研究者会做出许多决策。本文利用“多分析者方法”来衡量这些决策产生的影响。本文选择了两篇已发表的文献,分别让7位研究者尝试复现它们的因果实证结果。这些复现者在数据准备和分析过程中作出了不同的决策,而实际发表的文章往往不会汇报这些决策的内容。每位复现者报告的样本量以及结果的统计显著性均存在差异。在其中一篇论文的复现结果中,效应系数甚至出现了相反的符号。复现结果之间的标准差是各项研究中系数估计标准误平均值的3-4倍。

引言

社会科学实证研究的首要目标是得出内部有效、可推广并且可复现的结果,但这些结果又往往会因为样本、实证方法、异质性效应以及研究设定的不同而产生差异。实际上,即便采用相同的实证方法,从数据清洗到变量定义等分析过程中的不同决策也会使最终的结果千差万别。这种研究决策上的不同可以理解为“研究者的自由度”——如果这种自由度使研究过程产生显著的差异,那么我们就很难对相似的研究进行有意义的比较,更无法通过整合不同的研究结果以达成科学共识。
本文以应用微观经济学研究为例,尝试衡量由“研究者自由度”造成的实证结果差异。我们让多位研究者使用相同的数据回答相同的问题,而他们不知道其他人采用的方法,也无需考虑基于研究结果的发表。我们允许这些研究者自行决定构建和清洗观测数据的方式,而这正是研究者自由度在应用微观经济学中的体现。
本文选取了两项发表于高水平期刊的研究,分别对它们进行7次复现。这两项研究分别是:
Black, S.E., Devereux, P.J. & Salvanes, K.G. (2008) Staying in the classroom and out of the maternity ward? The effect of compulsory schooling laws on teenage births. The Economic Journal, 118(530), 1025–1054.
Fairlie, R.W., Kapur, K. & Gates, S. (2011) Is employer-based health insurance a barrier to entrepreneurship? Journal of Health Economics, 30(1), 146–162.

社会科学的研究质量

本文讨论的范畴隶属于社会科学的元科学(metascientific)文献,主要关注的是研究结果的质量。
经济学的元科学分析采用的常见方式是复现已发表文章,它关注的是利用不同样本或者分析方法得到的结果是否存在明显的差异。此外,还可以用相同的数据和方法进行复现,从而检验原作者的代码是否存在问题。尽管许多高质量期刊都要求作者提供代码,很多研究仍无法复现,因为数据清洗和分析决策没有被完整地展示出来。即便最终通过代码复现了结果,读者也无法评估研究者自由度对该结果的影响,因为他是在完全重复原作者的研究过程。
研究者自由度会对实证结果产生极大的影响。即便有时研究者作出的选择并不存在错误,如果采用其他同样合理的方法,所得结果仍有可能存在显著的差异。以经济学研究为例,McCullough & Vinod(2003)发现选择不同的软件包会显著地影响非线性最优化的结果,而他们所回顾的发表于AER的文章中没有任何一篇使用多个软件验证非线性优化结果的一致性。

研究方法

选择复  现任务

本文的项目组织者根据如下标准选择了两项待复现的研究:
·     于近20年内在高水平经济学期刊发表;
·     包含可供复现的单一因果估计;
·     无法被复现者从项目提供的指令中识别出来;
·     使用美国公开数据;
·     所用方法和领域知识能够在项目提供的复现指令中被简明地概括;
·     两项研究应隶属于不同的子领域。
最终,本文选定了Black et al.(2008)和Fairlie et al.(2011)这两篇文章,前者研究了义务教育对未成年怀孕的影响,后者研究了雇主提供的医疗保险对创业的影响。

复现指令

本文为每一项复现任务提供了一系列的指令,以确保每位复现者均了解研究的问题与使用的数据,以及实证的识别假设。但这些指令并不会过分限制复现者的具体选择,而是鼓励他们按照写作期刊论文的方式来进行每一项复现任务。此外,指令要求复现者必须独立完成分析,不能试图寻找原始文献或与其他复现者比较。
感兴趣的读者可以参考这两组复现指令的原文,在此不再赘述。需要注意的是,这些复现指令对原始文献的工作进行了一定的简化,因此复现结果和原始结果之间不是完全可比的。

复现者招募

本文项目组于2018年5月起通过邮件和推特招募复现者。为保证复现者群体能够代表应用微观经济学研究者,申请人需要在该领域有实际的发表经历。项目组共招募到了49位满足条件的复现者,其中有12位成功完成复现工作。最终,每项任务均得到了7份复现结果。
在完成或放弃任务后,每位复现者均需填写一份问卷。未完成复现的参与者几乎一致地表明他们退出的主要原因是缺少足够的时间,而与任务内容无关。成功复现的参与者也说明了他们加入项目的原因。本文认为该复现项目不存在基于可观测特征的选择偏差,因为完成者与退出者具有十分相似的特征。

分析

成功复现者返回了他们的原始数据文件、进行数据处理与分析的代码以及主要研究结果,而项目组织者将对这些结果和代码进行描述分析。
首先,组织者将通过比较复现结果的绝对值以及控制变量和样本量等研究特征来分析每项复现工作的重合度。
接下来,组织者将逐行分析复现者提供的代码,对数据清洗和变量生成方式等研究特征进行编码。

结果

图1和图2分别展示了两组复现任务的7个估计结果的置信区间,它们根据复现者报告的点估计及其标准误计算得到。
如图1所示,在估计义务教育对未成年怀孕的因果效应时,复现者得到的结果在符号和显著性上存在很大的差异:4个负向显著,1个正向显著,2个不显著(其中一个非常接近0)。可以看到,即便使用同一套数据回答同一个问题,不同研究者仍可能得出不同结果。复现结果均值的置信区间很宽,超过了原始结果的不确定性,这意味着“研究者自由度”在应用微观经济学研究中不可被忽视。
如图2所示,在估计雇佣者提供的医疗保险对创业的因果效应时,复现者得到的结果相对一致。除了一项结果明显较高之外,其余六项点估计均分布在一段很窄的区间中,并且复现结果均值的置信区间也相对精确。尽管如此,复现结果的显著性仍存在差别:有5项估计是显著的,其余2项不显著。
通过计算可以得到,在两项任务中,单个复现结果标准误的平均值分别仅为全部复现结果标准差的25.1%和32.5%。这意味着单项研究的标准误遗漏了造成估计结果变动的主要原因,即“研究者自由度”。
后文将简要介绍两项复现任务的实施过程,从中可以看到不同研究者在处理和分析数据时的决策差异。

义务教育研究

数据构建过程

在研究义务教育对未成年怀孕的影响时,所有复现者均按照指令从IPUMS中下载了美国人口普查数据,并从中提取复合研究要求的女性样本。尽管最初的这一步是相同的,但复现者在后续的数据清洗过程中则作出了不同的决策,具体内容总结到了表1当中。指令要求复现者按照他们自己的设计进行数据分析,因此很多未指定的数据构建方式在不同复现者之间存在差别,例如样本的剔除和变量的定义。
样本构建决策的不同导致每位复现者使用的样本量均不相同。结合表1和图1可以发现,样本量相似的复现者最终得到的点估计仍然存在很大的差别,甚至符号也不一致。组织者按照相同的模型重新拟合这些数据之后,差异依旧存在。特别值得注意的是,虽然第1组和第7组在样本构建过程上并无明显差别,但即便采用相同的模型,所得复现结果仍然符号相反。

数据分析过程

根据问题和数据的性质,研究义务教育对未成年怀孕的影响时适合采用DID框架。7位复现者中,有6位采用了控制州与出生队列的双向固定效应模型,另外1位采用了控制州与观测年份的双向固定效应模型。同时,所有复现者均采用州层面的聚类标准误。尽管因变量为二元虚拟变量,所有复现者均采用OLS估计,而不是logit或其他非线性模型。
各个复现者在数据分析过程中的主要差异体现在第二组固定效应的选择(出生年份/观测年份)、stata命令(reghdfe/regress/areg)、控制变量的选择以及样本权重的使用。表2展示了各复现研究在控制变量选择上的差异。
表2最后一行展示了在同一使用第4组数据后各复现组得到的点估计,可以看到各组之间的差异仍然存在。这意味着控制变量的不同选择(即便都有一定合理性)会对系数估计产生很大的影响。

医疗保险研究

数据构建过程

复现者根据指令从NBER的CPS数据库中提取符合初始要求的样本,但之后他们的数据构建过程便出现了差异,如表3所示。不同的筛选规则导致各项复现任务的最终样本量均不相同。
尽管样本量存在很大差异,本任务中各项复现结果的点估计除了一个异常点以外均非常接近,但是统计显著性存在不同。为了进一步说明这一点,组织者采用相同的模型和年龄范围分别对各复现组的数据进行拟合,结果如表3最后一列所示,可以看到各组的估计值十分相似。这意味着该研究的复现结果差异很大程度上取决于模型的选择和年龄范围的界定。

数据分析过程

在研究雇主提供的医疗保险对创业的影响时,关键的任务是比较年龄在65岁附近的样本的自雇率。多数复现者采用断点回归进行分析,也有复现者直接比较临界点上下的平均自雇率。他们的分析决策如表4所示。
为了评估分析决策的差异对复现结果的影响,组织者统一使用第5组的数据重新拟合了各项复现研究的模型,结果如表4最后一列所示。除了在分析过程中采用rdrobust命令的复现结果明显异常之外,其余各组的估计值均与它们初始的估计值接近。这意味着相比于样本构建过程,分析决策更大程度上决定了复现结果的差异。

结语

当使用相同数据分析相同问题时,不同的研究者可能会采取不同的分析决策。根据本文对复现者的调查,他们使用不同方法的原因包括:对模型的熟悉程度不同、对控制变量选取的看法不同、对线性概率模型适用性的评价不同以及对简洁性的偏好不同。这些不同的决策可能都具有一定的合理性,但如果它们最终没有被展示在发表的研究成果当中,读者就无法很好评判所得的实证结果是否合理,也很难对不同的研究结果进行比较。
审稿人和读者往往无法获知研究者在数据构建过程中的全部决策,而这样的“自由度”会威胁应用微观经济学研究的质量。为此,本文提出了如下的解决方案:
·     让数据附录(Data Appendix)成为发表经济学论文的标准要求。
·     公开的数据源应该向研究者提供标准的预处理数据。对于非公开数据,学界应该制定一套规范化的清洗流程。
另一方面,虽然研究者通常会在论文中展示他们的分析决策,但本文的研究结果表明,这些决策在正式的写作中往往未得到完全公开。因此,本文建议研究者在投稿的同时附上一份更加详细的附录以描述研究的具体过程。同时,经济学论文应该安排足够的篇幅以具体说明变量的定义方式和控制变量的选取标准。
本文也提醒读者在阅读经济学论文时应该注意研究者自由度给估计结果带来的不确定性。

免费视频课程,1.Stata, R和Python视频课程, 文章, 数据和代码全在这里, 真的受用无穷!2.疫情期计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应用,3.空间计量免费课程, 文章, 数据和代码全在这里, 空间相关学者注意查收!4.断点回归RD和合成控制法SCM免费课程, 文章, 数据和代码全在这里, 有必要认真研究学习!5.各种匹配方法免费课程, 文章, 数据和代码全在这里, 掌握匹配方法不是梦!6.工具变量IV估计免费课程, 文章, 数据和代码全在这里, 不学习可不要后悔!7.双重差分DID方法免费课程, 文章, 数据和代码全在这里, 优秀学人必须收藏学习!8.面板数据方法免费课程, 文章, 数据和代码全在这里, 优秀学人好好收藏学习!9.Angrist因果推断课程,经典期刊读物汇集

计量方法合辑,①实证研究中用到的200篇文章, 社科学者常备toolkit”、实证文章写作常用到的50篇名家经验帖, 学者必读系列过去10年AER上关于中国主题的Articles专辑AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授Python, Stata, R软件史上最全快捷键合辑!关于(模糊)断点回归设计的100篇精选Articles专辑!关于双重差分法DID的32篇精选Articles专辑!关于合成控制法SCM的33篇精选Articles专辑!最近80篇关于中国国际贸易领域papers合辑!最近70篇关于中国环境生态的经济学papers合辑!⑨使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!最近50篇使用系统GMM开展实证研究的papers合辑!

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。
(0)

相关推荐