5种安慰剂检验方法详解
1. 什么是安慰剂检验
2. 为什么要进行安慰剂检验
3. 常见的安慰剂检验方法
3.1 改变政策发生时间
3.2 随机生成实验组
3.3 替换样本安慰剂检验
3.4 替换变量安慰剂检验
4. 因果推断方法对应的安慰剂检验
5. 其他参考文献
1. 什么是安慰剂检验
关于「安慰剂效应」,维基百科的解释如下:
安慰剂效应 (placebo effect),又名伪药效应、假药效应、代设剂效应,是指病人虽然获得无效的治疗,但却让其 “预料” 或 “相信” 治疗有效,而让病患症状得到舒缓的现象。
随着「因果推断方法」在实证研究中的使用比例不断提升,越来越多的文章也会进行安慰剂检验。其检验基本原理与医学中的安慰剂类似,即使用「假的政策发生时间或实验组」进行分析,以检验能否得到政策效应。如果依然得到了政策效应,则表明基准回归中的政策效应并不可靠。进一步,经济结果可能是由其他不可观测因素导致的,而非关注的政策所产生。
2. 为什么需要安慰剂检验
答案当然是,为了让文章故事性更强,以及因果推断更加可信!
在实证研究中,无论是稳健性检验,还是安慰剂检验,亦或是异质性分析,其背后真实的目的只有两方面:
第一,使得文章故事性更强,逻辑更加严密; 第二,为因果推断服务,让读者相信研究对象之间的因果效应。
当然,不同的因果推断方法有着不同的安慰剂检验方法,这也进一步说明安慰剂检验是为因果推断服务的。而无论是哪一种因果推断方法,其对应的安慰剂检验思想均可理解为「构造伪政策」。但是,在应用安慰剂检验时,需要注意的是,不能为了安慰剂检验而进行安慰剂检验,其背后一定要有理论的逻辑。
例如,在使用 DID 方法后,通过随机构造实验组,并模拟 10000 次,然后将系数或 值在一张图中绘制出来,以告诉读者前文的识别是可靠的。
这样的做法看起来很完美,至少从实证角度看是这样的。如果想要更加完美,一定要解释为什么进行安慰剂检验,比如文章中的结果可能来源于其他因素。当然,这里需要具体问题具体分析。不过,方法还是可以照搬,而应用的场景和解释不可生搬硬套。
为帮助读者更好理解和应用「安慰剂检验」,本文通过整理《经济研究》与《管理世界》近两年发表的论文,归纳了安慰剂检验的常用方法和使用背景。
3. 常见的安慰剂检验方法
3.1 改变政策发生时间
通过将政策发生时间前置以进行安慰剂检验的方法在双重差分中十分常见。实际上,这与我们经常看到的平行趋势检验是同一种方法。
在《经济研究》和《管理世界》发表的文章中,有近 1/3 的安慰剂检验使用的是前置政策发生时间。这在实际操作中也并不困难,设定一个虚拟的政策发生年份代替真实的政策发生年份,之后纳入回归即可。
但是,在没有任何理论逻辑支持下,进行这样的安慰剂检验可能比较枯燥。尤其是,在论文中单独一小节中专门呈现安慰剂检验结果。为此,我们可以借鉴部分已发表的文章,学习「如何将安慰剂检验有逻辑的放进文章中」。
王永钦和吴娴 (2019) 利用 2018 年 6 月 1 日中国人民银行扩大中期借贷便利 (MLF) 担保品范围政策这一准自然实验和债券市场微观数据,采用三重差分法识别了基于抵押品的货币政策的作用机制和政策效果。但是,文章结论的潜在威胁是,债券利差的下降可能是由市场的周期性变化而非政策导致的。为了证明前文回归结果的稳健性,作者设定了 2015 年 6 月 1 日为虚拟的货币政策实施时间,使用了 2015 年 1 月 1 日—2015 年 9 月 30 日发行的 AA 级以上公司信用类债券和金融债数据进行了安慰剂检验。
林毅夫等 (2020) 使用双重差分法、三重差分法和合成控制法来识别消费券的发放效果,并评估政府在助力经济复苏中的作用。但潜在的威胁是,发券城市的市民本身就有更强的消费倾向。为此,作者进行了安慰剂检验,分别假设消费券发放的时间提前 30 天或者 15 天,然后考察这些虚拟的消费券发放是否会影响支付笔数。
关于采用改变政策发生时间进行安慰剂检验的方法,还可参考以下文献:
[1] 曹春方, 张超. 产权权利束分割与国企创新——基于中央企业分红权激励改革的证据[J]. 管理世界, 2020, 36(09):155-168. -Link- [2] 李广众, 贾凡胜. 财政层级改革与税收征管激励重构——以财政 “省直管县” 改革为自然实验的研究[J]. 管理世界, 2020, 36(08):32-50. -Link- [3] 林毅夫, 沈艳, 孙昂. 中国政府消费券政策的经济效应[J]. 经济研究, 2020, 55(07):4-20. -Link- [4] 许红梅, 李春涛. 社保费征管与企业避税——来自《社会保险法》实施的准自然实验证据[J]. 经济研究, 2020, 55(06):122-137. -Link- [5] 刘诗源, 林志帆, 冷志鹏. 税收激励提高企业创新水平了吗?——基于企业生命周期理论的检验[J]. 经济研究, 2020, 55(06):105-121. -Link- [6] 徐超, 庞雨蒙, 刘迪. 地方财政压力与政府支出效率——基于所得税分享改革的准自然实验分析[J]. 经济研究, 2020, 55(06):138-154.-Link- [7] 许明, 李逸飞. 最低工资政策、成本不完全传递与多产品加成率调整[J]. 经济研究, 2020, 55(04):167-183.-Link- [8] 刘啟仁, 赵灿. 税收政策激励与企业人力资本升级[J]. 经济研究, 2020, 55(04):70-85.-Link- [9] 张克中, 欧阳洁, 李文健. 缘何 “减税难降负”:信息技术、征税能力与企业逃税[J]. 经济研究, 2020, 55(03):116-132.-Link- [10] 尹志超, 沛瑶, 张琳琬. “为有源头活水来”:精准扶贫对农户信贷的影响[J]. 管理世界, 2020, 36(02):59-71+194+218.-Link- [11] 施新政, 高文静, 陆瑶, 李蒙蒙. 资本市场配置效率与劳动收入份额——来自股权分置改革的证据[J]. 经济研究, 2019, 54(12):21-37.-Link- [12] 王永钦, 吴娴. 中国创新型货币政策如何发挥作用:抵押品渠道[J]. 经济研究, 2019, 54(12):86-101.-Link- [13] 黄俊威, 龚光明. 融资融券制度与公司资本结构动态调整——基于 “准自然实验” 的经验证据[J]. 管理世界, 2019, 35(10):64-81.-Link- [14] 吕越, 陆毅, 吴嵩博, 王勇. “一带一路” 倡议的对外投资促进效应——基于 2005—2016 年中国企业绿地投资的双重差分检验[J]. 经济研究, 2019, 54(09):187-202.-Link- [15] 唐宜红, 俞峰, 林发勤, 张梦婷. 中国高铁、贸易成本与企业出口研究[J]. 经济研究, 2019, 54(07):158-173.-Link- [16] 徐现祥, 李书娟. 官员偏爱籍贯地的机制研究——基于资源转移的视角[J]. 经济研究, 2019, 54(07):111-126.-Link- [17]朱晓文, 吕长江. 家族企业代际传承:海外培养还是国内培养?[J]. 经济研究, 2019, 54(01):68-84.-Link- [18] 刘啟仁, 赵灿, 黄建忠. 税收优惠、供给侧改革与企业投资[J]. 管理世界, 2019, 35(01):78-96+114.-Link- [19] 魏志华, 曾爱民, 吴育辉, 李常青. IPO首日限价政策能否抑制投资者 “炒新”?[J]. 管理世界, 2019, 35(01):192-210.-Link-
3.2 随机生成实验组
另一种常见的安慰剂检验的方式是随机生成实验组。例如:
刘瑞明等 (2020) 根据中国文化体制改革的 “准自然实验”,采用中国 283 个地级市 2002—2016 年间的面板数据,评估了文化体制改革对地区旅游业发展的影响。对于文章的结论而言,一个可能的质疑是,人均国内旅游人次、人均国内旅游收入、人均国内外旅游总人次和人均国内外旅游总收入四个指标的统计显著可能来自于某些随机因素。为此,作者借鉴 Li 等 (2016) 和 Cantoni 等 (2017) 的方法进行安慰剂检验,以判断文化体制改革的旅游促进效应是否是由其他随机性因素引起的。
具体来看,刘瑞明等 (2020) 通过随机生成实验组的方式进行安慰剂检验,以判断文化体制改革的旅游促进效应是否是由其他随机性因素引起的。利用这一方法进行安慰剂检验主要目的是,排除由其他随机因素造成的经济后果,以得到更加可信的因果识别效应。通过随机抽取实验组,重复多次,提取安慰剂结果系数或 值,然后将其绘制在图中,并观察真实的政策效应与安慰剂结果。当真实的政策效应与安慰剂检验结果显著不同时,可排除其他随机因素对结果的干扰。具体可见下图:
通过观察图 5 至图 8,可以发现,对于人均国内旅游人次、人均国内旅游收入、人均国内外旅游总人次和人均国内外旅游总收入四个指标,仅有极少数回归的 值大于真实回归系数的 值,这说明文化体制改革对国内旅游收入和人次的作用比较稳健,的确促进了地区旅游业的发展。详情可参考原文。
张克中等 (2020) 为研究信息技术、征税能力与企业逃税间关系,借助 “金税三期” 工程这一准自然实验,利用 2008—2016 年上市公司的微观数据和双重差分的估计方法进行相关分析。并借鉴 Chetty 等 (2009) 的做法,随机安排 “金税三期” 工程实施的年份和地区,重复此过程 10000 次,来进行安慰剂检验。
关于随机生成实验组进行安慰剂检验的方法,还可参考以下文献:
[1] 曹春方, 张超. 产权权利束分割与国企创新——基于中央企业分红权激励改革的证据[J]. 管理世界, 2020, 36(09):155-168.-Link- [2] 刘畅, 曹光宇, 马光荣. 地方政府融资平台挤出了中小企业贷款吗?[J]. 经济研究, 2020, 55(03):50-64.-Link- [3] 周波, 赵国昌. 中国间接税税负归宿研究:汽车市场准自然实验的证据[J]. 经济研究, 2020, 55(03):133-147.-Link- [4] 张克中, 欧阳洁, 李文健. 缘何 “减税难降负”:信息技术、征税能力与企业逃税[J]. 经济研究, 2020, 55(03):116-132.-Link- [5] 毛其淋. 贸易政策不确定性是否影响了中国企业进口?[J]. 经济研究, 2020, 55(02):148-164.-Link- [6] 刘瑞明, 毛宇, 亢延锟. 制度松绑、市场活力激发与旅游经济发展——来自中国文化体制改革的证据[J]. 经济研究, 2020, 55(01):115-131.-Link- [7] 吕越, 陆毅, 吴嵩博, 王勇. “一带一路” 倡议的对外投资促进效应——基于 2005—2016 年中国企业绿地投资的双重差分检验[J]. 经济研究, 2019, 54(09):187-202.-Link- [8] 宋弘, 孙雅洁, 陈登科. 政府空气污染治理效应评估——来自中国 “低碳城市” 建设的经验研究[J]. 管理世界, 2019, 35(06):95-108+195.-Link- [9] 周茂, 李雨浓, 姚星, 陆毅. 人力资本扩张与中国城市制造业出口升级:来自高校扩招的证据[J]. 管理世界, 2019, 35(05):64-77+198-199.-Link-
3.3 替换样本安慰剂检验
替换样本进行安慰剂检验与随机生成实验组的方法较为相似。不同之处在于,随机生成实验组的安慰剂检验方法最终结果以图形展示,而替换样本安慰剂检验结果多以表格形式展示。在实际操作过程中,替换样本安慰剂检验不需要重复模拟,这在技术上显得容易一点,但在理论逻辑上更加严谨。比如,某政策颁布后,受政策影响的是污染行业,在因果识别后,可对非污染行业进行分析,探究是否存在政策效应 (亦或对政策范围外的污染行业进行分析)。如果对于非污染行业依然存在所谓的政策效应,那么前文的分析并不可靠。例如:
张琦等 (2019) 以《环境空气质量标准 (2012)》的实施为准自然实验,采用双重差分法检验了新标准实施引致的官员动机变化对企业环保决策的影响。文章以 74 个试点城市以外的其他城市中重污染企业作为安慰剂样本,进行了证伪检验。
汪德华等 (2019) 基于 2013 年 CHIP 数据,运用截面数据双差法,评估了 20 世纪 90 年代中期二片地区 “国家贫困地区义务教育工程” 的政策效果。并以不受政策影响的样本作为分析对象,进行了安慰剂检验。
关于替换样本进行安慰剂检验的方法,还可参考以下文献:
[1] 毛其淋. 贸易政策不确定性是否影响了中国企业进口?[J]. 经济研究, 2020, 55(02):148-164.-Link- [2] 汪德华, 邹杰, 毛中根. “扶教育之贫” 的增智和增收效应——对 20 世纪 90 年代 “国家贫困地区义务教育工程” 的评估[J]. 经济研究, 2019, 54(09):155-171.-Link- [3] 张琦, 郑瑶, 孔东民. 地区环境治理压力、高管经历与企业环保投资——一项基于《环境空气质量标准(2012)》的准自然实验[J]. 经济研究, 2019, 54(06):183-198.-Link- [4] 唐为. 分权、外部性与边界效应[J]. 经济研究, 2019, 54(03):103-118.-Link-
3.4 替换变量安慰剂检验
替换变量进行安慰剂检验主要分为替换被解释变量和替换解释变量。与稳健性检验有所不同的是,稳健性检验希望在替换变量后结果依然稳健,而安慰剂检验希望替换变量后结果不再显著。首先,替换被解释变量。某项政策实施后,对特定经济活动会产生影响,但并不是对所有的经济活动都会产生影响。因此,将被解释变量替换为预期不会受到政策影响的变量进行安慰剂检验,以排除其他可能的干扰因素。例如:
陈林和万攀兵 (2019) 以双重差分法实证检验了《京都议定书》的政策效果。由于《京都议定书》未将 PM2.5 纳入减排考核目标,这诱使 CDM 项目实施方对 PM2.5 的防治有所忽略。可以预期,CDM 项目的实施并不会对以 PM2.5 为代表的常规空气污染物产生显著的减排效果。因此,以 PM2.5 为被解释变量进行安慰剂检验。
其次,替换解释变量。这一方法似乎没那么常用,或者说与前文的随机生成实验组和替换样本安慰剂检验有些类似之处。做法主要是将解释变量替换为看起来相似,但经济意义不同的变量。例如:
梁斌和冀慧 (2020) 在研究失业保险如何影响求职努力时,使用 “有失业保险” 的虚拟变量作为解释变量进行安慰剂检验。这主要是因为 “有失业保险” 不等于 “领取失业保险金”。
马黎珺等 (2019) 通过机器学习对 2009-2015 年的分析师报告进行了文本分析,以检验分析师报告的文字内容是否传递增量信息。结果表明,在控制了定量信息的影响之后,分析师报告中前瞻性语句的情感与报告发布后的累积超额收益显著正相关,说明前瞻性语句向市场传递了增量信息。在文章的稳健性检验部分,采用伪前瞻性语句对主要结果进行了安慰剂检验,以排除窗口期内其他并发事件对本文结果的影响。
关于替换变量进行安慰剂检验的方法,还可参考以下文献:
[1] 沈坤荣, 周力. 地方政府竞争、垂直型环境规制与污染回流效应[J]. 经济研究, 2020, 55(03):35-49.-Link- [2] 梁斌, 冀慧. 失业保险如何影响求职努力?——来自 “中国时间利用调查” 的证据[J]. 经济研究, 2020, 55(03):179-197.-Link- [3] 郑新业, 王宇澄, 张力. 政府部门间政策协调的理论和经验证据[J]. 经济研究, 2019, 54(10):24-40.-Link- [4] 马黎珺, 伊志宏, 张澈. 廉价交谈还是言之有据?——分析师报告文本的信息含量研究[J]. 管理世界, 2019, (07):182-200.-Link- [5] 陈林, 万攀兵.《京都议定书》及其清洁发展机制的减排效应——基于中国参与全球环境治理微观项目数据的分析[J]. 经济研究, 2019, 54(03):55-71.-Link- [6] 范子英, 赵仁杰. 法治强化能够促进污染治理吗?——来自环保法庭设立的证据[J]. 经济研究, 2019, 54(03):21-37.-Link-
4. 与不同因果推断方法相对应
工具变量:替换样本; 双重差分:改变政策发生时间与随机生成实验组; 断点回归:改变断点和查看控制变量是否有跳跃; 合成控制:将控制组看做实验组进行分析。
5. 其他参考文献
Li P, Lu Y, Wang J. Does flattening government improve economic performance? Evidence from China[J]. Journal of Development Economics, 2016, 123: 18-37. -PDF- Cantoni D, Chen Y, Yang D Y, et al. Curriculum and ideology[J]. Journal of Political Economy, 2017, 125(2): 338-392. -PDF- Chetty R, Looney A, Kroft K. Salience and taxation: Theory and evidence[J]. American economic review, 2009, 99(4): 1145-77. -PDF-