董志强:极简“因果推断”经济学入门
作者简介
董志强,华南师范大学经济行为科学重点实验室教授。
本文原载于《经济学家茶座》2020年第1期(总第87辑)。
全文5123字,阅读约需11分钟
极简“因果推断”经济学入门
一切科学研究,对现象背后的因果关系都孜孜以求。经济学也不例外。这篇短文,将用简明通俗的语言,介绍经验研究中的新因果推断方法基本思想。力求直观理解,不用任何公式,无需任何计量经济学基础(当然有一点会更好)。
何为因果关系?这问题本身仍有争议,不在此讨论。倘若从经济思维来看,“比较静态分析”本身就是对因果关系的一种定义:若其他条件皆不变,只改变一种条件,会带来什么结果?由于这是唯一改变的条件,故这改变的条件就是原因,带来的变化就是结果。重要的事是:保持其他条件不变。
如何在纷繁复杂的变化中识别因果关系?要在字数限额五千以内的非技术性短文中讲清楚这个问题,最好的方法是举例子。
最近疫情肆虐,大家比较关心健康,我们就举一个和健康相关的例子吧。比如,科学家开发了一种新药,我们想知道这种新药能否能够改善人们的健康。对此该怎么做呢?
回答上述问题最理想的场景是:同时观察到某个人服用新药和不服用新药这两种状态,同时这个人除了服药之外其他什么事儿也没干(保持其他条件不变)。
倘若此,这个人服药状态的和不服药状态的健康差异,就可归因于服药所致。若这种差异明显存在,就可以说新药会影响个人健康状况,前者是后者变化的原因。
但众所周知,一个人不可能在给定时刻同时处于服药和不服药两种状态。在任何一时刻,只能观察到某个人要么服药,要么没服药,二者必居其一。故上述理想场景根本不现实,咱们不得不退而求其次,寻找能够逼近理想场景的方案。
一种逼近理想场景的方案是这样的。咱们找来一大群人,而不是一个人。一个人不能同时处于两种状态,但一群人却可以!将这一大群人按照出生在单日(如每月1日、3日、5日等)或双日(如每月2日、6日、8日等)进行分组。
单日出生的组,令其服药,称干预组;双日出生的组,则不服药,仅做观察,称参照组。服药组(干预组)和不服药组(参照组)的健康状况是可以同时观察到的,两组之间的健康差异,可以归因于服药所致。
为什么能做这种归因呢?原因在于,一个人出生在单日或双日,是随机决定的,跟个人健康以及其他诸多方面都没有关系。换言之,单日出生人群和双日出生人群,在身高、体重、智商、能力、家庭环境……等方面,特别是健康方面,不存在系统性的组间差异。
上述每一个方面,在个体之间可能差异特别大,但在单日出生和双日出生这两个群体之间,将无甚差异。
总之,这两个群体在群体层面本来没有健康差异,也没有受到其他任何干预,仅仅由于单日出生组(干预组)服了药而双日出生组(参照组)没有服药,结果观察到了两组人群的健康差异。故可以推断,两组人群的健康差异乃服药所致。
上述方案,就是大名鼎鼎的随机受控试验(randomized controlled trials,简称RCT)。去年的诺贝尔经济学奖授予给柯雷墨、包南基和杜芙萝三位经济学家,就是表彰他们将这种方法运用于发展经济学问题研究,取得了很多重要的发现和洞见。
这种方法简单粗暴,但却能够最有效地识别因果关系。只要被观察的对象分组是随机的,两组对象在所研究问题的各个相关维度就不应有系统性差异,这就满足了“其他条件不变”;由于其中一个组(干预组)受到干预,而另一个组(参照组)没有受到干预,两组在表现上的差异就应归因于实验干预所致。
明白上述原理很重要。经济学因果推断经验研究中几乎所有的重要方法,都可以说是以RCT为中心、为统帅、为灵魂。所有的方法,都在试图尽量靠近RCT情形来进行因果推断。接下来的内容虽然并不总是围绕这一点展开,但大家仍然会感受到这一点。
回到服用新药是否改善健康的例子。在前面的RCT设计中,单日出生人群被强令服药,双日出生人群被禁止服药。这样的干预政策可能难以实施,因为实验者没有权力强令某人服药,也没有权力禁止某人服药。
通常,人们自愿选择服药或不服药,而且极有可能本来体弱的人选择服药,强健的人并不服药。对象的分组不再是“随机”决定的,而是“选择”决定的,这就无法直接比较服药组和不服药组的健康水平来做出有效推断。
此时,服药组和不服药组的健康差异实际上包含两类:服药所致的差异I;两组之间本身就存在的系统性的健康差异II。在目前的观察中,这两种差异无法分离,观察到的是两种差异的总和。
结果,无法有效地推断新药究竟起没起作用,起了多大作用,起到的是积极作用还是副作用。
上述问题怎么解决?一种较为可行的方法是:增加一次观察。不过,增加的这次观察,需要在服药组还没服药之前进行。
服药组尚未服药的时刻,所有组所有人都没有服药,故两组之间的健康差异就只是差异I,即两组之间本身存在的系统性的健康差异。
当服药组服药之后,所观察的健康差异是两类差异的总和,由于前置增加一次观察中已获悉差异II,故只需要在两类差异总和中扣除差异II,剩下的就是服药所致的健康差异I了。
以上,正是“差异中的差异”(difference-in-difference,简称DID)方法的基本思想。当然,差异中的差异还可以从另外一个角度来看。由于观察了两次,所以我们会看到:
(a)服药组自身在服药前后的健康差异,这个差异包含了服药的作用和服药组自身健康在时间上的变化,以及(b)不服药组自身在服药前后的健康差异,这个差异仅仅反映了不服药组自身健康在时间上的变化。
假如,服药组和不服药组自身健康在时间上的变化是同等的(这就是所谓的“平行趋势”),那么服药对健康的影响就可以通过在(a)差异中扣除(b)差异而得到。这仍然是“差异中的差异”。
从以上讨论中容易明白:
第一,运用DID方法从未要求对服药组(干预组)和不服药组(参照组)进行随机分组。事实上,若组别划分是随机的,则只观察一次就足够了,这完全是RCT的情形,没有必要用DID;
第二,运用DID需要关注平行趋势是否成立,这是非常关键的。如果平行趋势不成立,“差异中的差异”就不能真正反映服药的作用,或者说估计出的结果将是有偏误的;
第三,运用DID要求没有其他事件变化与干预(服药)同时发生。比如,服药组服药的同时,也加强了身体锻炼,那我们就不清楚“差异中的差异”是服药所致,还是锻炼所致。
DID固然是一种好方法,但无法适用于“一刀切”政策的情形。一刀切政策意味着所有人都进入了干预组,结果就不存在参照组。
比如,假设新药是一种疫苗,而政策要求所有居民都注射这种疫苗,结果就只能观察到居民注射疫苗前后的健康差异。这只有一个差异维度,而这一差异并非必然源自注射疫苗,因为居民的健康水平本身也有可能随时间变化。
不过,一般来说,在比较短的时间内,人们的健康状况自行变化很小。这意味着,缩短注射疫苗前后的时间窗口来观察居民健康差异,这个差异就更可能反映了疫苗对健康的(短期)影响。
在很短的时间窗口中,人们的健康随时间发生的变化可以忽略不计,那么注射疫苗前后短期内的健康变化,就是注射疫苗带来的。这类道理,其实生活经验也早已告诉我们。比如小孩注射疫苗,医院通常会要求观察20分钟后再离开。
注射疫苗20分钟乃至数小时这样短时间内出现身体异常(如发烧),这通常被断定为注射疫苗所致;随着时间越长,身体异常就越不可能归因于疫苗,若是注射疫苗一两个月之后才出现发烧等身体异常,那基本上与注射疫苗应该没什么关系;而且这一两个月,个体也经历了许多其他事件,带来了识别困难。
上述想法正是回归断点设计(regression discontinuity design,简称RDD)方法的核心思想。一刀切政策线的两边(可以是时间的前后,也可以是空间的左右),可能存在某些系统性差异,因此一刀切政策线两边的差异实际上包含了政策所致的差异和那些系统性差异。
但是,在政策线两边很小的区域内,这些系统性差异往往很小,可以忽略,甚至观察的样本近似于随机地在政策线的两边——从局部来看,这实际上就是RCT的情形了,故回归断点设计可视为局部随机试验。在政策线两边的局部区间所观察到的差异,可视为由政策导致。
再举一个直观例子。大学教育对于个人收入究竟有多重要?过去回答这个问题时,通常把大学、中学、小学等不同学历的人群拿来比较。
但是,个人收入不仅受教育程度影响,也受个人能力等影响;教育程度本身也受能力影响,更有能力的人往往获得了更高学历。
结果,观察到大学毕业人群有更高收入时,其实很难说究竟是大学教育产生了作用,还是个人能力产生了作用。怎么克服这一识别问题呢?一种可行的办法就是利用回归断点设计。
具体地,假设高考录取分数为500分。结果,高考500分的人顺利进入大学并完成学业;高考499分的人名落孙山,未能获得大学教育。
但是,考499分和考500分的人在能力上有多大差距呢?大概很少有人会反对这样的看法:600分和400分之间存在巨大的能力差异,但500分和499分只不过是一个运气好点而另一个运气差点而已。
比如刚好碰到一个稍微严格或稍微松懈一点的阅卷人,这中撞运的事完全可以带来超越考生控制的几分之差。
人们多半也会同意,495分到505分这群人,他们谁上大学谁落榜很大程度上都与运气有关,他们之间的能力差距几乎可以忽略。
既然如此,就可以把495~500分的群体和500~505分的群体之间的能力差异视为零,这两个群体之间的收入差异不太可能由能力造成,而是大学教育造成的。
RDD利用了“断点”两边较小的局部区域内样本分布更类似随机分组这一事实,来完成因果推断。很自然地,如果能够让分组更接近“随机”,咱们对因果推断就会更有信心。
既然可以像RDD那样挑选一个小小区域中的样本来推断,那可否考虑选择部分样本构造出近似随机分组的样本组来进行推断呢?这一想法是很自然的,答案也是肯定的。
而且有时候这样做可能也是更恰当的。譬如,由于人们自愿选择是否注射流感疫苗,选择注射者多为年老体弱者,青壮人士很少去注射。结果干预组中多为老弱人士,未注射的青壮人士将不是恰当的参照组,与其用任意选一些未注射者进入参照组,不如选择相对老迈的人士做参照组来得好。
但更好的做法是,对于每一个注射者,寻找一个跟这个注射者年龄相当的未注射者,逐一配对形成一个可比较的参照组。这就是匹配法的思路。简言之,匹配法就是从参照组选出和干预组非常接近的配对,构造出可比较组的方法。
当然,基于年龄来配对,只是一个维度上的匹配。有时候,需要在多个维度上来进行匹配。寻找各方面类似的配对并不容易,故研究者们发展了各种配对方法,比如常用的倾向得分匹配(PSM)方法。
这种方法考虑多种属性,并假定两个人注射疫苗的可能性只受这些属性的影响,因此两个属性完全相同的人一个注射了疫苗,而另一个没有注射,则全属碰巧。本质上,这就是让考察的样本分组更接近“随机”。
除了上述这些方法,是否还有其他方法来构造准实验进行因果推断?研究疫苗注射与健康的问题,麻烦在于:注射疫苗是个人的选择,这种选择受个人健康水平影响,而健康水平恰恰是我们所关心的结果。
原因和结果存在相互影响,究竟是“鸡生蛋”还是“蛋生鸡”?这是研究者们常提到的内生性问题之一。如何克服呢?应该注意到,注射疫苗虽然是个人的选择,但个人的选择并不仅仅取决于个人健康,也会受到其他因素影响,甚至有些影响因素跟个人健康毫无关系。
这些和个人健康毫无关系的影响因素,相当于在人们盯着健康的疫苗注射决策中横插一脚,“外生”地干预了人们的选择——从而,人们注射疫苗的决策影响因素包含了两类:一类是与健康有关的,这是内生的影响因素;一类是与健康没有关系的,是外生的影响因素。
假如,能够将外生因素对疫苗注射决策的影响分离出来,那么这分离出来的决策部分,就是与健康无关的决策部分,这部分决策导致的疫苗注射对健康的影响就不会存在“鸡生蛋、蛋生鸡”的问题。这样的因果推断思路,其实就是工具变量方法(instrumental variable, 简称IV)的基本思想。
具体来说,个人是否注射疫苗当然受自身健康影响,但也受疫苗价格、对疫苗的了解程度等多种因素影响。倘若政府为了推广疫苗,随机抽取部分居民发放注射疫苗的补贴,得到补贴的居民相当于以更便宜的价格注射疫苗,于是他们注射疫苗的可能性增加了。
这就意味着,人们是否注射疫苗,部分源于非随机的“选择”,但也部分地源于随机的“补贴冲击”。只需要把与随机“补贴冲击”有关的那部分疫苗注射行为抽取出来,研究它们与个人健康的关系,就可以完成因果推断。
所以本质上,工具变量法可视为是利用外生因素去识别出个体行为中受外生因素决定的部分,构造了类似RCT的情形来进行推断。
当然,寻找工具变量常常是困难的,因为合法的工具变量要求它能够影响原因,但不能直接影响结果,此外还要求不存在同时影响工具变量和结果的其他不可观测因素(若存在这样的可观测因素倒也无碍,控制起来即可)。
在众多的估计方法中,它的地位仅次于最小二乘法(OLS)。工具变量法可见于任何一本计量经济学教材,在研究论文中也有大量应用,故不再赘述,介绍到此为止。