QJE新任主编AER上"非洲奴隶贸易与不信任的起源", 一篇堪称经典的截面数据实证论文
稿件:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
前不久,社群讨论了0.练练手, 分享一份完整复制出文章的实证结果的数据和代码,1.“显著不显著的后背是什么, 非(半)参估计里解决内生性”,2.“计量社群里关于使用交互项还是中介效应分析开展机制研究的讨论”,3.“为啥面板数据回归中, 即使X对Y的解释程度很大, 但R-square一般都很小?”,4.多期DID中使用双向固定效应可能有问题! 又如何做平行趋势检验? 多期DID方法的最新进展如何?,5.收入和年龄等变量是将其转化成有序离散变量还是当成连续变量进行回归呢?6.控制变量就能影响结果显著性, 所以存在很大操作空间, 调参数是常用手段吗?7.回归中常数项显著说明模型中有遗漏变量问题?8.审稿人有义务告诉你回归中可能的遗漏变量么?等等。这些讨论中有很多非常高质量的内容值得被记录起来,因此后面会形成一个计量圈社群讨论专栏。
正文
上一日,咱们引荐的“AER上因果关系确立, 敏感性检验, 异质性分析和跨数据使用经典文章”,受到社科学者欢迎。
今天,因果推断研究小组想要引荐的是American Economic Review上的截面数据经典文章。之前,也引荐过“一个使用截面数据的政策评估方法, 也可以发AER”,有兴趣的可以读一读它。在中文期刊,截面数据基础上的研究非常多,主要是像CGSS,CFPS,CHFS,CHIP等微观数据更容易在单个年份上展开相关研究。很多研究者批评CFPS,CHFS等面板追踪数据,说它们在各个年份的问题设置上并不相同,而且存在很多missing数据现象,因此想要整理成一个像样的面板数据充满很多挑战。
咱们一直强调因果推断在社会科学中的重要性日益增加,且系统引荐了系列Quasi-experimental方法,比如DID,RDD,SCM,HCW,GSCM,IV,Matching等。其中,针对截面数据的因果推断用得最多的方法,还是工具变量法和匹配法(RDD,DID也可以用于截面因果推断)。Matching能够处理的是selection bias on observables,就是消除可观测变量基础上的选择偏差问题。但selection bias on unobsevables问题,Matching是无能为力的,哪怕咱们介绍的“Match匹配估计做敏感性检验的最新方法, 让不可观测变量基础上的选择无处遁形”,也只能稍微让审稿人减轻疑虑。在匹配过程中,咱们也尽量多选择一些影响处理变量X的外生变量,这样更能让审稿人相信匹配是一个有意义的过程(至少更好地消除处理变量非随机问题)。遗漏变量,尤其是不可观测变量遗漏问题,一直是截面数据实证分析中的老大难问题。最常见的方法:a. 尽量控制这些遗漏变量,b. 使用“因果推断中遗漏不可观测变量多严重? 通过可观测变量检测”方法,c. 借助于工具变量法。
很多社科研究者一般是直接跳到工具变量法,大多数时候,也并没有分析工具变量是否真的合理(以借鉴某某为主)。哪怕是比较不错的中文期刊,都只有微乎其微的版面来论证工具变量的合理性,即工具变量IV必读文章20篇, 因果识别就靠他了。这次引荐的文章在论证IV合理性方面较充分,尤其是在考虑exclusion restriction条件时,作者进行反复论证直到审稿人相信为止。毕竟,工具变量的排他性约束条件难以证实,咱们只尽可能去证伪其他可能的影响路径。也即是说,内生变量X——工具变量Z——结果变量Y,咱们没有任何信心去证明X只会通过Z影响Y。内生变量X可能影响M,N,而M和N又与Y相关,此时,咱们就只能一步步把M和N途径放到工具变量回归中,从而使工具变量Z尽可能满足排他性约束条件。
那如果找不到工具变量咋办呢?那就a. 尽量控制这些遗漏变量,b. 使用“因果推断中遗漏不可观测变量多严重? 通过可观测变量检测”方法。只要让审稿人知道,你已经控制了足够多的变量,而且不可观测变量的影响并不大。当然,建议用一下Matching方法,消除一部分选择偏差问题“匹配方法(matching)操作指南, 值得收藏的16篇文章”。如果你还不甘心于缺少合适IV,那试试这个:“找不到IV, RD和DID该怎么办? 这有一种备选方法”和“不用IV, 基于异方差识别方法解决内生性, 赐一篇文献”。
现在,咱们开始引荐这篇AER上的文章。这篇文章主要讲的是,400年前的奴隶贸易对当下非洲地区发展的负面影响,基于信任的视角。在400年前大西洋奴隶三角贸易把非洲当地人当作奴隶贩卖到北美洲和南美洲。而这些严重受到奴隶贸易影响的祖辈的后代对政府和他人丧失了信任感。400年前的奴隶贸易,竟然导致了400年后人们之间的不信任感,这个研究最需要论证的就是为什么会这样?作者基于进化人类学和制度经济学两个视角,来分析400年前的奴隶贸易是如何影响400年后人们的不信任感。经过检验,奴隶贸易对制度的改变从而引起不信任感的影响路径,远不如奴隶贸易改变这些深受奴隶贸易影响家庭的内在信念的影响路径重要。
在高中课本中,咱们知道奴隶贸易的发展阶段,但具体执行细节就知之甚少。作者在背景介绍章节,详细说明了奴隶贸易开展过程。比如,当地首领把人抓起来通过港口卖到海外,那如果这个人不想被卖,那可能会欺骗邻居、朋友甚至自家亲人到某个地方,说是去那里玩一玩或赚钱,可这些被骗的人一去就被卖掉了。这就是在用出卖周围人的方式来换取自身自由,因此,从形式上真的非常像传销组织。在中国国内,有很多父母亲被孩子骗到传销组织后,一家人陷入太深而无法自拔不得不跳楼自杀。这种奴隶贸易的后果,是人们都不愿意相信周围人,甚至连最亲的亲人都不能完全信任。不过,这是基于有限信息的最优选择。当对周围人的信息不完全,或需付出高昂信息搜寻成本时,咱们倾向于“大拇指法则”来做出相应选择。举例,如果你周围人甚至亲人都有可能欺骗自己,你渐渐地会倾向于先不信任他们,毕竟要信任他们所需要支付的信息成本非常高。
这就是一个恶循环,信任——受到损失——不信任——进一步不信任——世世代代不信任——基因里就认为不信任是正确的。鉴于这种考量,咱们需要坚定地打击传销组织,将不信任的种子消灭在萌芽状态。而要想改变这种不信任先天观念,可能需要几十年甚至上百年的努力,不妨试想一下“重男轻女”观念有多长历史了。
两条主要奴隶贸易路线图
下面,因果推断研究小组有选择性地展示文章里的一些重要内容并进行说明。
作者使用的是Afrobarmeter 2005年数据。
与Nunn的数据进行匹配。
实证研究策略和相关变量定义。
OLS回归结果。注意,作者回报了三种类标准误。被解释变量是对邻里的信任度。
现在将被解释变量Y换成对亲人、邻里、当地政府等的信任。
前面都是相关性分析,还不能确定奴隶贸易对信任的负面影响为因果关系。
首先,作者控制了两个反映殖民开始前各个种族的繁荣度和当地自然环境的变量。
作者通过可观测变量的回归来评估不可观测变量所导致的估计偏误问题严重性。主要是借鉴这篇文章的思路“因果推断中遗漏不可观测变量多严重? 通过可观测变量检测”。考虑到它的重要性,咱们把文章里方法介绍列出来,可以简易学习一下。
回归的结果如下。
第三步,作者使用IV估计。
作者考虑工具变量合理性:一是相关性,二是外生性。其中,作者对工具变量外生性比较担忧。
工具变量回归结果。
作者担心工具变量会通过其他途径影响被解释变量,因此把这些途径放到工具变量回归中。
为进一步验证IV的合理性,作者做了两个证伪检验falsification tests。在非洲样本中,与海岸线的距离与当下人们对政府信任显著正相关,因为与海岸线的距离会通过奴隶贸易从而影响当下人们对政府的信任。那在没有奴隶贸易的亚洲样本中,与海岸线的距离就不会与当下人们对政府信任有相关关系。
第二个证伪检验也是类似的。
作者三个回归检验两个影响渠道,此时,主要看解释变量相对于基准回归的系数变化率。