最全利用工具变量控制内生性的步骤和代码—在经管研究中的应用

箱:econometrics666@126.com

所有计量经济圈方法论丛的do文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
关于相关计量方法视频课程,文章,数据和代码,参看 1.面板数据方法免费课程, 文章, 数据和代码全在这里, 优秀学人好好收藏学习!2.双重差分DID方法免费课程, 文章, 数据和代码全在这里, 优秀学人必须收藏学习!3.工具变量IV估计免费课程, 文章, 数据和代码全在这里, 不学习可不要后悔!4.各种匹配方法免费课程, 文章, 数据和代码全在这里, 掌握匹配方法不是梦!5.断点回归RD和合成控制法SCM免费课程, 文章, 数据和代码全在这里, 有必要认真研究学习!6.空间计量免费课程, 文章, 数据和代码全在这里, 空间相关学者注意查收!7.Stata, R和Python视频课程, 文章, 数据和代码全在这里, 真的受用无穷!

正文

关于下方文字内容,作者李松泽,中央财经大学中国经济与管理研究院,通信邮箱964916858@qq.com
作者之前的文章:
实证应用经济学中的稳健性检验是什么? 怎么做?哪些策略呢?
中介效应分析新进展和检验方法!
谁嫁(娶)给了谁?基于CHIP的DID方法发现, 与岳父母的教育有关!
重新思考BK中介模型, 关于中介效应分析的神话与事实!
JEEM上关于中国环境领域下载量最高的文章很有意思!
男神毛咕噜最新Top5大作, 另外, 有序因变量依然使用OLS回归!
万字长文述"家庭经济学"进展, 诺奖得主贝克尔长耕于此!

Bascle G. Controlling for endogeneity with instrumental variables in strategic management research. Strategic Organization. 2008;6(3):285-327. doi:10.1177/1476127008094339

This article offers a framework to understand how endogeneity arises and how to control for it with instrumental variables to estimate causal relations with observational data. It builds on the state-of-the-art research in applied and theoretical econometrics to highlight the importance of endogeneity and review the methods that can be used to address it with instrumental variables.The article also discusses when the Heckman two-step procedure can be used, as well as the tests, methods and assumptions that researchers should check when using instrumental variables.To ease implementation of the instrumental variables techniques, the author offers the STATA commands of the exposed tests and methods. Further, an empirical example is provided along with the utilized STATA codes. In the end, this article serves as a`toolkit' allowing scholars not only to understand whether endogeneity is present in their empirical setting, but also to assess the empirical validity of their work when using instrumental variables.

本文(Bascle, 2008)围绕当时理论和应用计量经济学研究的最新成果,介绍了利用工具变量克服内生性的方法以及对应的stata命令,并结合实例展示了工具变量法在战略管理研究中的应用。本文有助于研究者理解其实证设计中的内生性问题,并为评估工具变量法的有效性提供了参考。
因果关系是经济学与管理学关注的核心问题。与医学和心理学等经常采用随机控制实验来探究因果的学科不同,多数情况下经管学者只能借助“观测数据(observational data)”开展研究。但是当内生性问题存在时,基于观测数据的标准回归分析会得到有偏的估计,进而导致错误的因果判断。工具变量法是解决内生性问题的一种常用方法,本文将围绕以下几点进行介绍:
l 内生性问题何时会出现?
l 如何利用工具变量处理内生性?
l 各种工具变量估计方法存在怎样的优缺点?
l 为了确保工具变量法的有效性,研究者应该系统地进行哪些检验?
本文的核心内容总结为如下的决策树(箭头上的字母注记请读者参考原文):
OLS估计的内生性
普通最小二乘(OLS)估计是应用最广泛的回归分析方法。根据Gauss-Markov定理,如果Gauss-Markov假设成立,那么OLS估计就能获得“最优线性无偏估计量(best linear unbiased estimator, BLUE)”。但是,如果回归元与误差项相关(存在内生性),OLS估计就是不一致的,即其所得估计量不会向总体参数收敛。具体来说,导致内生性的常见原因有三种:测量误差(errors-in-variables)、遗漏变量(omitted variables)以及联立因果(simultaneous causality)。
测量误差
遗漏变量
当某个影响因变量且同时与一个或多个解释变量相关的变量在回归中被遗漏时,便会产生遗漏变量偏误。“自选择”是造成遗漏变量偏误的常见原因。例如,一家公司可能会基于研究者无法观察到的某些特征(如管理方式和作业程序)来决定是否开展新的业务,而这些特征同时也会影响公司的经营绩效,因此在研究多元化经营对公司绩效的影响时便存在遗漏变量偏误导致的内生性。
联立因果
当因变量和自变量存在双向的因果关系时,便会产生联立因果问题。此时自变量会与误差项相关,从而使OLS估计有偏且不一致。
在一项研究中,上述三种内生性来源可能同时存在,这会导致OLS偏误的方向无法被准确预测。工具变量法能够有效地处理这些内生性问题。
Heckman两步法
在正式讨论工具变量法之前,本文首先简单介绍了另一种处理“自选择”问题的方法,即Heckman两步法。以探究多元化经营与公司的绩效为例,Heckman两步法通过估计两个方程来处理自选择问题。第一个需要被估计的方程为“选择方程(selection function)”,该方程以是否多元化经营为因变量(0-1变量),通常被设定为probit形式。可以根据第一个方程的结果计算出“逆米尔斯比率(inverse Mills ration)”。第二个需要被估计的方程为“结果方程(outcome function)”,它在我们关注的回归方程基础上加入逆米尔斯比率作为校正因子,如果其估计系数显著,则表明自选择偏误确实存在。
实践中,如何在工具变量法和Heckman两步法之间进行选择?有两点需要考虑。
首先,需要关注研究的内生性类型。Heckman两步法只能处理“自选择”带来的内生性,而工具变量则能同时处理上述三种类型的内生性。同时,Heckman两步法的选择方程依赖于单个“限值因变量”,而工具变量法则允许多个内生回归元存在,第一阶段估计可以处理多种函数形式。
其次,需要关注两种方法的假设和使用前提是否被满足。对于Heckman两步法的使用,有以下五点注意事项:
  1. 选择方程和结果方程的误差项应该满足二元正态分布。

  1. 需要满足“排除性约束(exclusion restrictions)”,即结果方程回归元集合应该是选择方程回归元集合的“真子集”,否则会出现严重的多重共线性。

  1. 统计推断时必须使用异方差稳健标准误。

  2. 小样本(少于200个观测)情况下,Heckman两步法不适用。

  1. 研究者需要判断选择方程的解释变量与结果方程的解释变量之间是否存在高度共线性。

利用工具变量解决内生性问题
LATE vs ATE
由于满足相关性和外生性的工具变量只能通过影响内生回归元来间接地影响因变量,所以工具变量估计法只能识别对“依从者(compliers)”的平均处理效应,也即“局部平均处理效应(LATE)”。依从者会根据工具变量的取值来决定是否接受“处理”。以研究多元化经营对公司绩效的影响为例,若选择宏观经济变量作为IV,则依从者就是那些会根据宏观经济状况变动来改变自身多元化经营决策的公司。
为了确保工具变量法得到有效的因果推断,需要满足两个条件:
第一,LATE与ATE之间的差异至少是可被忽略的。具体来说,有三种可能的情况:
  1. 不存在异质性。如果在控制了协变量后,所有个体的处理效应都是相同的,那么此时ATE就是LATE。这种情况下,IV估计法能够得到对因果效应的一致估计。

  1. 不存在实质的异质性。这种情况是指虽然在控制协变量后处理效应依然存在异质性,但是该差异无法影响样本个体“是否接收处理”的决策。此时,工具变量对所有个体产生的影响仍是相同的,所以能获得对因果效应的一致估计,并且ATE与LATE的差距也不会太大。

  1. 存在实质的异质性。在这种情况下,具有相同可观测特征的个体会根据不可观测的收益(unobserved gains)来决定是否接收处理。此时,工具变量法只能获得对依从者的因果效应的一致估计,且ATE与LATE之间存在较大差异。

如果LATE与ATE差距很大,那么工具变量法估计所得的结论仅对依从者成立,而不是用于样本总体。这就意味着面对相同的数据,选取不同工具变量进行估计会得出不同的结论。此时从政策评估的角度来说,工具变量估计并不总能得到优于OLS估计的结果。
第二,单调性(monotonicity)需要被满足。该性质要求当工具变量取值改变时,所有受影响的个体都会按照相同的“方向”改变自身的处理状态。违背单调性的个体被称为“违抗者(defiers)”。当违抗者存在时,工具变量估计通常无法得到对样本总体因果效应的有效推断,除非研究者能够证明在其研究背景下不同方向的处理能够对个体产生相同的因果效应。
当有效工具变量数目多于内生变量数目时,有以下几点策略可供考虑:
  1. LATE和ATE的差距通常会被缩小,因为是否接收处理具备多个变异性来源(source of variations);

  1. 若这些工具变量存在明显差别,则LATE与ATE的差异会进一步缩小;

  1. 如果同时使用或者分别单独使用这些工具变量所得的估计结果相近,那么就意味着个体对于处理的响应不存在明显的异质性;

  1. 当LATE与ATE差距很大时,要么重新选择工具变量,要么仅对依从者群体进行因果推断;

  1. 工具相关性越强,LATE和ATE接近的可能性就越大,单调性假设也越容易满足。

实证案例:多元化经营公司分红政策的有效性
本部分结合一个具体的战略管理实证案例来演示工具变量估计的流程以及stata操作。
作者从1998年《财富》500强上市公司中选取了在1997至2002年采取多元化经营战略的公司作为样本,研究分红政策能否增加投资者对多元化经营公司的支持。具体来说,研究的因变量为“超额价值(excessvalue)”,大于0表示“多元化溢价”,小于0则表示“多元化折价”;内生的核心解释变量为“分红金额(dividend)”。作者选取了3个工具变量,分别为“年度单户型新屋开工数(annualhousing)”、“行业平均广告支出(industryadverexp)”以及“行业平均总销售额(industrytotsales)”。此外本案例还控制了一系列协变量,具体参见原文。
实证步骤
  1. 检验工具相关性

为了检验工具相关性,需要得到第一阶段估计的F统计量,因此ivreg2命令后需要添加ffirst选项。具体的stata命令及结果如下图所示,可以看出本案例所选的工具变量很好地满足了工具相关性。
  1. 检验工具外生性

上述命令也会报告检验工具外生性的统计量。首先,在ivreg2命令后添加ffirst选项会报告Sargan统计量,结果如下图所示,可以看出本案例所选的三个工具变量也满足工具外生性(高p值意味着外生的原假设未被拒绝)。
同时,上述命令的orthog(industrytotsales)选项还报告了针对工具变量“行业平均总销售额(industrytotsales)”的C-统计量。下图的结果表明该工具变量满足外生假设。类似地,我们也可以利用orthog(.)选项来单独检验另外两个工具变量的外生性。
  1. 检验是否存在异方差和序列相关

在完成工具变量估计后,分别输入ivhettest命令和abr命令即可进行Pagan-Hall异方差检验以及Arellano-Bond序列相关检验。结果表明本案例同时存在异方差以及序列相关。
  1. 进行异方差-序列相关稳健估计

上一步的结果表明,为了得到有效的统计推断,需要计算HAC标准误,而受到样本量限制,本案例无法采用GMM估计。由于所选工具变量满足工具相关性,所以作者继续使用2SLS估计,并在ivreg命令中加入r bw(2)选项以获得对异方差和序列相关稳健的标准误。
  1. 进行Moreira CLR检验

正如前文所强调的,在完成工具变量估计后,有必要将所得结果与Moreira CLR检验结果相比较。为此,需要用condivreg命令代替ivreg2命令,再次进行估计。可以看到,Moreira CLR得到的置信区间接近10%的显著性水平。
作者认为,Moreira CLR与2SLS所得结果之间的差异是合理的,即不存在有限样本偏误。之所以这样判断,是因为二者的微小差异可能是由于Moreira CLR方法对异方差和序列相关是不稳健的。
  1. 在报告HAC标准误的基础上重新检验工具外生性(略)

最终结果
下图展示了不同方法对核心解释变量系数的估计结果。可以看到,受内生性影响的三种估计方法所得的结果存在非常明显的差异:OLS估计显示分红政策会对超额价值产生高度显著的正向影响,FE估计结果正好与OLS相反,而FGLS估计则表明分红政策无显著影响。另一方面,三种工具变量估计方法所得结果则一致表明发放分红并不会增加多元化经营公司的超额价值。
进一步讨论
首先,作者进行了一系列的稳健性检验:
*重新选取多个工具变量(例如CPI、当前商业状况、消费者情绪指数、美债收益率等)。结果表明,无论采取哪一种方法,工具变量估计值都不会受到影响。
*检验每一个协变量的外生性。当方程包含全部协变量时,它们整体的外生性可以被满足。
*考虑核心解释变量的非线性设定(例如加入二次项或三次项)。没有证据表明需要更改线性设定。
其次,由于本案例与公司绩效相关,且是否分红也可能是在分析者观测不到的收益基础上决定的,所以公司间存在明显的异质性。此时讨论LATE与ATE之间是否存在明显差异是十分重要的。作者认为,由于本案例选取了多个互不相同的工具变量进行估计,所以不同的依从者子群体均有被覆盖,这可以减少LATE与ATE之间的差异。另一方面,在稳健性检验中,选取不同工具变量所得估计结果的稳定性也表明估计值应该与ATE相近。
最后,作者还指出,工具变量的单调性假设在本案例中可能不成立。例如,“年度单户型新屋开工数”等宏观变量对公司分红决策的影响方向可能并不明确。但是作者认为,在本案例中,单调性的违背可能并不是一个严重的问题。一方面,即便有公司是“违抗者”,也没有理由认为投资者对它们的态度会与作为“依从者”的公司有差别。这就意味着违背单调性不会产生过于严重的偏误。另一方面,本案例选取的工具变量是高度满足工具相关性的,这也会大大降低违背单调性带来的潜在偏误。
关于相关计量方法视频课程,文章,数据和代码,参看 1.面板数据方法免费课程, 文章, 数据和代码全在这里, 优秀学人好好收藏学习!2.双重差分DID方法免费课程, 文章, 数据和代码全在这里, 优秀学人必须收藏学习!3.工具变量IV估计免费课程, 文章, 数据和代码全在这里, 不学习可不要后悔!4.各种匹配方法免费课程, 文章, 数据和代码全在这里, 掌握匹配方法不是梦!5.断点回归RD和合成控制法SCM免费课程, 文章, 数据和代码全在这里, 有必要认真研究学习!6.空间计量免费课程, 文章, 数据和代码全在这里, 空间相关学者注意查收!7.Stata, R和Python视频课程, 文章, 数据和代码全在这里, 真的受用无穷!
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。
(0)

相关推荐