一、内生性问题及应对

内生性( endogeneity)问题，是指由自变量与误差项相关所引发的估计偏倚及统计结果误导性等问题的总称，即违背了线性回归中的正交假定而产生的一系列问题。内生性问题看似简单，但目前已成为线性回归及其他回归模型中最为棘手的问题。在引入内生性问题之前，让我们先熟悉内生变量与外生变量的基本概念。

1、内生变量与外生变量

内生变量，是指所有与动项相关的解释变量。它的参数是联立方程估计的元素，即那些受模型内部因素影响的变量。

外生变量，是指受模型外部因素影响的变量，也即那些与随机误差项不相关的变量。

一个典型的线性回归模型:y = β0 + β1x1 + βX + ε (1)

，这里y为被解释变量，x1为自变量，或者解释变量，也即“因”。大写的 X 为外生控制项向量( 也即一组假定为外生的其他控制变量，例如年龄、性别等等) ，ε则为误差项。如果ε与x1不相关，那么我们可以利用OLS 模型对方程进行无偏估计。

然而，如果一个重要变量x2被模型(1) 遗漏了，且x1和x2也相关，那么对β1的OLS 估计值就必然是有偏的。此时，x1被称作“内生”的解释变量，这就是 “内生性”问题。遇到“内生性”问题怎么办？有一个方法就是找工具变量Z。

如果存在内生性，则称解释变量为 “内生变量”（endogenous variable）；反之，则称为 “外生变量”（exogenous variable）。内生性的严重后果是使得 OLS估计量不一致（inconsistent），即无论样本容量多大，OLS 估计量也不会收敛至真实的参数值。

在计量经济学中，把所有与扰动项相关的解释变量都称为“内生变量”。这与一般经济学理论中的定义有所不同。1。与误差项相关的变量称为内生变量(endogenous variable)。2。与误差项不相关的变量称为外生变量(exogenous variable)。

2、内生性的来源

产生内生性问题的一般原因如下：

1.互为因果( reverse causation)或反向因果(back- door causation)关系

互为因果即为X导致Y，但Y也同时影响X，X即为内生变量(因其本身就由部分Y所决定)。

首先我们来看下反向因果关系的解释，例如根据凯恩斯的消费函数，首先模型的设定为C=a+bY+Ui，其中C为消费，Y为国民收入，Ui为随机误差扰动项。然而国民账户的恒等式又有Y=C+I+G+NX,即Y等于消费投资政府购买和净出口的和，很显然，消费是国民收入的重要组成部门，消费又是误差的函数，这样消费与国民收入的函数之间存在反向因果关系，主要因为消费函数里面的Y与Ui相关，本来应该是X与Ui不相关，扰动项的信息应该全部包括或者表现概括在已经有的X里面了。

2.忽略变量( omitted variable)

若在模型设定中，某些不可观测的变量( unobservable variable)或重要变量被忽略，但它同时影响X与Y，也会导致内生性问题，即产生了因忽略变量导致的内生性问题。

遗漏变量主要值得是某些不可观测的解释变量没有纳入到回归模型中，如果被遗漏的变量能够同时对因变量和自变量产生影响，那么会出现内生性的问题。一个比较经典的案例：例如研究一个人受教育程度与他的收入之间的关系，其中收入作为被解释变量Y，然后样本中的受教育程度作为解释变量，这个模型中例如能力、性别以及其他变量都有可能同时影响该模型变量受教育程度以及收入，例如个人能力比较高的人可能这个收入比较高，而个人能力有可能作为遗漏变量包含在随机误差扰动项中，因此会出现这个内生性的问题。

3.测量误差( measurement error)解释变量X的测量误差与X相关，该测量误差又被合并到误差项中。因此，X具有内生性问题。

二、工具变量法

解决内生性问题的常见方法，主要包括工具变量( instrumental variable，简称IV) 、固定效应模型( fixed effects model，简称FE) 、倾向值匹配( propensity score matching，简称PSM) 、实验以及准实验( experimentsand quasi-experiments) 等等。本文主要介绍工具变量法。

工具变量法是解决内生性问题的有效方法。

1.概述

当模型中内生变量与误差项相关而产生内生性阿题时，我们的基本解决思路是:根据相关理论分析与数据探索，寻找一个与解释变量相关但与随机误差项不相关的代理变量，即工具变量，再通过 Hausman检验等来判断该工具变量是否恰当。

简单来说，工具变量就是满足某种要求的替代变量，类似于酒醉找代驾。之所以采用个工具变量，是想用它来换中不能是正交假定条件的那些解释变量，这是改善模型参数估计量特性的一种有效方法。也就是说，当解释变量是随机的，且与误差项相关时OLS估计有偏且不一致。为了改进估计，只好采用工具变量Z。

但Z必须满足两个条件：即Z与X必须高度相关，但与误差项不能相关。换句话说，要想消除内生变量导致的偏误，一个有效(valid)的工具变量需同时满足以下两个条件

(1)相关性( relevance)。工具变量要与内生解释变量高度相关，即工具变量影响内生解释变量的力度( powerful condition要大。也就是说，Cov(X，Z)要大。

(2)外生性：工具变量要与扰动项不相关，也被称为“排他性约束或工具变量的效度( validity)。这里的外生性意味着工具变量影响被解释变量的唯一渠道是通过与其相关的内生解释变量，它排除了所有其他的可能影响渠道。

这也可以近似地理解为工具变量不能与被解释变量有直接的关系。例如，在考察教育与收人的关系中，要找到一个工具变量与受教育年限相关，但与收入无关，再进行相关回归。

这种包含工具变量的估计方法被称为工具变量法。

2、定义工具变量

从本上说，工具変量只与方程中的解释变量相关，而与方程中的误差项无关。也就是说，若想用变量作为自变量X的工具变量，Z必须同时满足如上文所述的两点要求，即

(1)工具变量Z必须为外生变量，即Cov(Z，ut)＝0

(2)工具变量Z必须与内生自变量X高度相关，即Cov(Z，X)≠0。

多数情况下，我们需要根据常识或理论来判断假定Cov(Z，)＝0是否成立。同时，还要检验假定条件Cov(Z，X)≠0是否成立

要解决这一内生性问题，我们需要引入更多信息来进行无偏估计。工具变量的方法就是引入一个外生变量Z，且Z 必须满足以下两个条件: 与随机误差扰动项不相关，但与x1（与内生变量）相关。或者说，Z 仅仅通过影响x1来影响y。

总结为：与扰动项无关，与内生变量相关，能够替代或者表达原内生变量的信息，工具变量IV应该尽量是外生的（如历史/自然/气候/地理之类），它应该在理论上对被解释变量（以下称Y）没有直接影响，但应该通过影响被工具的变量（以下称X）而间接影响被解释变量Y。

一个合理的工具变量应该同时主要满足两个条件：

（1）、强度条件，即工具变量应该与内生自变量具有较强的相关性，即该工具变量的应该能够代替或者表达原内生变量的信息，数学表达式为：

COV（Z，X）=/0

（2）、排除限制条件，即工具变量应该与误差项不相关，也就是与因变量Y中不能被已有的自变量x所表达的部分无关（也是与误差项无关）

COV（Z，u）=/0

如果第一个条件不满足，我们认为这个工具变量是弱工具变量，如果第二个条件得到不满足，我们认为该工具变量不具备足够的外生性，所谓外生性就是Z与误差项不相关。这样将导致工具变量的估计值出现类似于OLS估计的回归偏误。

三、工具变量的基本应用

如何获得合理的工具变量?一般来说，首先要列出与内生解释变量相关的尽可能多的清单，再从这一清单中剔除与扰动项相关的变量，即使用排除限制( exclusion restriction)的逻辑。

例如，对于时间序列或追踪数据，常使用内生变量的滞后变量作为工具变量(一般用二阶滞后项)。显然，内生変量与其滞后值相关。但由于滞后変量已经发生，故为“前定”，可能与当期随机扰动项不相关。

四、内生性检验/Hausman检验

Hausman检验是通过对内生解释变量与随机误差项相关的检验，来帮助我们判断一个变量是否为内生变量。

Hausman检验的一个假设就是若解释变量具有内生性，则两种方法的估计量并不相同。通俗来说，就是Hausman检验是通过对内生解释变量与随机误差项相关的检验，来帮助我们判断一个变量是否为内生变量，原假设为Cov（X，ui）=0，意思是若X为外生变量。若是拒绝原假设，则说明内生性问题的存在，Hausman检验一般根据统计值的概率与0.05比较。

Hausman检验的基本语法格式为：

hausmanname-consistent [name-efficient] [, options]

其中hausman表示hausman检验，而name-consistent表示一直估计量的变量名，而name-efficient表示有效估计量的变量名，主意这两个变量名的顺序不能颠倒。Option选项的constant 表述包含常数项，默认不包含常数项，然后sigmamore表示统一使用更有效的估计量

然后基本的语法汇总为：

reg y x1 x2

eststore ols

ivregress2sls y x1 （x2=z1 z2）

eststore iv

hausmaniv ols ，constant sigmamore

五、过度识别检验

当我们遇见多个内生变量的时候，需要考虑工具变量的个数，以确保所有的变量都能被识别，也就是考虑工具变量的个数与内生变量的个数，这也就是一般所说的识别检验，这里主要分为三种，即工具变量的个数与内生变量的个数大小比较，小于，等于，大于。

如果工具变量个数少于内生变量个数，则无法进行 2SLS 估计，称为“不可识别”（unidentified）；

如果工具变量个数正好等于内生变量个数，则称为 “恰好识别”（justidentified 或 exactly identified）；

如果工具变量个数大于内生变量个数，则称为 “过度识别”（overidentified）。在恰好识别或过度识别的情况下，均可进行 2SLS 估计；而在不可识别的情况下，则无法进行。

在计量经济学方法研究以及应用中，一般需要恰好识别或者过度识别，虽然过度识别的情况比较多一些，另外这是进行工具变量法的必要条件；若是出现过度识别，则需要进行过度识别检验，也成为萨尔干巴斯曼检验，写作Sargan-Basman检验。

该假设的条件为所有有效的工具变量的个数与内生解释变量一样多，或者说是这个所有的工具变量都是外生的。

过度识别的命令为estat overid

若是Sargan-Basman检验的统计量对应的p值大于0.05，则认为所有的工具变量都是外生的，也就是有效的，反之则是无效的。（原假设是所有工具变量是外生的，若是p值小于0.05，则拒绝原假设）

总结：过度识别检验其实一部分是为了检验工具变量的外生性，主要体现在检验工具变量是否与扰动项的相关性，即与扰动项不相关。

六、弱工具变量的检验

我们回顾一下，找到的工具变量需要能够很好的代表内生解释变量的信息，也就是工具变量与内生解释变量的相关性，若是内生解释变量与工具变量只存在微弱的相关性，这就存在弱工具变量问题了。如何检验呢，在2SLS后用estat firststage命令来检验弱工具变量的问题，若是对应的统计量的概率值小于0.05，则认为工具变量是合适的，是一个较好的工具变量，反之则认为存在弱工具变量的问题。

如果存在弱工具变量该怎么办？

如果有很多工具变量，有部分强工具变量和部分弱工具变量，可以舍弃较弱的工具变量而选用相关性较强的工具变量子集。在stata中，可以使用ivreg2命令进行“冗余检验”，以决定选择舍弃哪个工具变量。（直观上，冗余工具变量是那些第一阶段回归中不显著的变量。）

如果系数是恰好识别的，则你不能略去弱工具变量。在这种情况下，有两个选择：第一个选择是寻找其他较强的工具变量。(难度较大)

第二个选择是利用弱工具变量继续进行实证分析，但采用的方法不再是2SLS。而是对弱工具变量不太敏感的有限信息极大似然法(LIML)。在大样本下，LIML 与2SLS是渐近等价的，但在存在弱工具变量的情况下，LIML 的小样本性质可能优于2SLS。LIML的 Stata 命令为 ivregress liml depvar[varlist1] (varlist2 =instlist)

七、二阶段最小二乘法

二阶段最小二乘法的第一阶段就是利用原模型的内生解释变量对工具变量进行OLS，得到解释变量的拟合值；第二步，利用得到解释变量的拟合值对原模型进行最小二乘法，从而得到方程模型的估计值，这样就可以消除内生性的影响。

首先了解一下二阶段最小二乘法Stata中的命令为ivregress，语法格式为

ivregress estimator depvar [varlist1] (varlist2 = varlist_iv) [if] [in] [weight] [, options]

选项介绍

estimator分为2sls两阶段最小二乘、liml有限的信息最大似然(liml) 、gmm广义矩方法(gmm)

depvardepvar 为被解释变量；

varlist1为外生解释变量；

varlist2 为所有的内生解释变量；

varlist_iv为所有的工具变量；

在选项 options 中，

vce(robust)表示稳健型标准误

可使用 firstfirst 选项报告 2SLS 中第一阶段的回归结果

八、教育对工资影响

本文以griliches76.dta为例，研究工资影响因素。

背景介绍：

其中研究问题为：建立lw与受教育年数、工作年限、现单位工作年数、美国南方虚拟变量、大城市虚拟变量的方程，但是包括了影响已婚妇女工资的遗漏变量，可能存在内生性问题，其中能力会对工资产生影响，但是却与解释变量X中的educ相关，内生性存在。

因此需要寻找与能力相关，但是与误差项不相关的工具变量，认为已婚妇女的母亲的受教育年数跟已婚妇女的教育年限相关的，而这两个变量与已婚妇女的能力相关，可以替代原来内生变量的信息。因此，可以作为 educ的工具变量。另外还有职业测试成绩kww 、年龄、婚姻状况也作为工具变量。

相关数据介绍如下：

use   http://fmwww.bc.edu/ec-p/data/hayashi/griliches76.dta，cleareditdesc

相关操作代码为：

*普通最小二乘法 reg lw s expr tenure rns smsa i.year iq,robustest store ols

*工具变量法ivreg2 lw s expr tenure rns smsa i.year (iq=med kww age mrt), robustest store iv

结果为：

同时展现并对其进行对比，代码为：

*输出回归结果help esttabesttab ols iv, se r2 star(* 0.1 ** 0.05 *** 0.01)  mti(reg ivreg2 )

结果为：

汇报第一阶段回归结果

. *汇报一阶段回归结果. ivreg2 lw s expr tenure rns smsa i.year (iq=med kww age mrt), first

First-stage regressions-----------------------

First-stage regression of iq:

Statistics consistent for homoskedasticity onlyNumber of obs = 758------------------------------------------------------------------------------ iq | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- med | .2877745 .1622338 1.77 0.077 -.0307176 .6062665 kww | .4581116 .0699323 6.55 0.000 .3208229 .5954003 age | -.8809144 .2232535 -3.95 0.000 -1.319198 -.4426307 mrt | -.584791 .946056 -0.62 0.537 -2.442056 1.272474 s | 2.497742 .2858159 8.74 0.000 1.936638 3.058846 expr | -.033548 .2534458 -0.13 0.895 -.5311042 .4640082 tenure | .6158215 .2731146 2.25 0.024 .0796522 1.151991 rns | -2.610221 .9499731 -2.75 0.006 -4.475177 -.7452663 smsa | .0260481 .9222585 0.03 0.977 -1.784499 1.836595 | year | 67 | .9254935 1.655969 0.56 0.576 -2.325449 4.176436 68 | .4706951 1.574561 0.30 0.765 -2.620429 3.56182 69 | 2.164635 1.521387 1.42 0.155 -.8221007 5.15137 70 | 5.734786 1.696033 3.38 0.001 2.405191 9.064381 71 | 5.180639 1.562156 3.32 0.001 2.113866 8.247411 73 | 4.526686 1.48294 3.05 0.002 1.615429 7.437943 | _cons | 67.20449 4.107281 16.36 0.000 59.14121 75.26776------------------------------------------------------------------------------F test of excluded instruments: F( 4, 742) = 13.79 Prob > F = 0.0000Sanderson-Windmeijer multivariate F test of excluded instruments: F( 4, 742) = 13.79 Prob > F = 0.0000

Summary results for first-stage regressions-------------------------------------------

(Underid) (Weak id)Variable | F( 4, 742) P-val | SW Chi-sq( 4) P-val | SW F( 4, 742)iq | 13.79 0.0000 | 56.33 0.0000 | 13.79

Stock-Yogo weak ID F test critical values for single endogenous regressor: 5% maximal IV relative bias 16.85 10% maximal IV relative bias 10.27 20% maximal IV relative bias 6.71 30% maximal IV relative bias 5.34 10% maximal IV size 24.58 15% maximal IV size 13.96 20% maximal IV size 10.26 25% maximal IV size 8.31Source: Stock-Yogo (2005). Reproduced by permission.NB: Critical values are for Sanderson-Windmeijer F statistic.

Underidentification testHo: matrix of reduced form coefficients has rank=K1-1 (underidentified)Ha: matrix has rank=K1 (identified)Anderson canon. corr. LM statistic Chi-sq(4)=52.44 P-val=0.0000

Weak identification testHo: equation is weakly identifiedCragg-Donald Wald F statistic 13.79

Stock-Yogo weak ID test critical values for K1=1 and L1=4: 5% maximal IV relative bias 16.85 10% maximal IV relative bias 10.27 20% maximal IV relative bias 6.71 30% maximal IV relative bias 5.34 10% maximal IV size 24.58 15% maximal IV size 13.96 20% maximal IV size 10.26 25% maximal IV size 8.31Source: Stock-Yogo (2005). Reproduced by permission.

Weak-instrument-robust inferenceTests of joint significance of endogenous regressors B1 in main equationHo: B1=0 and orthogonality conditions are validAnderson-Rubin Wald test F(4,742)= 24.23 P-val=0.0000Anderson-Rubin Wald test Chi-sq(4)= 98.99 P-val=0.0000Stock-Wright LM S statistic Chi-sq(4)= 87.56 P-val=0.0000

Number of observations N = 758Number of regressors K = 13Number of endogenous regressors K1 = 1Number of instruments L = 16Number of excluded instruments L1 = 4

IV (2SLS) estimation--------------------

Estimates efficient for homoskedasticity onlyStatistics consistent for homoskedasticity only

Number of obs = 758 F( 12, 745) = 45.91 Prob > F = 0.0000Total (centered) SS = 139.2861498 Centered R2 = 0.4255Total (uncentered) SS = 24652.24662 Uncentered R2 = 0.9968Residual SS = 80.0182337 Root MSE = .3249

------------------------------------------------------------------------------ lw | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+---------------------------------------------------------------- iq | .0001747 .0039035 0.04 0.964 -.007476 .0078253 s | .0691759 .0129366 5.35 0.000 .0438206 .0945312 expr | .029866 .0066393 4.50 0.000 .0168533 .0428788 tenure | .0432738 .0076271 5.67 0.000 .0283249 .0582226 rns | -.1035897 .029481 -3.51 0.000 -.1613715 -.0458079 smsa | .1351148 .0266573 5.07 0.000 .0828674 .1873623 | year | 67 | -.052598 .0476924 -1.10 0.270 -.1460734 .0408774 68 | .0794686 .0447194 1.78 0.076 -.0081797 .1671169 69 | .2108962 .0439336 4.80 0.000 .1247878 .2970045 70 | .2386338 .0509733 4.68 0.000 .1387281 .3385396 71 | .2284609 .0437436 5.22 0.000 .1427251 .3141967 73 | .3258944 .0407181 8.00 0.000 .2460884 .4057004 | _cons | 4.39955 .2685443 16.38 0.000 3.873213 4.925887------------------------------------------------------------------------------Underidentification test (Anderson canon. corr. LM statistic): 52.436 Chi-sq(4) P-val = 0.0000------------------------------------------------------------------------------Weak identification test (Cragg-Donald Wald F statistic): 13.786Stock-Yogo weak ID test critical values: 5% maximal IV relative bias 16.85 10% maximal IV relative bias 10.27 20% maximal IV relative bias 6.71 30% maximal IV relative bias 5.34 10% maximal IV size 24.58 15% maximal IV size 13.96 20% maximal IV size 10.26 25% maximal IV size 8.31Source: Stock-Yogo (2005). Reproduced by permission.------------------------------------------------------------------------------Sargan statistic (overidentification test of all instruments): 87.655 Chi-sq(3) P-val = 0.0000------------------------------------------------------------------------------Instrumented: iqIncluded instruments: s expr tenure rns smsa 67.year 68.year 69.year 70.year 71.year 73.yearExcluded instruments: med kww age mrt------------------------------------------------------------------------------

. end of do-file

.

九、已婚妇女的教育回报

本文以伍德里奇第十五章数据mroz.dta为例，研究已婚妇女的教育回报，相关数据介绍如下：

use morz.dtaeditdesc*被解释变量label var lwage 已婚妇女工资的对数值*解释变量label var educ 受教育年数 label var exper    工作年限label var expersq    工作年限平方*工具变量label var fatheduc  已婚妇女的父亲的受教育年数label var motheduc 已婚妇女的母亲的受教育年限