统计计量 | 回归系数不显著,其原因和解决思路有哪些?
本文转载自公众号林林山川
相信大家在做数据分析时,一定遇见过数据不显著的问题,不要气馁,因为不显著才是常态,显著反而是少数。
需要注意的是,当遇见回归系数不显著时,我们不能简单的认为对应的解释变量对被解释变量没有影响。
首先,观察一下F检验值,如果整体线性检验不显著,那么说明模型设定为线性不合适,需采用其他模型形式,如非线性回归模型。如果替代模型的回归系数t检验拒绝原假设(显著),这就说明是模型设定的问题。
其次,需要对残差进行异方差检验以及自相关检验,如果存在异方差或者自相关,则用广义OLS法消除后,再做参数显著性检验。异方差和自回归的存在都会使得t检验失效。如果结果仍然不显著,那么,我们就要考虑是否将该变量从模型中剔除掉。若剔除该变量后的回归结果使得三个信息准则值均有所下降,那么这就说明:该剔除该变量是明智的选择。
最后,我们来总结一下p值不显著的原因,主要有以下几种:
1、故事“虚幻”
所谓故事“虚幻”,即故事本身的假设不符合现实情况。这种错误几乎没有挽救办法,但也只是“几乎”,具体看最后的解决办法汇总。
2、数据“虚假”
例如,我们所用数据库不可靠,不真实,整理数据时出现操作错误、计算出错等,这都可能导致指标出现一系列问题。比如,如果论文的变量特别难选择,那就需要仔细检查数据的计算过程,如果能在复查过程中发现计算上的错误,这肯定比重新做数据来得“简单,粗暴”。一般来讲,如果我们的数据得不到预期想要的结果,那么这个原因首当其冲。
3、模型“误用”
其实,我们在做数据分析的过程中,很多问题的原因都可以归结于模型的误用,比如,计量模型(最小二乘法OLS、固定效应模型、随机效应模型等)、回归方程式的设定(控制变量的选取、考虑更高阶的函数形式)等。重要的是,我们应该学会借助计量知识选择计量模型,借助经济学理论去设定回归方程。
从大众的经验角度而言,无论是面板还是截面数据,用OLS回归都有非常好的显著性。但是,面板数据不应该用OLS回归,而应该从固定效应、随机效应、混合OLS模型三者中选择一个模型。根据大家经验总结,有这样一个顺序:固定效应模型的显著性最差、稳健性最高、有效性居中;随机效应模型的显著性居中、稳健性居中、有效性有时最高;混合OLS显著性最高、稳健性最差、有效性最差。根据这个排序而言,现实生活中,学术研究往往追求稳健性,不做任何检验直接采用固定效应模型也是具有一定科学性的。实践中,很多人会在固定效应模型不显著的情况下,为成功发表文章退而求其次,选择混合OLS模型。虽然随机效应模型可能具有最好的有效性,但往往不会被使用。
4、多重共线性
如果你的解释变量有某一个变量的n次方,那么你就需要小心了。当然,如果你的解释变量里面有两个变量同时在衡量一个指标,也可以试着检验一下是不是这个原因造成的。如果你的结果显著,自然而言就不用检验和处理多重共线性,因为即使你处理了这个问题,显著性只能是更好的,不会使得结果变差。在大多数情况下,多重共线性是只有在结果不显著问题出现时才会考虑的。因为多重共线性具有方差膨胀的作用,它会导致回归系数的显著性下降,这自然不是我们所追求的效果。
5、内生性
内生性(Endogeneity)的概念跟内生变量(endogenous variable)的概念息息相关。而内生变量这一概念的兴起又跟社会科学的模型化和系统化密不可分。比如曼昆在他的经济学原理(或者是宏观经济学?)一开头就举了一个汉堡包的例子:在汉堡包的生产中,有投入(原料、劳动、工厂),有产出(汉堡包),我们感兴趣的是中间的制作流程。那么研究者应该做的,是通过一个模型来刻画上述制作流程(比如一个生产函数),从而给定模型的输入(各类投入品的消耗),就能计算出对应的输出(汉堡包产量)。在得到了准确的模型之后,我们就可以进一步对汉堡包的生产进行预测和改进,达到理解世界和改造世界的目的。在这个例子中,投入就是汉堡包制造模型中的外生变量,而产出则是内生变量。换言之,外生变量是模型中的 “原因”,而内生变量是模型中的 “结果”。
内生性的产生根源在于:互为因果、联立性、遗漏变量、测量误差。总的说来,内生性主要由以下原因造成:
第一是遗漏变量
如果遗漏的变量与其他解释变量不相关,一般不会造成问题。否则,就会造成解释变量与残差项相关,从而引起内生性问题。
遗漏变量主要值得是某些不可观测的解释变量没有纳入到回归模型中,如果北一楼的变量能够同时对因变量和自变量产生影响,那么会出现内生性的问题。一个比较经典的案例例如研究一个人受教育程度与他的收入之间的关系,其中收入作为被解释变量Y,然后样本中的隔热的教育程度作为解释变量,这个模型中例如能力、性别以及其他变量都有可能同时影响该模型变量受教育程度以及收入,例如个人能力比较高的人可能这个收入比较高,而个人能力有可能作为遗漏变量包含在随机误差扰动项中,因此会出现这个内生性的问题。
第二是解释变量与被解释变量相互影响
首先我们来看下反向因果关系的解释,例如根据凯恩斯的消费函数,首先模型的设定为C=a+bY+Ui,其中C为消费,Y为国民收入,Ui为随机误差扰动项。然而国民账户的恒等式又有Y=C+I+G+NX,即Y等于消费投资政府购买和净出口的和,很显然,消费是国民收入的重要组成部门,消费又是误差的函数,这样消费与国民收入的函数之间存在反向因果关系,主要因为消费函数里面的Y与Ui相关,本来应该是X与Ui不相关,扰动项的信息应该全部包括或者表现概括在已经有的X里面了。
第三是度量误差
由于关键变量的度量上存在误差,使其与真实值之间存在偏差,这种偏差可能会成为回归误差(regression error)的一部分,从而导致内生性问题。