标准误两三事：如何选择适合“自己”的标准误？

2024-06-24 11:06:51

人民大学江艇老师曾戏称“人固有一死，或死于不显著，或死于内生性”，内生性是一个相当复杂的问题，之前也或多或少也跟大家讨论过，但是很多论文可能都还没有到内生性讨论那一步就死掉了，因为不显著就基本没有做下去的必要了，除非你能讲好这个不显著的故事。看着别人论文闪闪发亮的三颗星（虽然都是黑色印刷），再看看自己的回归系数连10%的显著性水平都够不着，那种感觉真是扎心啊！不知大家是否有过因为系数不显著而失眠的经历？

在回归分析中，单个系数的显著性我们主要看t统计量与临界值之间的关系，t统计量的计算公式想必大家都很熟悉，等于系数值除以其标准误，但是这个标准误的选择其实可以说是大有文章了，为什么要我不能使用普通的标准误而要使用稳健的标准误呢？究竟是该使用异方差稳健的标准误还是聚类稳健的标准误呢？

普通标准误的计算公式是在高斯马尔科夫假定下推导来的，其中有一个重要的假定就是同方差假定，但是现实情况中同方差假定一般都不满足，如果存在异方差，普通标准误就不是真实的标准误了，使用普通标准误构造的t统计量就失效了。White(1980)提出了异方差稳健的标准误（Heteroskedasticity-Robust Standard Error），其推导过程并没有用到同方差这一假定。横截面数据通常都存在异方差问题，因此对于横截面数据我们一般都会使用异方差稳健的标准误，当然，你可以做一个BP检验或者White检验亦或者其他异方差的检验来判断你的模型是否存在异方差问题，如果不存在的话那你是用普通的标准误也就是没有问题的。不过，在我看来，这些异方差的检验都是相当鸡肋的，因为做异方差假设检验存在犯错误的风险，还不如直接使用稳健标准误。

面板数据模型的标准误就比横截面更为矫情了，由于面板数据的特点，我们通常可以假设不同个体之间的扰动项相互独立，但同一个体在不同时期的扰动项之间往往存在自相关。自相关是违反球形扰动项的另一种情形，不会影响估计量的无偏性和一致性，但是会影响有效性，也就是会影响估计量的方差，高斯马尔科夫定理就不再成立，这时使用普通标准误或是异方差稳健的标准误都是有问题的，因此t统计量也会失效。

于是，聚类稳健的标准误破土而出。在面板数据中，每位个体不同时期的所有观测值即构成一个“聚类”（cluster）。这样，样本观测值可以分为不同的聚类，比如你使用的是省级面板数据，那么每一个省就是一个聚类，在同一聚类里的观测值互相相关，而不同聚类之间的观测值则不相关。对于聚类样本，仍可进行OLS估计，只需使用“聚类稳健的标准误”（Cluster-Robust Standard Errors）即可，其在形式上也是一种夹心估计量，只是表达式更为复杂。

聚类稳健的标准误是比异方差稳健的标准误要求更为严格的一种标准误，因为其在推导过程中并没有用到同方差假定，所以聚类稳健标准误都是异方差稳健的。从标准误数值大小上来说，通常情况下都是聚类稳健的标准误>异方差稳健的标准误>普通标准误，因此多数情况下，可能你使用普通的标准误会显著（虚假，漂亮的数字也会骗人），而一旦使用异方差稳健的标准误或是聚类稳健的标准误就不再显著了。在这种情况下，你可以考虑对数据和函数形式进行微调，辅以一些“旁门左道”，以坚韧不拔之志不断尝试，毕竟三颗星显著很难“一蹴而就”。

聚类稳健的标准误的使用其实也要分多种情况了，究竟应该聚类到哪个层面其实也是很有讲究的。假如你研究的问题是撤县设市对企业全要素生产率的影响，你的被解释变量是企业层面的变量TFP，而解释变量中既有县级层面也有企业层面变量，如果聚类到企业层面，就相当于假设同一个企业在不同时间上的观测值之间是相互关联的，但是不同企业的观测值之间是没有关联的。如果聚类到县级层面，要求就更严格了，相当于假设同一个县内任何两个观测值之间都是相互关联的（不管是不是同一个企业），而不同县的观测值之间是没有关联的。对这一问题来说，聚类到县级的假设是更符合实际情况的，因为同一个县域内的几家企业之间难免存在竞争与合作，论文中大家都是聚类到更高层级，让审稿人无法质疑金光闪闪的结果。如果你的被解释变量和解释变量都是处在同一层面上，比如研究撤县设市对地区经济增长的影响，那么也没有什么选择的余地了，直接聚类到这一层面上就好了。

使用聚类稳健标准误还有一个问题要注意，只有当聚类中的观测数目T较小，而聚类数目n较大(n趋向于无穷)时，聚类稳健标准误是真实标准误的一致估计。因此，聚类稳健标准误更适用于时间维度T比截面维度n小的短面板，那么究竟多少数量的聚类可以允许我们得到可靠的推断呢？Angrist教授在《基本无害》一书中最后一节也有讲到这个问题，不过他并没有给出一个明确的答案，究竟聚类数少到多少会对推断问题产生致命影响时大家谁也不清楚，当被质疑聚类数偏低时，最好的办法就是收集更多的数据，扩大聚类数目，但我们有时不能这么做，比如省级面板数据不考虑港澳台也就31个聚类，31个其实也还好，不会对推断问题产生致命影响。除此之外，Angrist教授也给出了一些对于聚类数偏低问题的解决办法，详见《基本无害》一书。

本文不涉及任何数学公式和矩阵，想要理清各种标准误原理与推导过程的朋友，还请自行找一本计量教材去好好学习。至于异方差稳健标准误与聚类稳健标准误的stata操作，其实也是相当简单了！

#异方差稳健标准误

reg y x , robust

#聚类稳健标准误

reg y x ,vce(cluster xxx)

SAS用K-Means 聚类最优k值的选取和分析

原文链接:http://tecdat.cn/?p=17808 什么是聚类? "聚类是将数据集分为几组的过程,其中包括相似的数据点".聚类是一种无监督的机器学习,在您拥有未标记的数据 ...
如何使用雷达图进行竞争对手分析？

雷达图是(也称为极坐标图或雷达图)可视化多变量数据,这些数据用于在从同一点开始的轴上表示的多个公共变量上绘制一组或多组值,每个轴代表该对象的不同分类值的数量. 雷达图是一个很好的工具,可以一次将许多备 ...
卡尔曼滤波(KF)与扩展卡尔曼滤波(EKF)的一种理解思路及相应推导（1）

前言: 从上个世纪卡尔曼滤波理论被提出,卡尔曼滤波在控制论与信息论的连接上做出了卓越的贡献.为了得出准确的下一时刻状态真值,我们常常使用卡尔曼滤波.扩展卡尔曼滤波.无迹卡尔曼滤波.粒子滤波等等方法,这 ...
浅谈随机振动试验2 随机振动试验4个域描述1

随机振动没有周期性,无规律可言,其波形在时间轴上无法数式化表示,不像正弦振动那样可以预测到下一步的运动状态.一般,振幅的概率密度函数近似符合正态分布(Normal Distribution).假定:随 ...
变量（variable）

变量(variable)是观测单位的某种特征或属性,变量的观测值就是所谓的变量值,有时也称数据或资料(data).更准确地讲,数据或资料是由具有若干变量值的观测单位所组成的.例如在调查中常规问及的问 ...
现在银行存钱利率太低不划算？怎么选择适合自己的理财方式

家庭的投资理财方式有很多种,比如说银行存款.银行理财产品.股票.基金.债券.保险.信托基金.房地产.期货等等.但是,很多中国老人似乎最喜欢的理财方式还是银行存款.不少年轻人表示看不懂,银行存款也就3% ...
各体书法用笔不同，该怎么选择适合自己的毛笔？

我是石上先生先生,对美学有自己的独特见解,喜欢分享美图美文世界太芜杂,愿做你发现美的眼睛. 不请自来回答一下,希望对你有用. 工欲善其事,必先利其器选用对的书法工具很重要, 选好工具,养好习惯,才能 ...
摄影丨该如何选择适合当前场景的拍照模式？

如何拍的一手好东西,想必是大多数都想问的. 不过学习摄影没有捷径,但学会使用相机却有快速的方法,主要从拍摄模式.光圈.快门速度.感光度.对焦.测光.白平衡.曝光补偿和焦距等知识进行快速学习. 快速学会 ...
如何选择适合自己的‘举腿’动作？选择举腿动作需要考虑的3大要素 | 东方浩克手机版

如何选择适合自己的'举腿'动作?选择举腿动作需要考虑的3大要素举腿的锻炼动作很多,做法上有什么屈膝举腿和直举腿,根据器械的不同可以有悬垂举腿.垂直凳举腿.仰卧举腿等等,但不同的人情况不同,大家该如何 ...
如何选择适合自己的衣服？

无论什么东西,都要选择适合自己的,毕竟只有适合自己的东西,才能展现自己的魅力哦.那么在服装上,我们该如何选择适合自己的衣服呢? 一看体型选发型看脸型,而选衣服的话,就是看体型了.想要选择适合自己的 ...
震荡分化市，如何选择适合自己的基金？

也许有人会觉得,我的工资也够花,一年下来还有几万结余,每年还能安排趟旅游,貌似不怎么缺钱花.但是,你有没有想过,如果哪天忽然失业了,每年的那点结余能够支撑多久呢?又或者说,如果哪天父母生病急需用钱,难 ...
如何根据设备和带宽需求选择适合自己的路由器？

描述打游戏时常掉线?看视频经常一卡一卡的?等下载一个软件经常等半天?想着换一台路由器,可是市面上这么多的路由器看的眼花缭乱,价格也相差挺多的,所以应该如何选择一台用起来还不错的路由器呢? 其实路由器 ...
萃见：创业者如何选择适合自己的项目？

创业者如何选择适合自己的项目? 提起创业,大家第一反应都是选赚钱的项目.但项目很多,赚钱的项目也很多,能让你赚钱的项目是什么呢?今天萃见就和大家来聊聊创业者如何选择适合自己的项目: 我一直坚信:没有 ...
如何选择适合自己电脑的PS版本，解决你PS版本选择的问题！

如何选择适合自己电脑的PS版本，解决你PS版本选择的问题！

标准误两三事：如何选择适合“自己”的标准误？

相关推荐