统计计量 | 秦朵：经济计量方法的局限与数据学习方法的启示

2024-05-20 08:15:44

本文转载自公众号沈建光博士宏观研究

计量经济学家可以通过机器学习找到模型，再利用计量经济学的专业知识加工它们，使它们更具解释性。

大数据时代为实证研究提供了丰富的素材。有人认为所有经济现象皆可用数据来描述，大数据将对人文社会科学的研究范式产生变革性的影响，其中也包括经济学领域的重要分支——计量经济学。为了探讨大数据与计量经济学的关系，利用最前沿的方法论提升宏观预测的精度，京东科技研究院于2021年1月26日召开了“大数据时代对计量经济学的影响”线上研讨会。

国际知名计量经济学家秦朵教授出席并发表了主旨演讲。秦朵认为机器学习有一套非常实用的数据降维和寻求数据规律的手段，给计量经济学提供了新的机遇。计量经济学家可以通过机器学习找到模型，再利用计量经济学的专业知识加工它们，使它们更具解释性。

以下为发言全文

（发言内容未经嘉宾审阅）

谢谢沈博士！很荣幸能够有这么个机会跟大家谈谈计量学。我学计量学是从历史开始的，所以，我想先简单介绍一下计量学的历史。

九十年前，推动经济计量学逐渐成形的是一位私人企业家Cowles。他对股票市场研究的兴趣非常浓厚，就专门找数学系的教授咨询如何预测股票市场和监测股票市场。当时欧洲的几个经济学家正好在美国的哈佛和耶鲁访学，想倡导一个将数学和经济学联合起来的学科——计量学，但是赶上了二十年代末的美国经济大萧条，开展研究的条件非常困难。机缘巧合，他们遇到 Cowles，并且由Cowles出资建立了计量学会，才有了经济计量学和后面的经济学诺贝尔奖。

计量学的起源就是想做宏观预测，但过去近一百年了，它在宏观预测方面的成就还是乏善可陈。一般的经济预测在晴天时预测结果还可以，一到风云突变或者经济危机来临时，预测就不准了。另外，从微观预测转到宏观预测也是一个非常困难的课题。建立指标测度一直是计量学不屑一顾的事情，但实际上做的也不好。京东科技研究院现在想做的课题都是计量学没有取得太多成果的领域。所以，我想回顾计量学在这些领域的现状，同时反思计量学方法本身的局限性。需要强调的是，京东科技研究院可以依靠京东大数据，考虑在应用方面取得突破。计量学做的理论实在太多了，但是应用上成就太少。这是计量学的薄弱环节，也是一个比较好的突破口。

一、历史回顾：宏观经济预测与微观信息综合

从70年代石油危机以后的这段历史来看，计量学模型开始走向动态建模。大家都知道，石油危机以后出现了合理预期革命，同时，理性预期学说的发展进程与VAR（向量自回归）和经济计量学从静态模型走向动态模型的进程大体同步，与后面的因子建模也有密切关系。特别值得一提的是，理性预期模型和计量学宏观模型方法的鼻祖是Sargent和Sims。他们在1977年联合发表了一篇文章。在这篇文章里，Sargent从合理预期理论和宏观理论的角度讨论了宏观经济的动态特点，Sims从VAR和数据的角度讨论了宏观经济的预测问题。他们两个人联手撰写了这篇非常有影响力的论文，还用到因子分析的方法。实际上主流经济学家用的宏观模型基本上都可以追溯到Sargent和Sims共同完成的研究成果。

今天我主要讲讲宏观经济预测和微观信息如何综合起来。Sargent和Sims写的这篇文章很有意思。他们做因子模型时借鉴了National Bureau of EconomicResearch (美国国家经济研究局)的研究方法，而实际上美国国家经济研究局在方法论上是反对经济计量学的，认为经济计量学“做的测度没有发现”，而经济计量学对美国国家经济研究局也不屑一顾，认为他们“做的测度没有理论依据”。学界主流通常都接受计量学，觉得美国国家经济研究局做的数据分析缺乏理论。

Sargent和Sims做VAR模型时，尝试着从更微观的数据提取一个因子或者几个因子，看看放在宏观模型里是否能提高它的精度。他们发现提取出来的主成分在VAR分析中都不显著，所以得出的结论是宏观模型可以互相解释，不需要进行因子分析。他们的文章发表十年后，有些哈佛教授开始从美国国家经济研究局的经验性数据中提取前导指数（leading indicator），把它们形式化并做成可用模型，同时他们开始系统化地研究如何将微观信息综合成一个因子。现在大家用的因子分析模型基本上是这些哈佛教授自八十年代末开始研究的。他们的研究想使商业周期研究系统化和严谨化，变成能够进入教科书和学界的工具，但有些经济学家认为宏观模型使用的信息太少，没有用到足够的微观信息，而且商业周期到来或经济突然出现拐点时，最初的前导信息应该体现在微观经济市场上，所以宏观模型预测并不成功。

经济学家常常直觉地认为宏观数据反映出来的微观冲击不够及时，需要直接从微观信息里提取前导信息，因此后来宏观模型不断微观化，分成两支流派，一支用数据做因子分析。我发现他们做出来的微观前导指数预测性比较差，更新模型时可以看到前导指数没有预测性，而是经常出现因子翻转的情况。也就是说，他们提出的主要加总值不是很稳定的指数。

不过2008年美国爆发金融危机以后，动态因子分析变成非常热门的话题。大多数宏观经济学家达成了一个共识：所有宏观计量模型预测失误是由于模型中没有金融市场的信息。宏观模型构建在传统的宏观理论上，金融市场的信息来源主要是银行，而银行信息进入宏观模型的速度太慢，只能提供货币总量和利率的信息，完全无法反映股票市场和期货市场的变动给宏观经济带来的潜在风险。所以，很多人都在尝试将因子分析和动态因子模型等综合起来建立金融市场的指数。由于每一个金融市场有自己的加总指数，没有一个宏观指数能代表所有金融市场进入宏观模型，所以建立所有金融市场的宏观指数，变成研究界的重要话题。我在这方面跟着做了一段时间，发现得到的结果和哈佛教授得出的结果一样，无论用多么复杂的动态因子模型来综合降维提取指数，得出的结果要么在更新时出现因子翻转，要么没有什么预测力。

与此同时，经济学开始分叉。一般均衡模型这一分支也认为宏观模型规模太窄，各个部门需要微观化，但是，他们进行微观化的思路不是从大量数据切入，而是从经济理论的微观和宏观接口入手，建立起各种部门的微观加总。他们觉得计量学根本建立不了所谓结构性模型而只是在描述，由此出现了一般均衡模型，特别是在宏观研究中常用的DSGE模型。在这类模型中，主要的微观部分全都是校准过的，不是直接估计出来的。这个学派直接应用计量经济学时，想通过模型模拟家庭和公司等更微观的部门，但是它的校准目标是宏观变量的时间序列特征。如它的目标为GDP、货币供应量或进出口时，就在校准的过程中使用计量模型刻画出这些宏观指标各阶矩的方差和高阶序。它的整体思路是在模型校准过程中，使模型生成的宏观变量尽量和现实变量保持一致。DSGE模型对计量模型的要求相对低的多，只要能得出时间序列的特征就可以。

以上是我对宏观经济研究从八十年代到现在的大概描述。在这一时期，很多经济学家都想实现微观化，要求模型综述的特征尽量微观和细致。不过实际取得的成果非常非常少，我觉得几乎没有提高宏观预测的精度。

二、计量应用模型的误区

我从方法论的角度反思了我们的失误。

第一，关于VAR模型。VAR模型是宏观经济学家钟爱的一种模型，特别是美国的经济学家，因为它比较简单，几个时间序列的模型放到一起就能做出来，对做理论宏观的人来说比较容易操作，也能说明很多现象。大家公认VAR模型是预测最准的一个模型。

我思考了VAR模型的预测精度问题。VAR模型的预测性肯定强于静态模型，因为大多数宏观的时间序列变量都具有较大的惰性，变化相对比较慢。模型预测最优的标准是均方预测误差。变量的惰性较大时，降低均方预测误差的难度相对较小。举个非常简单的例子，打雷时，VAR模型会告诉你第一声雷声之后肯定还有雷声，所以VAR 模式并不是一个很好的预测模型。它使用的一般宏观变量基本没有外来信息，所以完全不能预测转折点。譬如2008年危机和石油危机爆发时或现实经济出现问题时，大量前导信息来源于模型之外。经济学家的直觉是对的，那些造成经济出现拐点的前导信息（也是我们最想预测的风险预警）实际上来自模型外。宏观变量并不能预测这些危险的来源。从这个角度来讲，VAR模型只能预测到常态，在风险预测方面是不够的。什么是最优的宏观预测呢？谁能预测中拐点，谁才是最好的预测者，而要想预测出拐点极其不容易。以上是用VAR模型做宏观的一个思路误区。

第二，关于DSGE模型。这类模型没有采用太多计量学，但是它们校准的最大目标是单个时间序列的宏观特征,所以它承认经济变量遵循一定随机过程。我认为这是它最大的失误，因为我发现任何经济变量都无法用数理统计的随机过程来描述。这虽然是大白话，但学了计量学的人很容易陷入这个误区。他们认为协整理论可以解决这个问题，但是所有经济学家都知道，任何经济变量都是由一堆相互影响的变量组合起来的。如果把其它变量都去掉，用它自己来回归自己，肯定会出现遗漏变量偏差的问题。单位根这些系数都存在偏差，也就是说经济学中任何一个单一经济变量，它的时间序列特征都不是不变的。按这种思路来看，再复杂的数学也没法刻画一个单一变量。我们的失误是因为采用了错误的理念。正确的理念是所有经济变量都不能被看作一个元素，它的形成过程绝对是一个多变量的形成过程。它不能小于模型，也不能解释它自己。“每个变量都属于随机变量”这种观念是经济学研究中的一个误区。

第三，关于动态因子分析。我十多年前做过不少动态因子分析，但直到五六年前，我才认识到这条路走不通。现在很多人还在做动态因子研究，我想讲讲我对这个问题的认识，希望对大家有所参考。

我先讲一下测度理论。计量学有很多成见。计量学形成的时候就认为自己有理论有结构，而且特别强调要有理论，所以计量学教科书很少提到测度理论。好在心理学和其他学科对测度理论研究得非常深刻。我们做的各种测度和指标，目的都是降维。如果我们想用模型降维，那么这种模型就属于测度模型，它包含一个不能直接观测的潜变量，需要用某种测度来近似这种变量，近似过程中必然存在偏差。

Markus的著作表明，要想通过模型对大量数据降维，必须满足一个最基本的特性，就是做出来的指标必须有毗连性。这就像统计局算CPI时结构肯定不能变，否则前后不能比，而且数据必须不断接进来并更新。用任何模型做测度和加总时，模型做出来的加总值必须可以接起来，否则测度不能作为加总值。不具备这种特性的测度是失败的。

我们做因子分析时经常有这种体验，重新提取数据后因子经常会翻转而接不起来，不具备毗连性。为什么会出现这种情况？数据降维按因果关系分为两类。因果性指个体和总体之间的因果性。虽然计量学家和经济学家非常关注因果关系，但是研究总体和个体的关系时很少讨论因果关系。因果关系对数据降维至关重要。最基本的数据降维分为两类：反映型；形成型。在反映型和形成型之外，还有更复杂的类型，后面会再谈到。

我跳出计量学再看测度理论后，就恍然大悟。一半以上的因子模型都做错了，因为它们的因果关系不对。主成分分析和因子模型是反映型模型，而不是形成型模型。从心理学角度讲，你观测到的只是现象，它们背后有共同的原因。潜变量的加总值不能直接观测，只能表现为不同的现象。从这个角度来看，从Sargent和Sims开始用因子模型就错了，因为他们想借助大量数据，利用主成分分析来解释GDP，但这些变量背后根本没有共同的原因，具有形成型，所以做不出来综合指数。如果不同的微观现象能够加总，表现出共同的特征，能够对某个宏观因素产生总量效应，那么这时做的指数是为了说明所有微观对宏观产生共同影响后得到的结果。这种测度模型应该是形成型模型，不能用因子分析来降维。

要把反映型模型转换成机器学习的降维工具很简单。因子分析和主成分分析等都可以算做机器学习语言中的“无监督学习降维”。这种降维没有特定目标，只是把共同特征找出来。反过来，形成型模型具有加总目的时，它就应该叫做“有监督学习降维”，即它做的所有微观加总是为了进行宏观预测或者说明一个宏观问题。在这种情况下，因子分析这条路走不通，因为它是为了实现一定目的才进行数据降维。

我们的前辈总是会采用比较简单的研究方法，而主成分分析和因子模型是统计学里最简单的降维方法，所以前辈们习惯于使用这个方法，而没有考虑个体和总体之间的因果性，也没有考虑到测度指标的内部存在因果关系，导致我们用的方法失误了。

从反映型和形成型这两类数据降维模型来看，可测微观指标的特性不太一样。譬如因子模型最后做出来的虽然是加总值，但反映的仍然是影响而不是原因，原因属于潜变量。反映型模型需要的数学标准相对简单，用一两个标准就可以实现降维。利用因子分析收集的可测个体变量之间一般相对独立。最常见的例子是测试某个人某方面的能力，但这个能力是潜在的，那么就通过不同的测试来进行测量，这些测试得出的结果相对独立。形成型模型就不一样，以CPI这种复合指数为例，它可以允许个体之间相互关联，只是对不同的侧面进行加总，最后得出一个共同的结果。由此可见形成型测度模型对数学工具和标准的要求比反映型模型多，因此比后者更复杂。经济学家做的很多总量指标都有目的性（即预测某个宏观变量），那么做指标时就要明确地把目标纳入模型，做为它的条件约束。

三、有监督学习降维的案例

接下来我用两三年前做的一篇报告来说明用模型做一个形成型加总前导指数有多复杂。我们这项研究在思路上有一定突破，至少说明这条路能走通。在开始这项研究之前，我彻底抛弃了动态因子，转向偏最小二乘回归。这个方法在计量学之外使用非常普遍，而且是为了计量学创造出来的，但计量学界很少有人使用它。

2008年爆发美国金融风波后，我开始做金融指数，起初用了动态因子模型，但发现不行，转而使用形成型模型，同时想把它和VAR模型接起来，发现效果也不是太好。但我们用这种方式研究货币需求时比较成功。宏观和微观接合过程中有一个很微妙的问题，即加总要做到什么程度，也就是微观信息加总与宏观预测之间有多少直接性。如果选取的宏观变量太宏观（譬如选取GDP），那么成功率相当低，但是如果选取的宏观变量是能够说明GDP的宏观变量，那么成功率就会相对上升。

我认为在很多情况下，用宏观变量直接预测GDP并不明智，因为大家都知道，GDP包括支出口或者消费口的成分。经济波动较大时，用成分跟宏观的连接情况来进行预测，成功率相对高一点。宏观和微观接壤时，有一个关键点是选取宏观和微观的接口变量。我们这篇报告选的是中国的货币需求（M1），起点是最简单的货币需求理论，包括交易需求和投机需求。R代表利率，也就是机会成本，开放经济有外部的金融市场指标，用R*表示。如果不考虑国际部分，那么最简单的货币理论只包括交易成本和机会成本。国际部分一般没有国际金融市场的成本变量，所以我们采用了外国利率，因为传统的宏观经济理论只考虑银行口。我们的模型将它设为潜变量，等于我们想通过大量国际金融市场做综合指数，展现国际金融方面的机会成本对中国货币需求的冲击。在这样的情况下，我想做的两个指标是：短期国外金融市场对中国M1的冲击和长期影响。

在这种情况下建模对我做金融指标提出很大挑战，第一，对于我要做的指标，它的变量必须有毗连性，可以更新，模型的测度也能更新，不能每次更新后模型就发生翻转。具体来说，假如你有10个变量，想把它们的共因子变成1个，那么至少有一定的样本数来做出一个序列。新的数据出来以后有两个解决办法：一是不提取新的数据，用前面的模型系数算出下面一个更新数据；二是把新的数据加总重新提取一遍。如果降维确实能够形成一个指数，那么这两种方法做出的加总点应该差不多。我们做主成分分析或因子分析时，使用这两种方法得出的结果往往差异很大。所以我认为因子分析不能加总，因为它不能维持历史数据不变的特征。

我在做国际金融市场的成本指标加总时，给现有模型加进的很多条件都极有挑战性：第一，在我使用的方程式里，𝒇*t-i 及𝜟𝒇*t-i必须是显著的。如果不显著，这个变量就没用。第二，现在这个模型的规模比前面的模型规模大了，那么它必须比前面的模型预测精度高，同时必须简洁包容，这样做出来的指标才是有用的。此外，这个模型的最低目标是做出有毗邻性的指标。在这种情况下，建立这个模型从约束性和标准方面对我提出很多挑战。

我们为此搜集了一百多个数，它们都是月度的。需要说明的是，选择金融指标非常重要。我们选的指标全部都是所谓的非均衡指标。什么是非均衡指标？我们选择了各种差，或者美国、欧洲、日本、中东和阿丁美洲等不同市场之间的差。BIS（国际清算银行）的很多优秀经济学家认为对宏观经济冲击最大的通常不是单个金融市场的变量，而是金融市场之间出现所谓的非均衡信息，而各种比和差能够最快、最充分地反映出这些非均衡信息。

由此可见，虽然我们做的是有监督学习，但是它并不完全属于形成型测度模型。刚开始做的那一部分可以变成反映型测度模型。比如对于欧洲大陆、英国和美国等货币市场的同一个差指标，虽然定义不一样，但可以认为它们背后有一个共同的差。这时就可以用无监督学习，也可以用因子分析。我们开始对这一百多个变量加总时，考虑到有些变量采用同样定义，但属于不同地区，那么它们是可以加总的。

我的目标是预测中国货币M1变化，同时又希望达到两个目标。我做宏观模型时把它从VAR变成了误差修正模型。这么做的好处在于，VAR模型的系数之间相关性比较强，参数变化以后和ECM模型等价。ECM模型的优势在于变量之间的相关性降到最低，把短期和长期分开。在这种情况下，我做有监督学习时就可以找到目标。

我们设了两种比较具体的目标。为什么设两种目标呢？在个体和总体之间，我们考虑的最主要因素是动态性。如果按照最低频率来降维（最低频率的意思就是变量本身是M1，但M1的变化率变成短期后，频率会上升），我找到了一个数据的加总点以后，再把它变成高频。这种方法假定金融市场的降维过程中都是低频，变成总量的时候才把它变成变化率的总量。金融市场变化很快，很多金融市场信息直接体现为短期冲击。我考虑将金融市场个体受到的冲击直接体现到总体变化率上。这时个体降维都是从变化率直接降维的。后来我们发现这种方法比直接做一个目标有效得多，特别是在金融风波时期。

第二个目标是中国的M1变化率，直接从国际降维做出短期冲击。2008年风波的检验表明它的稳定性相当好。

另外，还有一个假定，即我们做所谓速度降维时考虑到了市场同步的情况。我们做因子分析可能有几十个来自不同市场的数。我们假设这些变量的动态具有同步性，把最大的协方差提出来。这对金融市场是一个很强的假定。我们提出的假定是什么呢？我们假定期货市场的冲击可能出现在16个月前，而货币市场的冲击可能出现在一个月前，所以，我做降维时，只要指标是M1的前导指标，我们约束所有国外金融市场都不是同期的，都必须有一个月至六个月的前导性。我们在降维时对一个月和六个月之间不做任何约束，有的可能是三个月之前的，有的可能是两个月之前的，能进入的变量都允许进入。我们的目标是M1的现期变化率，只要是六个月以内的指标都可用于降维和筛选。我们研究短期动态时，不考虑金融市场不同步的情况，得出很多有意思的结果。譬如期货市场的前导性就很强，有6阶的，有5阶的。这个思路打开了很多做指标的约束，更加实用。只要能提高预测度的微观指标，都允许进入宏观模型。

我们采用以上的方法时要注意以下几点：第一，在过程中要不断更新指标。我开始做时从2010年的数开始加总，更新时不把数据重新做进去，而是用以前做的模型的权重系数算出更新数，然后再更新模型。这么做在不断更新模型的同时，历史数据不会变化太大。如果变化很大，毗连性就不够好。这和不用模型做指数的方法一样，可能一两个有变化，但是总量必须和过去有可比性。

最后，我们有一个可做的地方没有做，也没能力做。如果每次进行常态更新，发现指标基本具有毗连性，历史不会翻转，那么证明指标还不错。我们有几十个个体变量。如果重新估计模型，大多数变量的系数和在总量中的权数变化很小，即使个别变量发生变化也对总体影响不大，那么在这种情况下，这个指标的毗连性还不错。如果大多数或一半以上系数突然发生变化，重新估计出的总量和用原先的系数预测出的总量相差较大，那么这个信息实际上非常好。我们设定模型时强加了国际系数指数，至少是Lag1，不是同期的，这绝对说明了它的预测性。在2007年6月份以前，我不断更新模型时都表现出毗连性，但在2007年6月份以后，我更新模型时发现毗连性大大减弱。这是一个非常好的警示，说明金融市场发生巨变。这个指数原来很稳定，像一个总量，但突然不像总量了，这种信息绝对属于前导指标，说明有什么事情即将要发生。但是到目前为止，我不知道该怎么利用这个信息。

这就回到原来的问题：怎么预测拐点？当我们发现做出来的指数历史表现很稳定，但在某次更新时毗连性已经很不稳定了，这就说明宏观受到了冲击，但我没想出来这个信息应该怎么进入模型。我觉得这是微观加总预测方面很好且可用的宏观信息。

我希望大家通过这个例子反思一下，为了宏观经济分析对微观信息加总降维是一个相当复杂的过程，在设计、思路、算法等各方面对指标设计人提出相当高的要求，而且很多时候并不是数学方面的要求，而是需要了解多方面的知识。

测度指标非常值得研究，因为对计量学本体论的研究太少，特别是数据降维方面的研究。我对这个问题的看法是：第一，我觉得应该放弃所有特别复杂的方法，譬如动态因子和主成分分析等。我觉得这些路都走不通。我们要关注的是如何从有监督学习的角度研究机器学习和如何运用多重降维和不断降维，而且关键是给自己确定严格的约束。譬如大企业等现有中观指标不能充分实现你的预测目标，或者你想提高预测精度，你觉得一部分信息应该直接从微观走，需要进行微观加总，那么微观加总的前提是必须确定一个非常严格的约束，即你的变量必须能够提供现有变量不能提高的信息，而且表现优于现有变量，如提高预测精度，提高预警水平等。这时候才有必要做微观加总。但是，加总的算法里要加很多标准，还要做很多实验，其实挺难实现的。

第二，京东有很多数据，特别是价格指数，那么从大数据做各类商品的价格指数，也是值得做的一件事情。以手机为例，手机有多少品牌，什么是手机的指数？要回答这些问题，就必须把不同手机的品牌和功能等异质因素去掉，建立特征定价模型，这样才能做出手机这个大类的指数。从这个角度来看也是加总并需要建模。同时，如果我们想把消费者对质量的偏好去掉，做出比较纯粹的商品价格指数，那么对建模也提出很深刻的要求，计量学在这方面做的也不好。

接下来我泛泛讲讲计量学的方法和我这些年对计量学的反思。2008年以后，整个宏观计量特别不景气，所有主流计量学家都回避宏观问题，改做微观的反事实研究。从计量学的角度做宏观经济预测遇到很多问题。这个反思的过程促使我不断扩大阅读范围，看了心理学等其它学科的大量文献，感觉天地一下广阔起来。

宏观计量学是建立在经典统计学基础上的一个分支，而且属于学科分支发展到淋漓尽致的一个典范。为什么说它建立在经典统计学的基础上？它把所有现实的经济问题一下转化成理想化的问题，转化成随机变量的空间。所有经济理论学家做的各种模型通常都是参数模型，而且其中的参数必须是结构参数，必须可以通过假说检验进行检验和估算。所有思路都被经典统计学套住了。计量学教科书中最复杂的内容是建立结构性模型，最优估计出结构性参数，而且这种最优估计是一致性估计。这些套路都是经典统计学的讨论。

计量学形成的时候还没计算机。在没有计算机的情况下，计量学全靠数学推导，导致计量学过分崇拜数学家和数学结果。回到统计学，之前的所有经典统计学是在严格控制试验数据场景的情况下开展研究的。控制的前提是对假设理论进行检验时相对简单，可以推出来各种最优条件，而且样本相对比较小。现在机器学习使用开放场景和直接数据来源，没有任何控制。在这种情况下，经典统计学完全过时，没法应对数据量，也没有严格控制实验数据，经典统计学中基础的假设检验过程分崩离析。反过来，机器学习依靠的是计算数学，而不是统计数学。为什么机器学习成功率很高？因为它发现经典统计学的前提假设不成立，不能依靠经典统计学，而必须用计算数学来开道。此外，它对建模这个领域也产生相当大的冲击，因为经济学研究的是开放场景。即使能够控制一部分抽样，我们的研究对象在很多情况下也完全无法满足经典统计学的假定前提。这些都值得反思。

应用统计研究两类问题。经典统计学做的研究属于枚举类研究。它的精度非常高，但属于非常简单的测度研究。经典统计学能够解决非常精准的估算问题，在医学领域用的比较多。但在经济学以外，农业等领域的很多应用统计研究的不是枚举类问题，而是解析类问题。这类问题涉及的因果关系研究比枚举类研究复杂得多，所以统计学不能直接用于研究这种问题。很多通过模型推导出来的理论什么情况下可以用，什么情况下不可以用，需要通过数据学习才能得出结果。很多对经济学有意义的问题完全跳出了经典统计学得心应手的模型。从这个角度来看，经济计量学的教科书相当于犯了一个很严重的战略性错误。它的研究问题在建模时就错了。它认为根据逻辑推出来的模型具有普适性，但这相当于为错误的问题提供了正确的解法，也就是经济计量研究中的第三类错误。现在发表的计量研究文章，第三类错误比比皆是，这是因为我们的教科书告诉我们，只要是通过理论推出来的模型，参数都是可以检验的。这样起点就是错的，做了半天都是无用功。以上是我现在比较极端的一个观点。

我从四五年前开始不断学习机器学习，有几点体会：

第一，计量学教材里的数字内容比机器学习教材复杂的多。机器学习的教科书自学起来相当容易。为什么呢？一个原因是计量学里用的数学主要是为了有说服力。数学模型做的越复杂、越漂亮，说明建模的人越厉害。机器学习的特点是算得快，记忆力强。数学在机器学习中起的是服务作用，而不是主导作用，所以相对比较好学。

第二，近年来机器学习的不少方法进入了计量学。特别是在美国，很多人开始使用机器学习的方法提高计量学，但是，目前我觉得他们偏见性过强，都是把之前没有人用过的方法和工具拿过来用到计量学里，很少有人学习机器学习的本质。机器学习的本质是要推翻经典统计学的基石，因为经典统计学不研究模型，而机器学习的重心是寻找模型。从先验理论来看所谓的人机大战，用人力推出来的数学模型不会超越机器推出来的模型，因为做模型的方法不是唯一的，完全可以让机器代替人力，用最简单的算法得出这个模型，得出覆盖性和概括性更高的模型，而且最关键的是去学习这个模型。计量学的分工特别严谨，譬如理论经济学家建立理论模型，其他人想办法最优估计它的参数。机器学习没有这种分工，但它的一套理论非常成熟，包含的数学也很复杂。我们最终找到的模型要有一定的广义性，同时必须有可预测性。

说到可预测性，2008年以后，学界很少有人做宏观预测，因为知道一预测就失败，大多数人都去做微观的政策分析。这和机器学习的思路不一样。机器学习实际上是样本外预测。横截面也是要预测的，不是说理论推出来的模型就放之四海而皆准，必须通过数据分析才能证明模型是否具有影响力。提出假设再验证那套思路被机器学习超越了。

第三，机器学习为了证明它能够通过各种算法找到样本外可以推广的模型，要不断把数据分为训练、检验和预测等类别，目的是找到具有外延性和广义性的模型。这里面涉及的一个最基础的概念是偏差-方差权衡。其中的关键是模型都有偏差，而且在应用模型里，偏差是由模型人为地造成的。计量学从理念上把这个问题弄反了，我们假定理论模型100%正确，任何偏差都是估计偏差，那么计量学模型的复杂性多半体现在估计量上，还要去校正想像中的偏差。从理念上讲，计量学对偏差来自模型还是估计量等问题的思维和机器学习背道而驰。

我还想谈谈模型选择。计量学里很少讲模型选择，因为我们认为理论先导，模型要来自理论。比如理论给我一个VAR模型，我就估计所有VAR模型，好多VAR模型都是过拟合，但也有欠拟合的VAR模型，总体来说模型的拟合程度不好。不过机器学习强调寻找模型时必须找到最佳组合，不能太简单，也不能太复杂，做出来的模型还要有用。计量学里很少讲这个规则。很多模型做的相当复杂，用了很多方法，但都过拟合。衡量模型的标准不是它是否使用了复杂深奥的数学。

从总体上来说，计量学在学科发展上走到了尽头，需要重新引导下一代人把这个学科变正真正的应用科学和实验科学。它的分工也要重新调整，不能等着理论经济学家推出一个模型，其他人再来估计参数，这条路是走不通的。我们应该把主要精力放在研究如何做一个最能帮助经济学家解决问题的模型，而这个模型不能太简单，不能太复杂，又要能说明问题。另外，好多人认为机器学习是黑箱子，但我自己觉得机器学习给我们提供了一个新的机会。他们有一套非常实用的数据降维和寻求数据规律的手段。他们的所有算法开始时都不做统计分布假定，因为他们认为开放场景里不能做任何概率推断，所有密度和分布理论都不能用。一旦机器学习找到模型，发现比较稳定的参数,我们就需要学习它的特点，然后把模型做的更妙。我们应该引进更成熟的机器学习的方法和手段来寻找大数据里的规律，同时，用我们的专业知识做出更妙、更能解释的模型，这才是计量学需要做的部分。

最后我想用“大道至简”来结束今天的演讲。计量学界有好多特别好的数学家，但是，我们应该改变数学应用的标准，我们用数学不是吓唬别人的，而是想找到更简单、更能解释和解决实际经济问题的经济模型。谢谢大家！

·END·

这篇文章很重要！

今天,我们主要讨论从哪些维度去研究投资,相信能给大家带来启发. 站在基金投资的角度,研究通常可分为3个层面:宏观.中观.微观. 也可以分为择时和选基. 择时主要是从宏观和中观的维度,选基则更多站在微观 ...
米塞斯：宏观经济学的方法

一些著作的作者认为,在对市场经济的分析中,他们已经用一种整体的.或社会的.或普遍的.或制度的.或宏观经济的方法取代了被他们鄙视为建立在错误观念之上的个体主义方法.这些人既是在欺骗自己也是在哄骗民众.因 ...
如何做行业研究

番茄经济学 2017-06-20 财经爱好者如何做行业研究?在做具体项目或者市场的时候,我们需要先做对应的行业研究,那么如何做行业研究? 工具/原料无方法/步骤 1/7分步阅读资料的收集和整 ...
SPSS单变量如何将因子和协变量合并到模型中？

s p s s在通过单变量检验数据的时候,可以将因子和协变量一起合并输入到模型中 ,如何输入的呢? 1.首先打开s p s s找到单变量的选项. 2.输入相关的变量之后,点击模型按纽. 3.弹出的对话 ...
2021年实证计量方法重点选题首次公开, 这可不可行？

邮箱:econometrics666@126.com 所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问. 2021年实证计量方法重点选题滚动回 ...
1004一造技术与计量-知识点4工程计量的基本原理与方法

十工程量计算规范和消耗量定额十一平法标准图集十二工程量计算的方法工程计量:工程计价具有多阶段性和多次性,工程计量也具有多阶段性和多次性.工程计量不仅包括招标阶段工程量清单编制中工程量的计算 ...
【计量知识】民生计量小常识，你知道多少？

计量与健康 3月30日
能够降服所有癌症的最经济的方法

在当今这个很现实的社会,穷人一旦患上晚期癌症,97%的患者只有悲哀无奈的等待死神一步步降临,如果患有癌症的穷人有幸知道下面这个方法,就有可能把已经打开的死神大门给关上. 这 ...
能够降服所有癌症的最经济的方法(大蒜呼吸法)

在当今这个很现实的社会,穷人一旦患上晚期癌症,97%的患者只有悲哀无奈的等待死神一步步降临,如果患有癌症的穷人有幸知道下面这个方法,就有可能把已经打开的死神大门给关上. 这 ...
存货初始计量与计税计量的税会差异分析

存货初始计量与计税计量的税会差异分析彭怀文存货按其来源可以分为外购.自制.盘盈.投资者投入.非货币性资产交换.债务重组等方式取得,以外购和自制为主. 一.外购存货初始计量的税会差异 (一)外购存货 ...
三种T检验统计方法的使用条件|数据小兵博客

t检验有三种基本类型,即单样本t检验,独立样本t检验和配对样本t检验. 这三种差异比较的假设检验方法,均有自己的使用条件,或基本假设条件,有时候也称之为适用条件,满足这些条件下t检验的结果才是可靠的. ...
菜鸟记672-快速统计成绩区间的两种方法

万一您身边的朋友用得着呢? 各位朋友早上好,小菜继续和您分享经验之谈,截止今日小菜已分享600+篇经验之谈,可以文章编号或关键词进行搜索. 微信推送规则发生改变,如果您想看到小菜每个工作日的经验之谈, ...
病理科IHC质控对照组织蜡块制作——一个简便经济的方法

6月20日的技术达人精品课中,王华老师讲述了<IHC技术质控的路与坑>.关于IHC技术,衡道医学新媒体还有更多实用方法送给一起学习的你! IHC技术规范化建设成为技术发展的必然趋势.免疫组 ...
Excel教程：统计中国式排名的三种方法，一定有一个适合你

在前面的教程<加了*的SUMPRODUCT函数无所不能>(点击可查看)中,有小伙伴留言说想了解中国式排名,今天我们就来讲解这个问题. 看到题目,可能有些朋友会产生一个疑问,什么是中国式排名 ...

统计计量 | 秦朵：经济计量方法的局限与数据学习方法的启示

一、历史回顾：宏观经济预测与微观信息综合

二、计量应用模型的误区

三、有监督学习降维的案例

相关推荐