【南开区域导读111】人工选取还是机器学习:城市计量经济学中的空间固定效应

文献来源:Avald Sommervoll & Dag Einar Sommervoll. Learning from man or machine: Spatial fixed effects in urban econometrics[J]. Regional Science and Urban Economics, 2019, 77:239-252.

摘要:空间计量模型通常是以空间单位(行政区域或者学区等)为基础分析经济问题,然而空间单元范围太大会掩盖区域内部经济变量异质性,而较小的空间单元又会存在数据难获取从而造成估计偏差等问题。本文使用机器学习中的遗传算法将挪威奥斯陆地区按照邮编和栅格单元进行重新划分,并将房价相近的空间单元识别为同一区域,从而可以有效地解决上述问题。研究结果发现,基于遗传算法的空间计量模型其拟合优度值远远优于人工选取的回归模型,即使在地区控制变量很少的情况下,该结论依然成立。本文主要贡献是,采用遗传算法能够识别出性质良好的地区控制变量,从而弥补了人工设置地区控制变量时的主观性和回归模型的不一致性。

引言

经济变量存在空间异质性,如果未能识别出这种差异会导致模型估计结果与真实世界的偏差。空间固定效应模型的构建需要控制地区变量,不同的地区控制变量会估计出不同的计量模型。一方面,地区控制变量覆盖区域较小,样本数量不足,随机扰动较大,容易造成潜在的估计偏差;另一方面,地区控制变量覆盖区域范围较大掩盖了区域内部异质性。本文使用机器学习中的遗传算法(Genetic Algorithm, GA),将奥斯陆地区按照不同的网格单元划分成不同的空间子区域,将房价相似的区域识别为同一地区,并利用享乐函数回归模型(hedonic regression model)来进行住房价格预测。

与将地理空间作为划分依据的传统方法不同,本文把具有相似住房价格的区域识别为同一地区,从而设计出两种不同的地区控制变量方法:一种是利用邮政编码来划分不同区域,另一种是通过栅格单元将奥斯陆划分为不同的子区域。本文发现:利用遗传算法将奥斯陆地区53个行政区域合并为12个子区域后,生成地区控制变量,使得机器学习中验证集(validation test)的拟合优度值接近模型的最优估计(52个地区作为控制变量);而在使用栅格单元划分子区域空间单元时,在地区控制变量为4个时,其拟合优度值就已经优于使用53个行政区域作为控制变量的模型。

算法、模型和数据

遗传算法起源于对生物系统所进行的计算机模拟研究。它是模仿自然界生物进化机制发展起来的随机全局搜索和优化方法,借鉴了达尔文的进化论和孟德尔的遗传学说。其本质是一种高效、并行、全局搜索方法,能在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程以求得最佳解。其基本思路是经过选择、交叉、变异,对模型进行逐步优化。

享乐函数回归模型:该模型是用来预测住房价格的经典模型。由于房地产具有不同的面积、楼层、朝向和是否有保安服务等特征,住房价格则是所有这些特征的综合反映和表现。当房屋的某一方面的特征改变时,商品的价格也会随之改变。其基本的回归模型是:

其中, pi是住房价格,LogArea是房屋面积的对数, logAge是房屋的年限取对数,Floori是房屋的楼层高度,Mthi和subi是时间和地区的虚拟变量,对地区和时间进行双向固定。该模型反应了住房面积,房龄,楼层高度等变量对房屋价格的影响 pi

数据来源:本文使用从2014年到2015年间奥斯陆市场中所有的住房交易数据。样本数量共有14306个。根据机器学习一贯的做法,将样本分为训练集(training set), 用于模型和参数的训练,验证集是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估,和测试集(test set)用来评估模最终模型的泛化能力。按照惯例各个集合的数据量的比例是6:2:2。

研究设计

本文对模型之间的评估主要是通过回归模型的拟合优度——R2,其策略是通过比较训练集和验证集样本的R2,来判断模型之间的优劣。测试集和验证集上R2越高模型拟合越好,且二者之间的差距越小,说明模型没有出现过拟合,模型的泛化能力越强,即越稳健。

本文人工选取地区控制变量的思路是:首先,根据邮政编码的前两位把奥斯陆分为12个地区;然后,根据邮编前三位编码的把奥斯陆划分为53个地区,然后随机把53个区域划分为12个地区作为控制变量;最后,通过简单的数据挖掘,把53个行政区域,根据组内房屋价格方差最小分为12个地区控制变量。

遗传算法选取地区控制变量的基本思路如下:首先随机设置享乐函数回归模型参数初始值,就是根据邮编或者栅格单元随机把奥斯陆划分12个子区域控制变量(重复50次),然后计算出50个回归模型,根据每个模型的R2进行排序,删除拟合优度值排名低的12个,并将排名位于1-12与13-24的进行配对(pair),交叉(crossover),重新产生12个回归模型(offspring),即12个新的重新划分子区域作为控制变量,然后对新区域内部的子区域模块进行随机调整(mutation),产生12个新模型,并以此替代先前删除的12个。由此,第一次迭代完成。以此类推进行数千次迭代后模型会进行收敛稳定值,收敛值即为最优估计。

研究结果

1. 人工选取的回归结果

表4显示了5个人工选取地区控制变量的享乐函数模型回归结果。值得注意的是,最后一列中显示的是选取53个地区控制变量后,享乐函数回归模型在训练集和验证集样本上的拟合优度值分别是80.27与79.24,显然优于其他较少地区控制变量模型的拟合优度值。

图4是利用遗传算法选取地区控制变量的回归模型的拟合优度值。利用遗传算法选择12个地区控制变量后,其享乐函数回归模型的R2(图中两条曲线)接近人为选择53个地区控制变量的最优值。

2. 基于栅格单元的回归结果

图6是使用栅格把整个奥斯陆地区划分为33*33个子区域后,利用遗传算法获得的享乐函数模型回归结果的拟合优度值。为了便于比较,开始依旧把地区控制变量设定在12个,采取此种方法计算的拟合优度值为图中的两条曲线,再经过1000次迭代后均超过80,优于人工选取控制变量的最优值。

图8显示了进一步将奥斯陆地区分别划分为10*10到50*50个空间单元,然后利用遗传算法再把这些空间单元随机设定为6,10,12,20个地区控制变量,最终计算出亨德里克模型回归结果的拟合优度值。以最少的6个地区控制变量为例,回归结果显示,在奥斯陆切割成30*30的空间单元基础上,其模型的拟合优度值已经超过了人工设定53个地区作为控制变量回归模型的R2

结论

机器学习对经济学的研究范式将会产生深远影响。本文通过对比人工设定地区控制变量和通过机器学习选取地区控制变量,发现在空间固定效应模型中,利用机器学习的方法对于享乐函数回归模型的估计有很大改善,远远优于人工估计的结果。本文的启示是,对于空间固定效应模型不是引入更多的地区虚拟变量,而是选取更加有效的控制变量。
(0)

相关推荐