【南开区域导读111】人工选取还是机器学习:城市计量经济学中的空间固定效应
文献来源:Avald Sommervoll & Dag Einar Sommervoll. Learning from man or machine: Spatial fixed effects in urban econometrics[J]. Regional Science and Urban Economics, 2019, 77:239-252.
引言
经济变量存在空间异质性,如果未能识别出这种差异会导致模型估计结果与真实世界的偏差。空间固定效应模型的构建需要控制地区变量,不同的地区控制变量会估计出不同的计量模型。一方面,地区控制变量覆盖区域较小,样本数量不足,随机扰动较大,容易造成潜在的估计偏差;另一方面,地区控制变量覆盖区域范围较大掩盖了区域内部异质性。本文使用机器学习中的遗传算法(Genetic Algorithm, GA),将奥斯陆地区按照不同的网格单元划分成不同的空间子区域,将房价相似的区域识别为同一地区,并利用享乐函数回归模型(hedonic regression model)来进行住房价格预测。
算法、模型和数据
享乐函数回归模型:该模型是用来预测住房价格的经典模型。由于房地产具有不同的面积、楼层、朝向和是否有保安服务等特征,住房价格则是所有这些特征的综合反映和表现。当房屋的某一方面的特征改变时,商品的价格也会随之改变。其基本的回归模型是:
数据来源:本文使用从2014年到2015年间奥斯陆市场中所有的住房交易数据。样本数量共有14306个。根据机器学习一贯的做法,将样本分为训练集(training set), 用于模型和参数的训练,验证集是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估,和测试集(test set)用来评估模最终模型的泛化能力。按照惯例各个集合的数据量的比例是6:2:2。
研究设计
本文人工选取地区控制变量的思路是:首先,根据邮政编码的前两位把奥斯陆分为12个地区;然后,根据邮编前三位编码的把奥斯陆划分为53个地区,然后随机把53个区域划分为12个地区作为控制变量;最后,通过简单的数据挖掘,把53个行政区域,根据组内房屋价格方差最小分为12个地区控制变量。
遗传算法选取地区控制变量的基本思路如下:首先随机设置享乐函数回归模型参数初始值,就是根据邮编或者栅格单元随机把奥斯陆划分12个子区域控制变量(重复50次),然后计算出50个回归模型,根据每个模型的R2进行排序,删除拟合优度值排名低的12个,并将排名位于1-12与13-24的进行配对(pair),交叉(crossover),重新产生12个回归模型(offspring),即12个新的重新划分子区域作为控制变量,然后对新区域内部的子区域模块进行随机调整(mutation),产生12个新模型,并以此替代先前删除的12个。由此,第一次迭代完成。以此类推进行数千次迭代后模型会进行收敛稳定值,收敛值即为最优估计。
研究结果
1. 人工选取的回归结果
图4是利用遗传算法选取地区控制变量的回归模型的拟合优度值。利用遗传算法选择12个地区控制变量后,其享乐函数回归模型的R2(图中两条曲线)接近人为选择53个地区控制变量的最优值。
2. 基于栅格单元的回归结果
图6是使用栅格把整个奥斯陆地区划分为33*33个子区域后,利用遗传算法获得的享乐函数模型回归结果的拟合优度值。为了便于比较,开始依旧把地区控制变量设定在12个,采取此种方法计算的拟合优度值为图中的两条曲线,再经过1000次迭代后均超过80,优于人工选取控制变量的最优值。
图8显示了进一步将奥斯陆地区分别划分为10*10到50*50个空间单元,然后利用遗传算法再把这些空间单元随机设定为6,10,12,20个地区控制变量,最终计算出亨德里克模型回归结果的拟合优度值。以最少的6个地区控制变量为例,回归结果显示,在奥斯陆切割成30*30的空间单元基础上,其模型的拟合优度值已经超过了人工设定53个地区作为控制变量回归模型的R2。
结论