【学术前沿】基于夜光遥感的贫困县识别:不同机器学习算法的比较
小编语
研究背景
灯光是人类活动的一种直接体现,夜光数据的强度也一定程度上体现了人类活动的强度和广度。贫困作为一种复杂的社会问题,涉及社会生活的许多方面,夜光遥感数据作为人类活动的体现,是否可以用于体现区域差异,进而用于研究贫困问题?从夜光数据的应用领域来看,夜光数据能够探究的一些领域,包含了贫困问题体现的某些维度,比如城镇化进程对应多维贫困评估中的工业用地、住房情况、公共与卫生设施,区域经济增长对应着人均收入、生产性收入等。从这些角度来看,夜光数据用于研究区域贫困问题是可行的,且很多学者的研究也证实了这一点,但是大多数学者都是基于夜光数据和其他数据(统计数据)进行相关问题的探究。基于这样的研究背景,本研究拟解决的问题:
1)仅使用夜光数据是否可以探究区域贫困问题?
2)是否存在某些稳健性比较好的特征可以作为贫困县的分类特征?
图1 夜光数据的应用领域与贫困的表现方面
研究路线
如图2所示,本研究首先从4个角度(数据的集中趋势、离散程度、分布特征、空间特征)选取了15个分类特征(表1),并选取了96个贫困县和非贫困县(根据国家2010年划定的14个集中连片特困地区划定)作为分类样本,采用了7种机器学习分类算法(高斯过程(径向基函数)-GPRBFK、提升树-SGB、偏最小二乘回归-PLSRGLM、随机森林-RF、旋转森林-RoF、支持向量机-SVM、神经网络-NNFE)对中国贫困县进行了识别,同时根据5种特征重要性的计算方法(Mean decrease Gini-MDG、Permutation accuracy importance-PAI、Sum of the decrease in impurity-SDI、Sum of squared error-SSE、Receiver operating characteristic curve-ROC)对分类稳健性特征进行了划分。
图2 本研究的研究路线
表1 分类特征的描述
贫困县的识别
由表2和图3的结果可以看出,本研究选取的分类特征和分类框架可以取得较好的分类效果,证实了仅使用夜光数据和机器学习算法探究区域贫困问题的可行性。
表2 贫困县(贫困概率大于0.6)分类精度
图3 基于不同机器学习分类算法的贫困县(贫困概率大于0.6)的空间分布
稳健性分类特征的识别
由图4-5,表3的结果可知,不同机器学习分类算法对应的不同特征重要性算法计算出的贫困县的分类特征的重要程度不同。适合多种分类算法的重要性程度比较高的特征才是适合贫困县识别的稳健性特征。
图5 不同特征数量对应下的贫困识别模型的模型精度
表3 稳健性分类特征的识别结果
结语
本研究利用DMSP/OLS夜光影像数据,通过选取统计和空间分类特征,利用不同机器学习分类算法,对我国各县域2010年的贫困情况进行了分类,取得了所有算法总体分类精度大于82%的较好的分类效果。研究结果展示了机器学习算法和夜光数据用于识别贫困县的有效性,同时也揭示了用于贫困县识别的稳健性特征。该研究框架丰富了夜光数据的应用领域和应用方式,可以用于探究其他发展中国家的区域贫困问题。
参考文献
Guie Li, Zhongliang Cai, Xiaojian Liu, Ji Liu & Shiliang Su (2019): A comparison of machine learning approaches for identifying high-poverty counties: robust features of DMSP/OLS night-time light imagery, International Journal of Remote Sensing,
DOI: 10.1080/01431161.2019.1580820
https://doi.org/10.1080/01431161.2019.1580820
来源:武大城市化研究室