数据分享|440 万观测值!1998~2013 年工企业与秦岭-淮河线的距离和南北方属性
上图中的蓝色线表示秦岭-淮河线,每一个点表示表示一家企业,点的颜色深浅和大小表示该企业距离秦岭-淮河线的距离,颜色越深、点越大表示距离越远,反之则越近。
出于保护原数据的版权考虑,我只给大家分享如下变量(报名培训班可以获取包含全部工企业数据库变量的完整版数据):
组织机构代码; 企业名称; 年份; 省自治区直辖市; 地区市州盟; 经纬度; 省份(根据经纬度解析); 省代码(根据经纬度解析); 城市(根据经纬度解析); 市代码(根据经纬度解析); 区县(根据经纬度解析); 县代码(根据经纬度解析); 所在区县是否和省界接触; 所在区县是否和海岸线接触; 所在区县是否和陆地国界线接触; 所在区县是否为内部县(不和省界、国界线、海岸线接触的); 距离秦岭-淮河线的距离(单位:km)
;位于南方或北方
;
其中最后四个变量是 0 1 变量,例如 是否和省界接触
变量,该变量取 1 的时候表示该企业所在的区县和省界接触:
本次分享的数据包含了 1998~2013 年的 440+ 万个观测值!
数据格式方面我提供四个格式的:
供 Stata 读取的 dta 格式的数据; 供 R 语言读取的 rds 格式(使用 readr 包中的 read_rds 函数读取); 供文本编辑器打开的 csv 格式的数据(用 Excel 打开会出现中文乱码); 供 Excel 读取的 csv 格式的数据(文件名中含有 excel 的字样)。
注意事项(请认真阅读)
所有的地址都是使用高德地图接口批量解析的,可能包含部分解析错误的观测值,不过从上面的地图来看大部分解析的都是正确的; 由于工企数据库是 1998~2013 年的,里面的地址自然也是 1998~2013 年的,而高德地图接口返回的经纬度是最新地址的,这也可能导致经纬度错误(这个应该问题不大,毕竟公司搬家的不多。且也没有什么好的办法了); 我提供的地理位置数据里有几个公司的名称含乱码,这是原数据的锅; 高德地图接口解析得到的是 GCJ02 坐标系的经纬度,我已经转换成了 WGS84 坐标系的,可放心使用;
获取数据
赞 (0)