数据分享|440 万观测值!1998~2013 年工企业与秦岭-淮河线的距离和南北方属性

上图中的蓝色线表示秦岭-淮河线,每一个点表示表示一家企业,点的颜色深浅和大小表示该企业距离秦岭-淮河线的距离,颜色越深、点越大表示距离越远,反之则越近。

出于保护原数据的版权考虑,我只给大家分享如下变量(报名培训班可以获取包含全部工企业数据库变量的完整版数据):

  1. 组织机构代码;
  2. 企业名称;
  3. 年份;
  4. 省自治区直辖市;
  5. 地区市州盟;
  6. 经纬度;
  7. 省份(根据经纬度解析);
  8. 省代码(根据经纬度解析);
  9. 城市(根据经纬度解析);
  10. 市代码(根据经纬度解析);
  11. 区县(根据经纬度解析);
  12. 县代码(根据经纬度解析);
  13. 所在区县是否和省界接触;
  14. 所在区县是否和海岸线接触;
  15. 所在区县是否和陆地国界线接触;
  16. 所在区县是否为内部县(不和省界、国界线、海岸线接触的);
  17. 距离秦岭-淮河线的距离(单位:km)
  18. 位于南方或北方

其中最后四个变量是 0 1 变量,例如 是否和省界接触 变量,该变量取 1 的时候表示该企业所在的区县和省界接触:

本次分享的数据包含了 1998~2013 年的 440+ 万个观测值

数据格式方面我提供四个格式的:

  1. 供 Stata 读取的 dta 格式的数据;
  2. 供 R 语言读取的 rds 格式(使用 readr 包中的 read_rds 函数读取);
  3. 供文本编辑器打开的 csv 格式的数据(用 Excel 打开会出现中文乱码);
  4. 供 Excel 读取的 csv 格式的数据(文件名中含有 excel 的字样)。

注意事项(请认真阅读)

  1. 所有的地址都是使用高德地图接口批量解析的,可能包含部分解析错误的观测值,不过从上面的地图来看大部分解析的都是正确的;
  2. 由于工企数据库是 1998~2013 年的,里面的地址自然也是 1998~2013 年的,而高德地图接口返回的经纬度是最新地址的,这也可能导致经纬度错误(这个应该问题不大,毕竟公司搬家的不多。且也没有什么好的办法了);
  3. 我提供的地理位置数据里有几个公司的名称含乱码,这是原数据的锅;
  4. 高德地图接口解析得到的是 GCJ02 坐标系的经纬度,我已经转换成了 WGS84 坐标系的,可放心使用;

获取数据

(0)

相关推荐