明代的灾荒:我们如何完成学术成果数据的共享和可视化

以下视频来源于
地图书

明代灾荒等级时空数据可视化

说个段子。
有个朋友讲过一个故事。他还在学校时,跟着老师一起去做田野考察,对遗址开展抢救性研究。不过项目完成后,大家辛辛苦苦做了一批数据却从此束之高阁,感觉也需要赶紧抢救一下,不然这些工作在他看来就白做了。
曾经的抢救性研究成果,自己也成了抢救对象,这种冷笑话绝对不是个例。实际上,在中国的文史研究中,这种情况可谓比比皆是。特别是一些没有经费出版,没有钱开发信息平台,也没有太大影响力的中小型课题,这一问题就更为突出。数据的共享需要平台,数据格式的转换需要技术处理,数据的可视化需要程序开发,这一切都说明,这些数据之所以吃灰,绝对不是因为没有老师愿意共享,而是一个涉及方方面面的系统性问题。
在2020年,发现中国的志愿者在地图书人文地理知识库协作平台,组织起了一些列开放知识库协作项目。另一方面,我也一直没有忘记这些藏在学校里的存量数据。毕竟,做数据是困难的,哪怕是整合现有数据,或者依照纸质著作提取结构化数据也是困难的。直接发布一些已经结题的可公开数据,显然是一种更快捷的途径。
地图书已公开发布的项目
10月底,我应邀去云南大学参加第六届HGIS沙龙,当晚,和几个老师去云大附近的酒吧一条街喝酒。虽然之前大家并未谋面,最多也只是网友,但大家却志趣相投,相谈甚欢。酒过三巡后,西北大学科学史高等研究院的胡鹏老师,便表示一定要合作,因为他那里正好有一套结题不久的可公开数据,希望能够分享给更多的人。不过他不太懂信息技术,所以希望我们能够进行技术处理。
明代的灾荒是一个基于方志文献的灾荒等级数据库。它基于《中国地方志集成》、《中国方志丛书》、《著名图书馆藏稀见方志丛刊》等方志丛书,国家图书馆“中华古籍资源库”、爱如生“中国方志库”、“哈佛燕京图书馆藏缮本方志书志”等网络文献资源,以及《中国三千年气象记录总集(增订本)》等资料汇编,通过对2万余条相关记录的整理分析,按照自然灾害对社会经济发展影响程度为标准,重建了全国(两京十三布政使司、内陆十八省)251个观测站的年度灾荒等级序列。
数据库首页
根据文献资料的记录特点和方式,这套数据遵循“人优先于物”和“群体优先于个体”的基本原则,按照“财物→个别民众→社会群体”的层次,将自然灾害的社会损害按照影响程度分为农业减产、财产损失、民生窘迫、人员伤亡、社会凋敝,以及农业丰收等五个类别。研究者通过一定标准,给每个指标以不同的赋值,进行灾荒等级分级。
灾荒等级指标说明
项目得到了陕西省社会科学基金项目、陕西省社科界重大理论与现实问题研究项目、教育部人文社会科学重点研究基地重大项目的资助,同时还得到了西北大学科学史高等研究院数字人文团队的支持。
到了这个月,胡鹏老师正式把数据发给了我,共两个xls文件,授权地图书公开发布,他也由此成为了在地图书上发布正式学术成果数据的第一人。如果将来地图书能够实现他的目标,并被更多人所知,那么他的名字是一定要书写上我们平台的发展史的。
项目发布页
和我之前见过的不少学术成果数据一样,这套数据使用Excel作为统计工具。Excel可以说是最方便普通老师整理数据的工具,简单易得,功能强大。不过,Excel虽然可以管理数据表格,但数据表并不是数据库,所以在发布到地图书前,还需要设计数据库结构,转换数据格式。
地图书的一大特点,就是可以根据项目特点,由用户自定义数据库结构,自动生成输入表单、分页、排序字段、筛选条件,甚至连API接口和简单的可视化都能自动实现。这里就涉及到一个问题,就是如何设计数据库结构和转换数据格式。
项目的数据表结构
这个技术问题颇为复杂,这里就不过多讨论。但显然人文学科的老师是很难完成的,除此外,每个地图书项目还需要设计一个封面,这个难度也不小。于是我们尝试了一个新机制,就是已结题的公开学术成果,由于不用考虑保密问题,所以交给志愿者来完成。
数据结构的可视化
要知道,中国发达的互联网产业,造就了一大批优秀的程序员。虽然维护Linux内核这样的工作可能还没多少人能干,但转换数据这种小事还是手到擒来的。而且,收入不错的程序员们,也迫切的希望去追求精神生活,只不过996福报和中年淘汰制让他们在追求精神富足的道路上,往往是摔得皮青脸肿。而与美术相关的设计师们,好些也处于类似的状态。
于是我们组织了发现中国的志愿者参与到了这个项目。一位程序员首先研究了整套数据,然后将两个Excel文件结构化为三个数据表,并使用脚本程序转换数据。由于这套数据中涉及到的现代城市只有名称,没有地理坐标,所以还需要利用高德地图API进行地理编码转换。导入成功后,再利用地图书上一个实验性的数据分析工具,自定义数据库查询语句,以及HTML、CSS、JS代码,利用ECharts实现了一个简单的可视化效果。拿出第一版设计后,我们立即反馈给了胡鹏老师,并根据他的意见继续改进,最终形成了大家现在看到的效果。
一个实验性的在线查询数据编辑代码可视化工具
最终完成的可视化效果
不过可惜的是,之前设计过几个封面的志愿者,却因为正被加班折磨得死去活来,所以这事只好由我亲自上阵了。设计封面需要素材,在我看来,灾荒年代吃饭是最要紧的事情,于是我到了美国大都会艺术博物馆网站上,找到了一个明朝嘉靖年间的碗。
为了突出灾害的气氛,我结合大地干涸开裂的图案,把黄色的碗PS成了一个血碗,并使用了一副明朝古地图作为背景,然后把明朝皇帝的年号做成大米。在完成这些工作后,胡鹏老师也准备好了项目的文字说明,之后编辑说明文本、上传封面,再反复检查核实后即正式发布了。
项目封面
在发布前,还有一个重要的事情,就是数据采用什么样的授权。一直以来,国内互联网资源共享有个问题,就是缺乏规范的授权,也因此经常出现各种扯皮事件。因此,形成统一的知识共享授权标准,或者使用国际上广泛使用的知识共享协议,是一件非常有必要的事情。在这一点上,我们做了一些建议,但主要还是遵从作者本人的意见,在经过商议后,胡鹏老师最终采用了CC BY-NC-SA授权。
CC BY-NC-SA协议
这一授权要求使用者在使用此数据时必须署名,只能用于非商业用途,可以自由共享、修改、转换和再创作,但必须使用相同的方式共享。也就是说,利用此数据诞生的新作品也必须采用CC BY-NC-SA协议共享。
最终项目在21日正式发布,现在任何人都可以自由利用这套数据了。在未来,我们还会陆续发布更多学术成果数据库,我们也希望能和更多的老师一起合作,向任何有需要的人分享数据。在明年,地图书也将陆续和国内几家数字人文科研单位开展长期合作。同时,未来我们还会允许任何用户根据数据接口在线实现各种数据可视化页面,甚至一些小功能,把平台做的更加开放。
另一方面,我们也在不断探索这种志愿者模式。志愿者除了独立协作整理数据外,也可以帮助人文学科的老师在分享数据或者从事数字人文研究时,完成一些必要的技术性工作。除了组织具有多年工作经验的资深程序员外,另一个被我看好模式就是和理工类的院校合作,这既能给学生们一个不错的实践机会,也能促进跨学科综合性人才的培养。
(0)

相关推荐