论文推荐|面向遥感大数据的地学知识图谱构想
引用格式:
王志华,杨晓梅,周成虎.面向遥感大数据的地学知识图谱构想[J].地球信息科学学报,2021,23(1):16-28. [ Wang Z H, Yang X M,Zhou C H. Geographic knowledge graph for remote sensing big data[J]. Journal of Geo-information Science, 2021,23(1):16-28. ]
DOI:10.12082/dqxxkx.2021.200632
地学信息图谱是由我国现代地图学、遥感科学和地理信息科学的奠基人——陈述彭先生借鉴其它学科领域的图谱思维而提出的一种地球信息科学理论。它认为地球信息科学类似化学中的元素周期表、生物学中的基因图谱那样,借助这样一套规律或元素,可以进行地学规律的深入分析认知,例如地学规律的推理、反演,甚至预测。这其中,比较有代表性的就是河流水系的图形化图谱认知。受地学信息图谱启发,结合人对遥感图像的视觉认知,骆剑承等提出一种遥感信息认知模型——遥感信息图谱。其中“图”是指遥感信息在地物位置、形态、结构、空间分布等属性上的表征,遥感信息的“谱”,是指遥感信息在地物光谱、时间、功能等属性上的表征。并由此提出遥感认知“图谱转化”的3个阶段:“由谱聚图”→“图谱协同”→“认图知谱”。通过辨认已有的遥感“知识图”开展知识驱动的地物识别和专题信息提取智能化、精准化。
“地学信息图谱”面对的是整个地学领域知识的框架组织,并不能直接用于遥感影像解译的实践;“遥感信息图谱”借鉴了“地学信息图谱”的图谱化思维方式,从遥感影像的空间图和波段谱、时序谱中提炼地物目标的特征或者图谱模式,从而构建面向遥感信息的图谱,可直接用于遥感影像的解译实践。但是这种遥感信息图谱构建的数据源和构建的图谱本质都是来源于遥感数据,而遥感数据所能直接获取的地学信息是有限的,由此限制了已有地学知识在遥感解译过程中的融合。
知识图谱(Knowledge Graph)是通过有向图的方式表达实体、概念及其相互之间语义关系的数据组织形式,其中节点代表实体或者概念,边代表实体/概念的属性或者彼此之间的关系。从本质上讲,知识图谱是一种语义网络(Semantic Network)。知识图谱的过程主要包括知识抽取、知识融合、知识推理应用三个阶段。通过知识抽取,可获取实体、关系、属性等知识要素;通过知识融合,可消除实体、关系、属性等指称项与实体对象之间的歧义,得到一系列基本的事实表达;通过本体抽取、知识推理和质量评估形成最终的知识图谱库,实现知识的推理检索等应用。
地学知识作为科学知识的一种,同样也亟需其它科学知识所需要的查询检索与推理等功能。在语义网络或知识图谱出现伊始,就有相关的地理信息研究学者进行跟进研究,并将其称之为“地理知识图谱”或者“地学知识图谱”。这其中,尤其是将网络的地理信息和知识转化为知识图谱的表达和服务最为热门。其研究的主要目的是借助知识图谱的概念和相关理论方法,实现多源异构的大规模地理知识的图谱构建,用于融合语义关系和空间关系的地理智能搜索和地理知识自然语言智能问答,最终为智能虚拟地理环境系统的构建提供理论和技术支撑。
地学知识图谱的核心就是使用图模型思维更好地表达和利用地学知识,所以承载何种地学知识是构建地学知识图谱首要考虑的问题。而如何将这些地学知识进行分门别类则又是地学知识图模型表达的首要问题。根据地学知识的抽象程度,将地学知识依次划分3个层次:数据性知识、概念性知识以及规律性知识。
地学知识图谱承载的地学知识及其层次划分
地学数据性知识是指人们对一定地域范围内的特定地理实体的一种实例化的认知结果或其属性度量的结果。例如某地域范围内的土地利用专题数据、DEM数据等。样本是数据性知识中能够驱动遥感大数据解译的一种非常重要的关键性数据。它是地学专家通过多种数据的综合推断或者实地调查、测量后的含有地理位置的综合认知、测量结果。凭借其中的位置信息可与同样包含位置信息的遥感影像数据联系在一起,即将地学专家的认知空间与遥感影像空间联系在一起。
地学概念性知识是指人们对具有相似或者相同属性的某一类地理实体的认知和定义,或者一定地域范围内的所有地理实体类型的系统性认知和定义。概念性知识是连接地学领域与遥感领域的纽带,它们不仅是地学领域研究或者土地管理所使用的地学知识标准,也应该是遥感解译的结果能够为地学信息和知识获取所服务的标准和最终目标。
地学规律性知识,是人类对地表感兴趣目标或现象在时空分布及变化规律的高度抽象认知,例如植被类型随海拔高度变化的山地垂直带谱、种植作物的农事历区域性差异以及各种自然区划等。这类知识是发挥地学知识以“由上至下”的形式指导遥感影像解译的关键。另外,这类规律性地学知识对遥感解译结果的合理性判断方面具有重要推理意义。一个最好的例证就是在山地垂直带谱的帮助下,进行山地区域的植被精细分类。
知识图谱的图模型结构表达对地学知识的融合推理功能发挥具有重要意义。根据以上地学知识图谱承载的内容,可分别对其进行数据性知识、概念性知识和规律性知识的图模型结构表达。
数据性知识可借助地理实体这一概念进行表达。地理实体是地学专家为了描述和表达地理世界中具有特定空间与时间范围、形态、过程、关系,以及相关属性地理现象的实体化抽象。它不仅包含着几何实体,即地理实体在空间上的位置、边界,同时还包含着属性信息,例如地貌类型、辐射反射率等。将地理实体表示为图模型中的节点,不同地理实体之间的联系表示为图模型中的边,可以有效地表达数据性知识,并以此克服不同数据源之间的地学知识歧义性。由于认知和管理不同,地理实体在空间上呈现多尺度性,同时还经常存在交错性。此外,地理实体还具有类似生命期的时间属性。
概念性知识的图模型结构表达是将承载知识价值密度较低的数据性知识上升为知识价值较为密集的高层知识的关键一环。将其进行图模型表达,利于地学知识图谱的功能表达,例如图模型的推理功能用于目标识别,或者地理实体丰富、更新变化后的类型、模式自动化更新,即所谓的数据驱动知识发现。
规律性知识是地学知识的最高层级,也是价值密度最大的部分,同时其抽象程度也最大。将规律性知识进行图谱化表达,可以打通不同数据性知识、概念性知识以及规律性知识之间的结构不统一的壁垒,实现整体知识图谱的表达形式统一,是存储知识、使用知识进行遥感大数据自动分析和更新地学知识的关键。
地学知识图谱能够发挥的知识查询、推理、校正、拓展功能是其不同于传统的地学数据库共享和传统零散的地学知识辅助遥感解译的区别,也是构建面向遥感大数据的地学知识图谱的最终目标。
知识查询检索是地学知识图谱进行知识输出,从而用于遥感大数据自动分析的基本功能。根据地学知识图谱承载的内容和表达的结构,借鉴当前的知识图谱查询技术,可实现地学知识中的地理实体属性查询,地理实体之间的空间关系查询,对某一类地理实体的概念查询,以及规律性知识查询。
推理原理是利用知识图谱中的地理实体、概念、规律之间的抽取关系,进行相互之间的判断,这是从一般规律到个例识别,以及个例总结到一般规律归纳的过程。当新获取的地学知识要积累入已有的地学知识图谱中时,可以利用已有的知识进行推理,通过与新获取知识的差异对比,定位出知识分歧的位置,为后续的知识更新和校正奠定基础。这种分歧知识定位既包括同专题的数据性知识之间的歧义,同时也包括不同专题的数据性知识之间的歧义,例如土地利用/覆盖专题数据与地貌专题数据。
在结合地学知识图谱的推理功能,发现歧义知识后,引入校正机制,可以促使地学知识图谱的知识积累并且随着这种积累越来越精准,从而突破当前的地学数据共享的知识千差万别导致的难以积累知识和精准知识的困境。
地学知识图谱的知识拓展是指当出现新的数据性知识后,现有的地理知识图谱中的地理实体、概念/模式、规律性知识因为不完备而无法承载,只有进行相应的拓展方能实现新知识的承载。因为地学知识图谱采用图模型的结构进行表达,这种知识的新增相当于在原有的知识图谱上进行节点的新增,以及与新增节点关系(即边)的新增,并不会覆盖丢失原有的知识。又因为地学知识图谱有充分的知识查询检索、推理、校正机制,可以充分保证当前的拓展不会与原有知识体系形成冲突,从而使得已有的地学知识图谱更加完备。
地理实体具有时空多尺度性,高维特征明显。地理实体的表达是一种在具有5维或6维特征空间中节点与边的构建过程:空间的2维或3维+空间尺度1维+时间1维+时间尺度1维。这种高维度的复杂性极大地增加了地理实体的构建难度。此外,现有的地学知识来源多样,认识标准和获取手段都不尽相同,使得地理实体在高维度空间中的边界往往不一致,属性特征也难以对齐。
开展不同专题数据的精度评价,以精度最高、尺度最精细的专题所反应的地理实体为基础构建地理实体是一种容易联想到的解决思路,但如何客观地开展这样的精度评价并非一件易事。承认这种空间不一致性的客观存在,借鉴空间数据的不确定性原理,引入边界的模糊机制或者概率机制,并借助地学知识图谱的推理、校正、拓展功能,逐步逼近真实边界和属性是一种颇具前景的思路。
这种推理包含了体量巨大的数据性知识,牵涉的地理实体和属性较多,复杂程度本身就高;推理涉及的地理实体具有空间和时间的多尺度性,相互之间的关系有强有弱,并且多数是间接的弱相关,而不是直接的强相关,这与现有的知识图谱理论中节点之间明确的关联关系极不相同;此外,地表区域具有异质性,不同区域的数据和规律往往并不相同,相应的推理计算过程也难免会存在差异性,这进一步加剧了知识层级间推理的难度。
传统的区域划分思路为解决地表区域异质性导致的知识层级间推理的困难以及大体量知识处理困难,提供了现成的思路,但这种思路亟需解决的一个难题就是区域划分的尺度该如何选择;针对地理实体的跨尺度关联关系强弱不同的问题,则可以引入概率机制,进行概率推理,这方面一个比较有前景的方向就是概率图模型。
地学知识图谱的初始构建依赖于大量的现有地学知识,尤其是数据性知识。然而,这些知识的来源、认知标准等都不相同,甚至存在一些矛盾。因为地学知识图谱的统一表达,尤其是地理实体为统一承载体,不同专题、概念、规律的知识得以交叉融通、相互校验,现有地学知识的各种矛盾或冲突也会在这个过程中集中凸显。为了实现知识图谱的表达和推理功能,这种矛盾和冲突也必须在这个过程中进行消除或者采用一定的手段进行处理。因此,构建地学知识图谱的过程也是一种地学知识精准化的过程。
原文请在期刊官网或中国知网下载
王志华副研究员
中国科学院地理科学与资源研究所副研究员,硕士生导师,主要从事地理学、景观生态学、人工智能、计算机视觉等相结合的遥感大数据挖掘理论方法与应用分析研究。主持国家自然科学基金2项。在国内外学术期刊已发表论文40余篇,授权发明专利6项,获软件著作权1项。
杨晓梅研究员
中国科学院地理科学与资源研究所研究员,博士生导师,长期从事遥感影像地学理解与分析计算以及海洋海岸带遥感与地理信息系统综合集成与应用等方向的研究与系统开发。主持完成国家863计划项目、国家重大专项、国家自然基金、国际合作等多项课题,在国内外学术期刊已发表论文100余篇,出版《遥感影像地学理解与分析》、《海岸带遥感综合技术与实例研究》等理论专著6部。2005年获国家科技进步二等奖。
周成虎院士
中国科学院地理科学与资源研究所研究员,中国科学院院士、国际欧亚科学院院士,博士生导师。主要从事地图学与地理信息系统研究。在数字地貌制图、时空大数据分析与预测等方面完成了系统性工作,提出了全息位置地图、全空间信息系统的新概念新理论,引领着我国地理信息系统与导航位置服务的学科与技术发展。
全文可在中国知网或学报官网下载
《地球信息科学学报》是中国科学引文数据库(CSCD)核心期刊、中国科技核心期刊、全国中文核心期刊。2020年《中国科技期刊引证报告(核心版)》和《中国学术期刊影响因子年报》均显示,学报影响因子位列测绘科学技术期刊第2名。在2020年版中国科学院科学出版基金中文科技期刊排行榜中,学报排名第25位。
欢迎国内外学者踊跃赐稿,欢迎国家重大科研项目、国内外学术会议组织专辑专栏。
官网网址
http://www.dqxxkx.cn/CN/1560-8999/home.shtml
联系电话
010-64889219(稿务)
010-64888891(编务,财务)
邮 箱
dqxxkx@igsnrr.ac.cn