中国中文信息学会发布《2018知识图谱发展报告》(内附PDF)
中国中文信息学会成立于1981年6月。钱伟长、甄健民、安其春等为主要发起人。
中国中文信息学会是依法成立并经中国科学技术协会接纳的科学技术工作者的学术性群众团体,是具有独立社团法人资格的国家一级学会。
其中包括了如下专业委员会:
汉字编码专业委员会
民族语言文字信息专业委员会
基础理论专业委员会
汉字信息处理系统专业委员会
汉字设备专业委员会
自然语言处理专业委员会
计算语言学专业委员会
汉字字形信息专业委员会
教育专业委员会
速记专业委员会
人工智能与教育专业委员会
信息检索专业委员会
社会媒体处理专业委员会
语言与知识计算专业委员会
此次发布《2018知识图谱发展报告》的是语言与知识计算专业委员会。
中国中文信息学会“语言与知识计算专业委员会” 致力于促进语言与知识计算领域的学术研究和产业发展,特别是促进从语言资源中获取知识的方法和策略的探索,以及促进知识驱动的语言理解技术和方案的研究。
“语言与知识计算专业委员会”于2014年筹办,并于武汉召开了第一次专业委员会工作会议,选举清华大学李涓子教授担任第一届专业委员会主任。目前专委会共有委员63人,分别来自于国内外的知名高校、研究所和企业。
专委会目前主要面向的研究领域有:
知识表示
知识图谱构建与信息抽取
语义计算
自然语言理解
语义集成
知识存储
知识共享与基于知识的系统
知识推理
链接数据
《2018知识图谱发展报告》一共有163页,是语言与知识计算专委会邀请知识图谱技术领域专家对本学科方向和前沿技术的一次梳理,并在今后定期更新最新进展。
报告的定位是深度科普,旨在向政府、企业、媒体等对知识图谱感兴趣的研究机构和企业界介绍相关领域的基本概念、研究和应用方向,向高校、科研院所和高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。
报告目录如下(文末附下载链接)
第一章 知识表示与建模
第二章 知识表示学习
第三章 实体识别与链接
第四章 实体关系学习
第五章 事件知识学习
第六章 知识存储与查询
第七章 知识推理
第八章 通用和领域知识图谱
第九章 语义集成
第十章 语义搜索
第十一章 基于知识的问答
本文摘选了《第八章 通用和领域知识图谱》的部分内容,如需完整版报告,请至文末下载。
通用知识图谱案例
国外
国外的 DBpedia [Auer et al,2007]使用固定的模式从维基百科中抽取信息实体,当前拥有 127 种语言的超过两千八百万实体以及数亿 RDF 三元组;Yago[Suchanek et al,2007]则整合维基百科与 WordNet 的大规模本体, 拥有 10 种语言 约 459 万个实体,2400 万个事实;Babelnet [Navigli et al,2012]则采用将 WordNet词典与 Wikipedia 百科集成的方法,构建了一个目前最大规模的多语言词典知识 库,包含 271 种语言 1400 万同义词组、36.4 万词语关系和 3.8 亿链接关系。
国内
国内的 Zhishi.me 从开放的百科数据中抽取结构化数据,当前已融合了包括 百度百科、互动百科、中文维基三大百科的数据,拥有 1000 万个实体数据、一 亿两千万个 RDF 三元组;以通用百科为主线,结合垂直领域的 CN-DBPedia [Xu et al,2017],则从百科类网站的纯文本页面中提取信息,经过滤、融合、推断等操 作后形成高质量的结构化数据;XLore[Wang et al,2013]则是基于中文维基百科、 英文维基百科、百度百科、互动百科构建的大规模中英文知识平衡知识图谱。
领域知识图谱案例
领域知识图谱常常用来辅助各种复杂的分析应用或决策支持,如下图所示,在多个领域均有应用,不同领域的构建方案与应用形式则有所不同。
本文将以电商、企业商业、图情、创投四个领域为例,从知识建模的角度给大家介绍。
电商知识建模
电商知识图谱以商品为核心,以人、货、场为主要框架。目前共涉及 9 大类一级本体和 27 大类二级本体。一级本体分别为:人、货、场、百科知识、行业竞对、品质、类目、资质和舆情。人货场构成了商品信息流通的闭环,其他本体主要给予商品更丰富的信息描述。下图描述了商品知识图谱的数据模型,数据来源包含国内-国外数据,商业-国家数据,线上-线下等多源数据。目前有百亿级的节点和百亿级的关系边。
图情知识建模
图情知识图谱的构建一般采用自顶向下的方式进行知识建模,通常从资源类型数据入手,整理出资源的发表者(人物),发表机构(机构),关键词(知识点), 发表载体(刊物)等等类型的实体及各自之间的关系,同时通过人物、机构的主页进行实体属性的扩充。下图是一张典型的图情知识图谱 schema 模型,展示了概念与概念间的关系以及部分属性。
企业商业知识建模
构建企业商业知识图谱,通常关注企业与人物的任职关系、投资关系、分支机构关系。 从相应网站中抽取企业信息、人物形象、诉讼信息以及信用信息,再添加上市公司、股票等概念和相应属性。企业招投标信息、上市公司的股票信息可从相 关网站进行采集。企业的竞争关系、并购事件则从百科站点中进行抽取。这些信息存在于信息框、列表、表格等半结构化数据,以及无结构的纯文本中。其模式如下图所示。
创投知识建模
要定义创投知识图谱 schema,首先要理解创投领域的相关概念跟关系。创投领域 Schema 中涉及的概念主要包括初创公司、投资机构、投资人、公司高管、行业以及投融资事件等。融资事件是创投领域的核心,不同于实体节点,融资事件描述的是一个事实,具有抽象性。典型的创投 schema 如下图所示: