需要知识的后深度学习时代，如何高效自动构建知识图谱？

2024-05-25 14:14:19

机器之心原创

作者：Synced Lab

知识图谱可以做什么？如何自动、高效地构建知识图谱？前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。

日常生活中，我们经常遇到以下两种信息展现方式：

二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。

和人一样，机器也更加擅长利用右图所示的数据。但矛盾之处在于，互联网等数据平台存储的大多是左图所示的数据。要把左图转换成右图，机器需要经历一个「阅读理解」的过程。

这个过程如何完成？这就要提到我们今天的主题——知识图谱。

知识图谱可以做什么？

知识图谱的概念于 2012 年由 Google 提出，当时主要被用来提高其搜索引擎质量，改善用户搜索体验。随着大数据时代的到来和人工智能技术的进步，知识图谱的应用边界被逐渐拓宽，越来越多的企业开始将知识图谱技术融入其已经成型的数据分析业务，有的甚至使用知识图谱作为其数据的基础组织与存储形式，成为其数据中台的核心基建。

与谷歌类似，微软将知识图谱技术用于旗下必应（Bing）搜索引擎，优化搜索结果质量和交互式搜索体验；LinkedIn 与 Facebook 利用知识图谱挖掘其平台上人、事、资讯等之间的相互关系，使得用户更容易发现感兴趣的内容、找到志同道合的朋友；eBay、亚马逊等电商平台使用知识图谱为用户和产品建立联系，执行更精准的产品推荐；IBM 则专注于企业服务，其 IBM Watson Discovery 产品能够帮助用户根据自身的特殊需求快速构建自己的知识图谱框架。

虽然知识图谱的概念 2012 年才被提出，但其背后的思想本质上是上个世纪的语义网络（Semantic Network）知识表达形式，即一个由节点（Point）和边（Edge）组成的有向图结构知识库。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。

图 1：传统知识库与知识图谱示意图 [1]

与传统的数据存储和计算方式相比，知识图谱技术更加侧重于对非结构化异构数据的收集和处理，更擅长对于关系的表达和计算，可以处理复杂多样的关联分析、挖掘到更多隐藏知识。与此同时，知识图谱的数据结构与人工智能领域许多技术任务所基于的数据一脉相承（异质结构多关联的大数据），可以为后续的机器学习和推理任务提供强有力的支持，帮助企业在智能搜索、智能问答、智能推荐、以及大数据分析这几个方面提升性能。

智能搜索：传统的搜索引擎依靠网页之间的链接和权重进行搜索排序，而知识图谱提供了实体的分类、属性和关系的描述，从而可以直接对事物进行更精准的语义搜索。
智能问答：基于知识图谱的智能问答是目前产业界问答系统的主要技术路线之一，即对于给定的自然语言问题，利用知识图谱技术进行语义的解析、查询、推理以得出答案。该技术常见于智能手机或音箱载体上的智能对话机器人，如 Siri、Google Assistant、Amazon Alexa、小爱同学、天猫精灵，以及微软的小冰、小娜等，这些智能问答 agent 的背后都有相关企业各自积累的知识图谱作为问答系统的支撑。
智能推荐：基于知识图谱的推荐能更好将用户与被推荐项目之间的各种相互联系考虑进来，可以增强数据的语义信息、挖掘隐藏的关联信息，进一步提高推荐的准确度。
大数据分析：基于知识图谱中实体的关联信息和推理，我们能挖掘出传统数据分析较难得到的隐含信息，该优势在存在大量异构信息的数据集中更为显著。基于知识图谱的大数据关联分析在金融风控、反欺诈乃至安防等应用场景中都有很好的效果。

近年来，知识图谱的诸多优势和应用前景使得面向特定领域的知识图谱构建在行业应用中得到推广，产生了如医疗知识图谱、金融知识图谱、电商图谱等不同的垂直行业的知识图谱形态。

图 2：行业知识图谱应用一览 [2]

如何构建知识图谱？

一般来说，构建一个知识图谱通常会经历知识获取、知识表示与建模、知识融合、知识存储，以及构建完成后的知识查询和推理几大要素：

知识获取：从不同来源、不同结构的数据中抽取知识（实体、关系以及属性等信息），这是知识图谱构建的核心与前提条件。
知识表示与建模：为知识制定统一的数据架构（data schema），将获取到的知识依照统一的数据结构存储并形成知识库，这是知识图谱正式构建的第一步，影响着后续的知识融合、存储以及查询推理可以使用的方法与效果。
知识融合：将不同源的知识以统一的框架规范进行验证、消歧、加工等异构数据整合工作，这是知识图谱更新与合并的必经之路，为不同知识图谱间的交互融合提供可能性。
知识存储：依据数据量的大小、数据特征以及应用需求的不同，选取合适的存储模式，将获取到的数据存储起来，形成知识图谱。
知识查询与推理：基于构建完成的知识图谱进行查询，或者进一步推理挖掘出隐藏知识来丰富、扩展知识图谱，这是知识图谱构建的最终目的，与知识获取共同影响着知识图谱的应用场景和范围。

图 3：知识图谱构建的要素与示例流程

在执行正式的知识获取步骤之前，通常会首先确认知识的建模表示方式，主要的方式有两种：

先为知识图谱设计数据模式（data schema），再依据设计好的数据模式进行有针对性的数据抽取，这是自顶向下（top-down）的数据建模方法，一般适用于数据相对集中、知识结构相对确定的垂直领域行业知识图谱；
先进行数据的收集和整理，再根据数据内容总结、归纳其特点，提炼框架，逐步形成确定的数据模式，这是自底向上（bottom-up）的数据建模方法，一般适用于与涉及海量数据、内容繁杂且架构不清晰的公共领域通用知识图谱。

图 4：知识图谱数据建模方法 [3]

知识图谱构建的核心技术、局限与发展方向

知识获取是构建知识图谱的核心与前提条件，也是自动构建知识图谱最关键的影响要素和重点研究领域。除了纯人工的知识输入之外，目前的知识获取主要是指针对结构化数据（如关系型数据库）、半结构化数据（如词典、百科类标记清晰的网页数据）、或者非结构化数据（如声音、图像和文字语料数据）这三类不同结构的知识进行的自动或半自动抽取。

对于结构和半结构化的数据，通常只需要简单的预处理和映射即可以作为后续数据分析系统的输入，相关技术已经比较成熟。而非结构化数据通常需要借助自然语言处理、信息抽取、乃至深度学习的技术来帮助提取有效信息，这也是目前知识抽取技术的主要难点和研究方向，包含实体抽取、关系抽取和事件抽取三个重要的子技术任务。

实体抽取：主要是指命名实体识别（Named Entity Recognition, NER）任务，即从纯文本中自动识别并提出特定类别的命名实体，如人物、组织、地点、时间、金额等。实体抽取是知识抽取中最基础的步骤，早期主要是通过人工编写规则的方式进行抽取，但规则不易总结、成本高且移植性差，目前主要是作为补充方法使用。在这之后，实体抽取多采用基于特征的统计方法，使用如隐马尔可夫（HMM）和条件随机场（CRF）等模型，将实体抽取当做序列标注问题进行预测标注。而近年来，随着深度学习的发展，目前较流行的方法是将统计方法与深度神经网络相结合，使用如长短期记忆网络（LSTM）自动提取特征，再结合 CRF 模型标注提取实体，自动化程度更高，适用范围更广。
关系抽取：指从文本中识别抽取实体之间的关系，抽取结果常使用 SPO 结构（即主谓宾结构）的三元组来表示。与实体抽取类似，早期主要使用基于模板的方法（触发词模板、依存句法分析模板等），近年来开始发展出半自动的基于监督学习的方法（CNN、RNN 等）和纯自动的基于弱监督学习的方法（远程监督、Boostrapping 等）。目前在关系抽取任务上取得最佳表现的模型大多融入了注意力机制，如 Attention CNNs 模型和 Attention BLSTM 模型等。
事件抽取：指识别文本中目标事件的信息，并以结构化的形式呈现。例如从投融资新闻中定位融资公司、融资金额、投资企业等信息；或是从恐怖袭击事件的新闻报道中识别提取出袭击发生的时间、地点和受害人信息等。事件抽取同时涉及到实体和关系抽取的相关技术。从宏观的事件抽取思路上来看，事件抽取的方法可分为流水线抽取和联合抽取两大类方法。流水线抽取的思路是将事件抽取任务进一步分解为事件识别、元素抽取、属性分类等一条流水线上的多个子任务，分别使用相应的机器学习分类器实现，这是目前事件抽取的主流方法。联合抽取则主要是采用基于概率图的模型进行联合建模，或基于深度学习的方法（如基于注意力机制的序列标注模型），将事件的多个元素作为一个整体共同识别并提取。

移动互联网、云计算、以及物联网等技术的快速发展开启了一个大规模生产、分析和应用数据的大数据时代。然而，互联网上只有少数的结构或半结构化的数据知识可方便直接地被机器解析。对于非结构化数据的知识抽取尚达不到完全取代人工的准确度要求，而依靠人工编辑的知识图谱构建有着高成本、低效率的问题。根据德国 Mannheim 大学的研究者估算 [5]，手动创建一个三元组（即一条记录）的成本在 2 到 6 美元之间。那么，使用纯人工的方式构建一个大型知识图谱的总成本就会在数百万到数十亿美元之间。相比较而言，自动创建知识图谱的成本可以降低 15 到 250 倍左右，即一个三元组需要 1 美分到 15 美分左右的成本。因此，如何应用自动化知识抽取技术，在广泛的自由文本信息中自动且准确地提取高质量、结构化知识，将成为知识图谱构建的重要突破点。

图 5：每个三元组成本与错误率之间的关系示意 [5]

前沿的知识图谱自动构建技术

知识获取是知识图谱自动构建的核心，而非结构化知识又是知识获取里面最需要攻克的技术难点。近年来，深度学习和相关自然语言处理技术的迅猛发展使得非结构化数据的自动知识抽取少人化、乃至无人化成为了可能。与传统方法相比，深度学习方法减少了对外部工具的依赖，能构建端到端的系统直接进行实体识别、关系抽取等任务，简单高效。

在深度学习的基础上，艾伦人工智能实验室和微软的研究人员结合自然语言处理领域较为成功的预训练语言模型，提出了自动知识图谱构建模型 COMET（COMmonsEnse Transformers）[8]。该模型可以根据已有常识库中的自然语言内容自动生成丰富多样的常识描述，在 Atomic 和 ConcepNet 两个经典常识图谱上都取得了接近人类表现的高精度，证明了此类方法在常识知识图谱自动构建和补全方面替代传统方法的可行性。

图 6：COMET 从一个已有知识图谱中学习（实线），并生成新的节点和边（虚线） [8]

另一方面，IJCAI 2020 上一篇来自明略科学院知识工程实验室的论文另辟蹊径，从传统的基于文本的知识图谱生成进一步扩展到了基于语音生成知识图谱。其 HAO-Graph 系统 [10] 设计并实现了实时的语音图谱生成架构，并且能够根据演讲者的主题变化在不同的图谱之间切换。

图 7：结合摘要从一长段语音演讲中提取出的知识图谱示例 [10]

HAO-Graph 基于明略科技的 HAO 智能技术，是已知的首个公开发布的从语音中构建知识图谱的系统，实现了中文文本和语音知识图谱的实时生成和可视化。与此同时，明略科技在最近的 WAIC 2020 上还进一步开放了其 Text2KG API 接口，帮助相关从业人员进行知识图谱底层的数据收集、标注、抽取、以及关联等相关任务，避免了大量的重复工作，节省开发者的时间。

在深度学习发展进入瓶颈的时期，结合知识成为了下一步人工智能技术突破的关键，而知识图谱必然是核心驱动力之一。我们期待这一技术在未来有更大、更广的应用。

参考

[1] A Survey on Knowledge Graphs: Representation, Acquisition and Applications

[2] 知识图谱发展报告（2018）

[3] 知识图谱标准化白皮书（2019）

[4] 人工智能之知识图谱（2019）

[5] How much is a Triple?

[6] 67 亿美金搞个图，创建知识图谱的成本有多高你知道吗？

[7] A Survey of Deep Learning Methods for Relation Extraction

[8] COMET : Commonsense Transformers for Automatic Knowledge Graph Construction

[9] AI2 等提出自动知识图谱构建模型 COMET，接近人类表现

[10] A Speech-to-Knowledge-Graph Construction System

[11] ICDM 2019 Knowledge Graph Contest: Team UWA

[12] 明略科技 HAO 图谱 Open API：开放企业级知识图谱构建能力

[13] Domain-Specific Knowledge Graph Construction

[14] Knowledge Graphs

[15] Enterprise-scale knowledge graphs

本文为机器之心原创

ACL 2021 | 丁香园知识增强预训练模型

背景使用预训练模型已经成为大部分NLP任务的标配,因此近年来有大量的工作围绕着如何提高预训练模型的质量.其中,引入外部知识无疑是最热门的话题之一.丁香园NLP联合华师大何晓丰老师团队,在今年的ACL ...
【KDD 2019】JOIE：联合知识图谱实例和本体概念的通用表示学习

许多大规模知识图谱将知识组织成两个视图:以抽象概念和常识概念组成的本体视图,和以本体概念实例化的特定实体组成的实例视图.现有的知识图谱表示方法仅侧重于其中一个视角下的知识表示,JOIE使用跨视图关联模 ...
金融知识图谱的构建与应用

编辑整理:朱瑞杰出品平台:DataFunTalk.AI启蒙者导读:金融机构在过去积累了大量的数据,包括结构化数据和非结构化数据.如何利用这些数据来构建金融知识图谱,并将构造好的知识图谱应用到具体的 ...
问答知识图谱还缺少什么信息？

作者信息 Elesdspline 目前从事NLP与知识图谱相关工作. 导读这两天看到了一篇文章,和我最近的一些思考契合,分享给大家. 知识图谱的数据一般来自于结构化数据或者采用信息抽取等技术挖掘非结 ...
基于数据中台的图谱构建

引言随着移动互联网和数字化转型渗透到各行各业,万物互联成为可能,这种互联不仅产生了爆炸式的数据,也恰好形成了分析关系的有效原料.基于图谱的分析技术逐步成熟,使得互联网时代个体之间的关系分析成为数字化 ...
知识图谱的系统工程观

知识图谱的系统工程观
知识图谱应用研究

同济大学 zhou xiaohan对知识图谱的应用情况进行了系统性研究,发表在CCEAI2020的会议上,这里是个简单的翻译. 摘要: 知识图谱,将信息表示为语义图,已经引起了工业界和学术界的广泛关注 ...
【原创】|西安电子科大——焦李成：人工智能时代后深度学习的挑战与思考

焦李成西安电子科技大学教授,中国人工智能学会副理事长,智能感知与计算国际联合研究中心主任,智能感知与计算国际合作联合实验室主任,IEEE GRSS 西安分会主席,IEEE TGRS 副主编. ...
深度学习和计算机视觉中的基础数学知识（一）

2.1 线性变换与非线性变换 2-1叫相加性,2-2叫齐性 2.1.2 旋转.缩放与矩阵乘法旋转坐标矩阵形式缩放坐标的矩阵形式(B → \to →C) 2.1.3 点积和投影点积定义: 两个向 ...
深度学习三大谜团：集成、知识蒸馏和自蒸馏

集成(Ensemble,又称模型平均)是一种'古老'而强大的方法.只需要对同一个训练数据集上,几个独立训练的神经网络的输出,简单地求平均,便可以获得比原有模型更高的性能.甚至只要这些模型初始化条件不同 ...
DAS 2020 Keynote Speech | 深度学习时代的 OCR

DAS 2020 (Document Analysis System,文档分析系统研讨会) 于 7月26-29日在武汉召开,本次研讨会中有不少精彩的内容,今天向大家重磅推荐来自华南理工大学金连文老师的 ...
【星球知识卡片】深度学习图像降噪有哪些关键技术点，如何学习

【星球知识卡片】深度学习图像降噪有哪些关键技术点，如何学习
【星球知识卡片】深度学习换脸算法都有哪些？如何长期进行学习

【星球知识卡片】深度学习换脸算法都有哪些？如何长期进行学习
DL：深度学习(神经网络)的简介、基础知识(神经元/感知机、训练策略、预测原理)、算法分类、经典案例应用之详细攻略

DL:深度学习(神经网络)的简介.基础知识(神经元/感知机.训练策略.预测原理).算法分类.经典案例应用之详细攻略深度学习(神经网络)的简介深度学习(Deep Learning, DL)或阶层学习 ...
深度学习让你脱颖而出——后疫情时代普通人逆袭的唯一捷径

[2021十大危险与机会(九)--深度学习让你脱颖而出--后疫情时代普通人想要逆袭的唯一捷径]#2021趋势大预测# 每一次经济危机来临都在拉大贫富差距,谨以此文,希望帮助更多普通人累积财富幸福生活. ...
深度学习中的知识蒸馏技术(下)

本文概览: 写在前面: 这是一篇介绍知识蒸馏在推荐系统中应用的文章,关于知识蒸馏理论基础的详细介绍,请看上篇文章: 1. 背景介绍 1.1 简述推荐系统架构如果从传统角度来看实际的工业推荐系统,粗略 ...

需要知识的后深度学习时代，如何高效自动构建知识图谱？

相关推荐