需要知识的后深度学习时代,如何高效自动构建知识图谱?
机器之心原创
知识图谱可以做什么?如何自动、高效地构建知识图谱?前沿的知识图谱自动构建技术有哪些?这篇文章将逐一解答这些问题。
智能搜索:传统的搜索引擎依靠网页之间的链接和权重进行搜索排序,而知识图谱提供了实体的分类、属性和关系的描述,从而可以直接对事物进行更精准的语义搜索。
智能问答:基于知识图谱的智能问答是目前产业界问答系统的主要技术路线之一,即对于给定的自然语言问题,利用知识图谱技术进行语义的解析、查询、推理以得出答案。该技术常见于智能手机或音箱载体上的智能对话机器人,如 Siri、Google Assistant、Amazon Alexa、小爱同学、天猫精灵,以及微软的小冰、小娜等,这些智能问答 agent 的背后都有相关企业各自积累的知识图谱作为问答系统的支撑。
智能推荐:基于知识图谱的推荐能更好将用户与被推荐项目之间的各种相互联系考虑进来,可以增强数据的语义信息、挖掘隐藏的关联信息,进一步提高推荐的准确度。
大数据分析:基于知识图谱中实体的关联信息和推理,我们能挖掘出传统数据分析较难得到的隐含信息,该优势在存在大量异构信息的数据集中更为显著。基于知识图谱的大数据关联分析在金融风控、反欺诈乃至安防等应用场景中都有很好的效果。
知识获取:从不同来源、不同结构的数据中抽取知识(实体、关系以及属性等信息),这是知识图谱构建的核心与前提条件。
知识表示与建模:为知识制定统一的数据架构(data schema),将获取到的知识依照统一的数据结构存储并形成知识库,这是知识图谱正式构建的第一步,影响着后续的知识融合、存储以及查询推理可以使用的方法与效果。
知识融合:将不同源的知识以统一的框架规范进行验证、消歧、加工等异构数据整合工作,这是知识图谱更新与合并的必经之路,为不同知识图谱间的交互融合提供可能性。
知识存储:依据数据量的大小、数据特征以及应用需求的不同,选取合适的存储模式,将获取到的数据存储起来,形成知识图谱。
知识查询与推理:基于构建完成的知识图谱进行查询,或者进一步推理挖掘出隐藏知识来丰富、扩展知识图谱,这是知识图谱构建的最终目的,与知识获取共同影响着知识图谱的应用场景和范围。
先为知识图谱设计数据模式(data schema),再依据设计好的数据模式进行有针对性的数据抽取,这是自顶向下(top-down)的数据建模方法,一般适用于数据相对集中、知识结构相对确定的垂直领域行业知识图谱;
先进行数据的收集和整理,再根据数据内容总结、归纳其特点,提炼框架,逐步形成确定的数据模式,这是自底向上(bottom-up)的数据建模方法,一般适用于与涉及海量数据、内容繁杂且架构不清晰的公共领域通用知识图谱。
实体抽取:主要是指命名实体识别(Named Entity Recognition, NER)任务,即从纯文本中自动识别并提出特定类别的命名实体,如人物、组织、地点、时间、金额等。实体抽取是知识抽取中最基础的步骤,早期主要是通过人工编写规则的方式进行抽取,但规则不易总结、成本高且移植性差,目前主要是作为补充方法使用。在这之后,实体抽取多采用基于特征的统计方法,使用如隐马尔可夫(HMM)和条件随机场(CRF)等模型,将实体抽取当做序列标注问题进行预测标注。而近年来,随着深度学习的发展,目前较流行的方法是将统计方法与深度神经网络相结合,使用如长短期记忆网络(LSTM)自动提取特征,再结合 CRF 模型标注提取实体,自动化程度更高,适用范围更广。
关系抽取:指从文本中识别抽取实体之间的关系,抽取结果常使用 SPO 结构(即主谓宾结构)的三元组来表示。与实体抽取类似,早期主要使用基于模板的方法(触发词模板、依存句法分析模板等),近年来开始发展出半自动的基于监督学习的方法(CNN、RNN 等)和纯自动的基于弱监督学习的方法(远程监督、Boostrapping 等)。目前在关系抽取任务上取得最佳表现的模型大多融入了注意力机制,如 Attention CNNs 模型和 Attention BLSTM 模型等。
事件抽取:指识别文本中目标事件的信息,并以结构化的形式呈现。例如从投融资新闻中定位融资公司、融资金额、投资企业等信息;或是从恐怖袭击事件的新闻报道中识别提取出袭击发生的时间、地点和受害人信息等。事件抽取同时涉及到实体和关系抽取的相关技术。从宏观的事件抽取思路上来看,事件抽取的方法可分为流水线抽取和联合抽取两大类方法。流水线抽取的思路是将事件抽取任务进一步分解为事件识别、元素抽取、属性分类等一条流水线上的多个子任务,分别使用相应的机器学习分类器实现,这是目前事件抽取的主流方法。联合抽取则主要是采用基于概率图的模型进行联合建模,或基于深度学习的方法(如基于注意力机制的序列标注模型),将事件的多个元素作为一个整体共同识别并提取。
本文为机器之心原创