【KDD 2019】JOIE:联合知识图谱实例和本体概念的通用表示学习

许多大规模知识图谱将知识组织成两个视图:以抽象概念和常识概念组成的本体视图,和以本体概念实例化的特定实体组成的实例视图。现有的知识图谱表示方法仅侧重于其中一个视角下的知识表示,JOIE使用跨视图关联模型(Cross-view Association Model)和内部视图模型(Intra-view Model)对知识图谱进行多方面的表示学习,得到的嵌入表示具备(1)本体视图和实例视图各自的知识结构,和(2)本体视图自身与实例间的层次结构。

论文题目:Universal Representation Learning of Knowledge Bases by Jointly Embedding Instances and Ontological Concepts

论文作者:Junheng Hao, Muhao Chen, Wenchao Yu, Yizhou Sun, Wei Wang

论文地址:http://web.cs.ucla.edu/~yzsun/papers/2019_KDD_JOIE.pdf

代码地址:https://github.com/JunhengH/joie-kdd19

研究动机

许多大规模知识图谱都具备两个视图下的知识:以抽象概念(例如:Person、Artist)及概念间关系(例如:isA、livesIn)组成的本体视图,和以实例(例如:Barack Obama)与实例间关系(例如:has_award)组成的实例视图。如下图所示:

当前的知识表示方法大多只对两个视图中的一个进行了设计,而同时对两个视图的知识进行建模则有利于:1)保留实例表示的丰富信息;2)概念对实例的高度概括性,利于对极少被观察到的实例进行分类。但联合考虑实例与概念也会带来如下挑战:

  • 实例与概念、关系(实例间关系)与元关系(概念间关系)往往在词形上有很大差异但又存在语义相关,使得现有方法难以同时对次进行建模;

  • 现有的实例与概念间的上下位关系(isA)就实例规模而言是很少的,而链接两个视图最重要的就是isA关系;

  • 实例视图的规模比概念规模要大很多,且概念间存在层次结构。

提出方法

针对以上挑战,作者提出使用跨视图关联模型(Cross-view Association Model)和内部视图模型(Intra-view Model)对知识图谱进行多方面的表示学习方法JOIE。跨视图关联模型注重将实例与概念进行关联,内部视图模型则注重实例视图内部的实例、本体视图内部的概念各自的结构学习。下面将详细介绍两个模块。

1.跨视图关联模型(Cross-view Association Model)

基于不同的假设,作者提出了两种跨视图关联模型:跨视图分组(Cross-view Grouping,CG)和跨视图转换(Cross-view Transformation,CT)。

跨视图分组(CG)可以被看作是基于分组的正则化,它假设本体视图和实例视图可以被嵌入表示到同一空间中,并强制任何所有属于概念c的实例e都与c在表示空间上位置相近。因此优化的目标为:

其中γCG是hinge loss中的超参,S表示具有isA关系的实例与概念关系对。

与CG不同,跨视图转换(CT)允许两个视图的向量空间彼此完全不同,但可以通过一个变换将其对齐在一起,即

,这里使用的是非线性仿射变换

。所以优化的目标定义为:

其中γCT是hinge loss中的超参。如下为两个子模块的示意图:

2.内部视图模型(Intra-view Model)

内部视图模型目标是在两个向量空间中分别保留每个视图中的原始结构信息。由于本体视图与实例视图中的关系语义相关但又不同,因此更适合将其分别建模。这里作者分了默认内部视图模型(Default Intra-view Model)和层次感知的视图模型(Hierarchy-Aware Intra-view Model for the Ontology)两个部分来对知识图谱的内部进行建模。

默认内部视图模型(Default Intra-view Model)即使用现有的知识图谱表示学习方法对两个视图分别进行学习。本文作者选择了较为经典的TransE[1],DistMult[2]和HolE[3]分别进行实验,各自的得分函数如下:

优化目标即最小化所有三元组(包括实例间三元组和概念间三元组)的hinge loss:

其中γG为超参。总的loss会增加参数α1用于平衡两个视图的loss:

默认内部视图模型并不能对本体视图的概念间上下位关系进行很好的建模,所以作者提出层次感知的视图模型(Hierarchy-Aware Intra-view Model for the Ontology)用于表示概念间subclass_of结构。这里设计方法类似CT,即给定一个具备subclass_of关系的概念对

,认为存在非线形变换将粗粒度的概念(上位概念)映射为细粒度的概念(下位概念):

其中

为需要学习的参数。同样地,可以定义本体视图层次感知的优化目标:

因此,总的内部视图模型优化目标为:

其中α2α3为平衡每一部分loss的超参。

3.两个视图的联合训练

结合视图内模型和跨视图关联模型,JOIE使用AMSGrad[4]最小化如下hinge loss:

其中ω为平衡两个模型的超参。

实验分析

数据集方面,由于现有方法大多只关注对一个视图的知识建模,缺少融合两个视图特点的公开评测数据。所以作者从YAGO和DBpedia构建了两个更符合真实知识图谱结构的数据集YAGO26K-906和DB111K-174。数据集的相关信息统计如下:

作者使用如上所述的数据集在知识图谱补全(KG Triple Completion)和实体分类(Entity Typing)两个任务上对JOIE的性能进行了评测。

1.知识图谱补全(KG Triple Completion)

知识图谱补全任务目标是补全知识图谱缺失的关系或实体以组成正确的事实三元组。该任务可分为实例视图的知识补全和本体视图的知识补全两个子任务。Baselines方面使用的是经典的TransE,DistMult和HolE,以及分别对概念和实例进行建模的TransC[5]。方法中注明“base”的为用两组参数分别学习两个视图的知识,“all”增加联系两个视图的关系type_of,并用同一组参数同时学习两个视图的知识。实验结果如下:

可以看到,在DB111K-174的本体视图上,JOIE的效果显著地比baselines高了近10个百分点,这表明了融合实例视图的知识有益于概念视图的知识学习。对比使用不同的内部视图模型,基于翻译的方法要优于基于相似度的模型,这是由于TransE受到图稀疏性的影响相对小一点。考虑本体视图层次结构、使用CT的JOIE在实例视图中有很好的效果。

2.实体分类(Entity Typing)

实体分类任务就是给定实例为其预测所属分类(概念)。这里使用的baselines包括TransE,DistMult,HolE和MTransE[6]。实验结果如下:

可以看到,考虑本体视图层次结构、使用CT的JOIE在两个数据集上均有很好的发挥。

3.案例分析

除此之外,作者还对实验进行了一些案例分析,可以归纳为以下两点:

(a)JOIE能够发现一些数据集中不存在、但在真实客观世界中存在的元关系三元组。

(b)JOIE对长尾实体分类具有更显著的效果提升

参考文献

[1] Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran, Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multi-relational data. In NIPS.

[2] Bishan Yang, Wen-tau Yih, Xiaodong He, Jianfeng Gao, and Li Deng. 2015. Embedding entities and relations for learning and inference in knowledge bases. In ICLR.

[3] Maximilian Nickel, Lorenzo Rosasco, Tomaso A Poggio, et al. 2016. Holographic Embeddings of Knowledge Graphs.. In AAAI.

[4] Sashank J Reddi, Satyen Kale, and Sanjiv Kumar. 2018. On the convergence of adam and beyond. In ICLR.

[5] Xin Lv, Lei Hou, Juanzi Li, and Zhiyuan Liu. 2018. Differentiating Concepts and Instances for Knowledge Graph Embedding. In EMNLP.

[6] Muhao Chen, Yingtao Tian, Mohan Yang, and Carlo Zaniolo. 2017. Multilingual knowledge graph embeddings for cross-lingual knowledge alignment. In IJCAI.

学术头条现招聘全职/实习编辑,有意者联系学术君!

分享干货

(0)

相关推荐

  • 基于知识图谱的电缆故障诊断分析

    我国城市电网系统电缆化率逐年提升,电缆线路安全运行的重要性日益凸显.近年来,由于用电负荷不断上涨等原因致使电缆故障频繁发生.目前,国家电网公司系统内的高压电缆线路总长度已超过 3 万千米,近几年的高压 ...

  • 知识图谱构建技术一览

    知识图谱构建技术一览 一.什么是知识图谱 二.知识图谱的分层架构 三.知识图谱构架技术 (一)数据获取(Data Acquisition) (二)信息抽取(Information Extraction ...

  • ACL 2019论文| 为知识图谱添加注意力机制

    注意力机制(Attention)是近些年来提出的一种改进神经网络的方法,在图像识别.自然语言处理和图网络表示等领域都取得了很好的效果,可以说注意力机制的加入极大地丰富了神经网络的表示能力. 论文原文: ...

  • 智慧城市知识图谱模型与本体构建方法

    智慧城市知识图谱模型与本体构建方法 臧根林1,2, 王亚强1,2, 吴庆蓉1,2, 占春丽1,2, 李熠3 1 拓尔思知识图谱研究院 2 广州拓尔思大数据有限公司 3 湘潭大学 摘要:针对目前智慧城市 ...

  • ICML 2019 Workshop短文 | TuckER:基于张量因式分解的知识图谱补全

    由于知识库的不完备性,知识图谱补全(Knowledge Graph completion)成为众多学者的研究焦点,而链接预测(Link Prediction),即根据已有的事实预测缺失的事实,是度量知 ...

  • NAACL 2019 论文 | 基于胶囊网络的知识图谱表示学习

    知识图谱表示学习(Knowledge Graph Embedding)是将知识图谱中的实体和关系等表示为低维的向量空间中的向量,这些向量蕴含了实体和关系的复杂信息,有利于计算机进行计算和推理. 论文背 ...

  • 名老中医医案 知识图谱

    随着信息时代的来临,知识呈现出爆炸式增长的现象,计算机处理技术水平和存储能力也得到了迅速提高,且实现了越来越便捷的信息分析.检索,甚至可视化等先进的功能,使得近年来出现了以知识单元为前提.可以快速获取 ...

  • 何捷:知识图谱——精准定位教学的“GPS”

    2012年,谷歌(Google)正式提出了知识图谱的概念,并宣布以此为基础构建下一代智能化搜索引擎.我们所理解的知识图谱是人工智能领域的一个重要分支,其来源于智能化的图书情报和信息处理技术,即将文献中 ...

  • 【直播课】知识图谱第三期直播-关系抽取及分类

    前言 最近几年知识图谱作为人工智能领域很热门的一项技术,已经在不少领域都取得了不少成功的落地案例.不过知识图谱作为人工智能的一个底层技术,确实不如图像,语音等技术一样让人能很直观的感受到它的存在.于是 ...

  • ENRIE:知识图谱与BERT相结合,为语言模型赋能助力

    来自:朴素人工智能 感谢清华大学自然语言处理实验室对预训练语言模型架构的梳理,我们将沿此脉络前行,探索预训练语言模型的前沿技术,红框中为已介绍的文章,绿框中为本期介绍的模型,欢迎大家留言讨论交流. E ...

  • 构建体系化医学知识图谱 提高医学人文素养

    深圳图书馆健康分馆位于深圳市疾控中心,由预防医学历史展厅和标本展厅组成,将强烈艺术感染力和趣味互动性融为一体,拉近公众与医学之间的距离.与此同时,作为全国公共卫生领域首家叙事医学机构所在地,该场馆将定 ...