【信息抽取】介绍一种端到端的关系抽取方法

事物、概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开。

然而,随着互联网的爆炸发展,人类的知识也随之飞速的增长,因而对关系抽取(Relation Extraction, RE)提出了更高的要求,需要一个有效的RE系统,能够利用更多的数据;有效的获取更多的关系;高效的处理更多复杂的文本;具有较好的扩展性,能够迁移到更多的领域。

本文首先介绍一种端到端的关系抽取方法,即能够通过一个模型,共享参数,进行实体识别和关系分类。

作者&编辑 | 小Dream哥

1 导论 

我们前面介绍的深度学习方法进行关系的分类,包括卷积神经网络和循环神经网络,这类模型主要关注的是关系分类的问题,且在此类问题中取得了一定的进展。

但是,在现实的场景中,我们遇到最多的问题是,需要直接从非结构的文档中抽取出<e1, r, e2>的三元组。

如果采用上述的模型,就需要先用NER任务,讲文本的中的实体抽取出来;随后,基于NER的结构,用关系分类模型对抽取到的实体的关系进行识别。

目前得到的一种共识是,NER任务会有误差,这种误差会积累,然后传递到关系分类的任务中去,从整体的效果会变差。

进而出现了一些联合的抽取模型,在一个模型里就能端到端的抽取出实体及他们之间的关系。

Suncong, Zheng, Yuexing, etc. Joint entity and relation extraction based on a hybrid neural network[J]. Neurocomputing, 2017.

2 网络结构

如上图所示是该基于循环神经网络和卷积神经网络的实体及其关系分类的联合抽取模型的框架图,从图中可知,模型的输入是一段话;输出包括一个序列标注序列和一个预测的类别,实现了实体抽取和关系分类的联合抽取

联合抽取的一个主要思想是参数共享,这个模型可以分开去看,包括实体抽取和关系分类两个部分。两个部分进行了部分的参数共享,可以任务关系分类模型共享了实体抽取模型特征抽取过程的参数,获得很多实体以及文本语义及文法特征,从而能够较好的进行关系分类。

下面我们来详细介绍这个模型的结构:

1)公共特征抽取

模型的底座,公共部分,是一个双向LSTM网络,通过这个网络,进行输入文本的特征抽取及表征。

2) 实体抽取部分

实体识别部分的输入是上述双向LSTM网络T(T为输入序列的长度)个时刻的编码<h1,h2,h3,...hT>。

实体抽取部分,针对输入<h1,h2,h3,...hT>先做一个解码操作,解码部分引入了一个decoding LSTM层,该层LSTM的解码过程,可参考下面的计算公式:

其中,ht是该时刻encoding的编码向量;st-1为上一个时刻decoding LSTM的cell state;Tt-1为上一个时刻解码器的序列标记预测向量;(ps,it=st)

再通过一个线性变化,得到当前时刻的序列标记预测向量:

最后接一个softmax层,预测是每一个标记的概率。

这里解码层跟现今大部分的模型不一样,如今的NER模型通常采用CRF,感兴趣的同学,可以试试效果会不会变好。

3) 关系分类层

如上图所示,是关系分类部分的结构图。从图中可知,关系分类部分采用的是卷积神经网络。

该部分的输入包括2个部分:

1.实体的编码向量,因为有的实体会包含几个字,会将该实体内所有字的编码向量相加,得到实体的编码向量he1he2

2.实体间的词向量。

讲实体的编码向量及实体间的词向量拼接在一起,输入到卷积神经网络中进行进一步的解码。

解码后经过一个最大池化层,改池化层的用法跟前面讲的池化是一样的逻辑,忘记的读者可以出门左转看看。

最后,经过一个softmax层就可以输出这两个实体是某种关系的概率了。

3 训练过程

训练过程采用RMSprop优化器,NER喝RC的损失函数分别为:

需要注意的一点是,模型在训练时,先把NER模型训练一段时间,获得一定的准确度后,再进一步加入关系分类模型一起训练

有意思的一点是,作者认为大部分有关系的实体,他们之间相差的词不会超过20个,所以再模型里加了一个Lmax的超参数,假如两个实体间的距离超过了20,则认为他们没有任何关系。

其实这个结论,应该只在作者训练的数据集(ACE05)有效,在目前很多的数据集都存在大量的“远距离实体间的关系”。

总结

联合模型的想法其实挺朴素的,主要基于如下两个点:

1.减少模型间的误差传递。

2.让NER和RC模型共享参数,让RC模型能够充分利用NER模型获取到的实体间的语义信息。

基于此,出现了很多的联合抽取模型,我们下次再介绍一种,看看二者的差别,进一步理解联合抽取的思想。

下期预告:联合关系抽取模型

知识星球推荐

扫描上面的二维码,就可以加入我们的星球,助你成长为一名合格的自然语言处理算法工程师。

知识星球主要有以下内容:

(1) 聊天机器人。

(2) 知识图谱。

(3) NLP预训练模型。

转载文章请后台联系

侵权必究

(0)

相关推荐

  • 中文NER碎碎念—聊聊词汇增强与实体嵌套

    来自:丁香园大数据 前言 得益于BERT的加持,Encoder搭配CRF的结构在中文NER上通常都有不错的表现,而且BERT使用方便,可以迅速微调上线特定服务:在好的基准条件下,我们也能把精力放在更细 ...

  • 迈向NLP大师 | 自然语言推理入门

    NewBeeNLP原创出品 公众号专栏作者@zhkun 自然语言理解研究,热衷于语义理解与表示/图文联合建模及各种有意思的learning method 自然语言推理作为自然语言理解的一个重要组成部分 ...

  • 浅析深度学习在实体识别和关系抽取中的应用

    选择"星标"公众号 重磅干货,第一时间送达! 命名实体识别 命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其 ...

  • 动态词向量在序列标注任务中的应用与实践

    摘要:动态词向量会根据上下文动态的进行变化,相比于传统的 Word2Vec 等静态词向量,能更好的处理 NLP 任务中的 "一词多义" 的现象.本文介绍了动态词向量在序列标注任务上 ...

  • ACL2021 | 一种巧妙解决NER覆盖和不连续问题的方法

    论文:A Span-Based Model for Joint Overlapped and Discontinuous Named Entity Recognition 链接:https://acl ...

  • 介绍一种通俗易懂,容易操作计算补仓方法:...

    介绍一种通俗易懂,容易操作计算补仓方法: 初始投入金额为a,另外准备同等金额a的补仓资金. 以买入点的单位净值为基准,选择一只近几年历史最大回撤不超过20%的均衡配置型主动基金,比如兴全合润.工银文体 ...

  • 介绍一种鉴别袁大头真假最简单的方法(原创)

    介绍一种鉴别袁大头真假最简单的方法,小白也能很快掌握 说起袁大头银元鉴别真假的方法,好多藏友都能说上一二,有人说可以用称重量的方法,有人说也能用听声音的方法,还有人说看包浆.看色泽.看齿轮.大家说的都 ...

  • 介绍一种比较简单实用的治螨方法

    欢迎加入蜂蜜课题     几种药剂混合,既有触杀作用又有熏杀作用:既可杀死成螨,又可杀死巢房内的若螨和螨卵:由于多种药物的混合作用,所以效果好,杀灭彻底,大.小螨一次用药就可以彻底杀灭:同时对巢虫和病 ...

  • 介绍几种锻炼肝经肾脾的方法

    肝是人体最大的排毒器官,肝的排毒功能减弱时,人体的毒素就会越积越重,导致长斑.长痘.脱发.油脂过多.失眠.乳房肿瘤等问题,因为肝的一大主要功能是肝主疏泄,就是疏通和发散的意思,它能保证全身的气血运行通 ...

  • 介绍一种适合懒人的艾灸方法,再也不担心没有人为自己艾灸啦

    文小叔说历史  让历史更美更有趣更贴近生活 现在很多年轻人熬着最晚的夜,敷着最贵的面膜,以为在脸上下功夫就可以美美哒,其实身体里的各种大小毛病却一样也没有根治. 特别是到了三伏天这个季节,湿热交加,很 ...

  • 介绍几种符合人体规律的外治方法

    lqs1944 对疾病治疗的过程中,最为重要的是对病症如何做出准确判断,如何采用适合于病因方法辨证施治,这是自我治疗和临床的重点和难点.那么,一个没有接触过医学的人,对自己的病情能否做出正确判断和进行 ...

  • 介绍一种高效的增肌减脂新方法 I 「蓝友力的N种打开方式」

    介绍一种高效的增肌减脂新方法 I 「蓝友力的N种打开方式」

  • 人到中年,这三种“碗”不能端

    <骆驼祥子>中说:"什么也是假的,只有钱是真的." 不管什么时候,钱都无比重要,因为钱,就意味着饭碗. 但年纪渐长才知道,即使要过日子,也不是每份钱都要挣,不是每个饭碗 ...

  • 女性若出现缺铁性贫血,4种美食请端上饭桌

    很多的女性朋友在日常生活中可能会出现缺铁性贫血的情况,与女性朋友每个月生理期到来有着密不可分的关系.如果身体中的铁元素含量不足的话,就会严重影响到血红蛋白的合成,可能就会诱发缺铁性的贫血. 如果女性朋 ...