ACL 2019 | ERNIE:利用信息化实体增强语言表示

在本论文中,作者利用大规模文本语料库和知识图谱来训练一个增强语言表示模型(ERNIE),该模型可以同时充分利用词汇、句法和知识信息。实验结果证明ERNIE1在各种知识驱动的任务中实现了效果的显著提升,同时,在其他常见的NLP任务中和最先进的模型BERT不相上下。

论文题目:ERNIE:Enhanced Language Representation with Informative Entities

论文作者:Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, Qun Liu

论文原文:https://arxiv.org/pdf/1905.07129.pdf

论文背景

虽然预训练语言表示模型取得了可喜的成果并且在许多NLP任务中被用作常规组件,但它们忽略了可以合并知识信息来增强语言理解。如下图所示,如果不知道Blowin’ in the Wind和Chronicles:Volume one分别是歌曲和书,那么就很难识别出Bob Dylan有两个职业分别是作曲家和作家。在关系分类任务中提取细粒度关系几乎是不可能的,例如作曲家和作者。

为了将外部知识纳入语言表示模型,我们提出了用信息实体来增强语言表示的方法,这个方法利用大规模文本语料库和知识图谱来预训练一个语言表示模型。下图为该模型的总体示意图:

论文模型

ERNIE的整体模型架构由两个堆叠的模块组成:

1)基础文本编码器(T-Encoder)

2)上层知识编码器(K-Encoder)

其负责将额外的面向token的知识信息集成到基础层的文本信息中,这样就可以将token和实体的异构信息表示到一个统一的特征空间。

对于token如果存在对应的实体,可以按照上述的公式计算,如果token没有对应的实体,信息融合层就按照如下公式计算输出而没有集成。

经过简化,第i个聚合器的操作可以表示为:

tokens和实体的最终输出将由最高层的聚合器产生,而这个最终的输出也将作为编码器K-Encoder的最终输出。

3)注入知识的预训练

和BERT类似,ERNIE也采用了MLM和NSP作为预训练任务,这使得ERNIE能够从文本中根据token捕获词汇和句法信息。整体的预训练损失是dEA,MLM和NSP各损失之和。

实验结果

本文模型分别在两个任务上和各beseline进行对比。对Entity Typing任务在FIGER和Open Entity两个数据集上做了实验,通过accuracy,loose macro,loose micro scores来评价,结果如下所示。

对Relation Classification任务在FewRel和TA-CRED两个数据集上做了实验,通过precision,recall,micro F1来评价,结果如下所示。

(0)

相关推荐

  • NLP预训练家族 | Transformer-XL及其进化XLNet

    NewBeeNLP 永远有料,永远有趣 194篇原创内容 公众号 最近又重新读了Transformer-XL和XLNet的论文和代码,又有很多新的感悟.其中,要想搞懂XLNet的同学一定要首先明白Tr ...

  • 常用预训练语言模型(PTMs)总结

    NLP工作站 16篇原创内容 公众号 从以下5个部分通过QA的方式进行总结:Transformer架构.Transformer-Encoder预训练语言模型.Transformer-Decoder预训 ...

  • NLP前沿预训练语言模型大赏

    预训练模型可以分为以下三个大类: 自回归模型 自动编码模型 序列到序列模型 什么是自回归模型(auto-regressive model):经典的语言建模任务,根据已读取文本内容预测下一个单词.比如T ...

  • 阿里周晓欢:如何将实体抽取从生成问题变成匹配问题?

    编辑整理:刘香妍 中南财经政法大学 出品平台:DataFunSummit 导读:实体抽取或者说命名实体识别 ( NER ) 在信息抽取中扮演着重要角色,常见的实体抽取多是对文本进行子信息元素的抽取,但 ...

  • 图解GPT-2(完整版)!

    Datawhale干货 译者:张贤, 哈尔滨工程大学,Datawhale原创作者 干货长文,建议收藏阅读,收藏等于看完. 审稿人:Jepson, Datawhale成员, 毕业于中国科学院,目前在腾讯 ...

  • 预训练语言模型关系图 必读论文列表,清华荣誉出品

    项目作者:王晓智.张正 预训练语言模型(PLM)是 NLP 领域的一大热门话题.从 BERT 到 GPT2 再到 XLNet,各种预训练模型层出不穷,不少同学感叹,「大佬慢点,跟不上了--」那么,这么 ...

  • ACL2020 | BART:为文本生成而生

    引言 大家好,我是卖铁观音的小男孩,今天分享给大家的是Facebook AI发表于ACL 2020的论文 BART: Denoising Sequence-to-Sequence Pre-traini ...

  • 回顾BART模型

    最近在生成相关论文时,经常看到使用BART(Bidirectionaland Auto-Regressive Transformers,双向自回归变压器)模型作为基线比较,或在BART模型上进行修改. ...

  • ENRIE:知识图谱与BERT相结合,为语言模型赋能助力

    来自:朴素人工智能 感谢清华大学自然语言处理实验室对预训练语言模型架构的梳理,我们将沿此脉络前行,探索预训练语言模型的前沿技术,红框中为已介绍的文章,绿框中为本期介绍的模型,欢迎大家留言讨论交流. E ...

  • 陈丹琦新作:关系抽取新SOTA,用pipeline方式挫败joint模型

    本文转载自:机器之心  |   编辑:魔王.小舟 端到端关系抽取涉及两个子任务:命名实体识别和关系抽取.近期研究多采用 joint 方式建模两个子任务,而陈丹琦等人新研究提出一种简单高效的 pipel ...

  • 综述 | 三大路径,一文总览知识图谱融合预训练模型的研究进展

    当前,预训练模型已是AI领域较为成熟的一项技术,但由于基于神经网络架构的模型本身不具有常识能力,在一些涉及逻辑推理和认知的任务上力有不逮. 近年来,知识图谱越来越受到人们的关注,知识图谱旨在提供一种复 ...