ACL 2019 | ERNIE:利用信息化实体增强语言表示
在本论文中,作者利用大规模文本语料库和知识图谱来训练一个增强语言表示模型(ERNIE),该模型可以同时充分利用词汇、句法和知识信息。实验结果证明ERNIE1在各种知识驱动的任务中实现了效果的显著提升,同时,在其他常见的NLP任务中和最先进的模型BERT不相上下。
论文题目:ERNIE:Enhanced Language Representation with Informative Entities
论文作者:Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, Qun Liu
论文原文:https://arxiv.org/pdf/1905.07129.pdf
论文背景
虽然预训练语言表示模型取得了可喜的成果并且在许多NLP任务中被用作常规组件,但它们忽略了可以合并知识信息来增强语言理解。如下图所示,如果不知道Blowin’ in the Wind和Chronicles:Volume one分别是歌曲和书,那么就很难识别出Bob Dylan有两个职业分别是作曲家和作家。在关系分类任务中提取细粒度关系几乎是不可能的,例如作曲家和作者。
为了将外部知识纳入语言表示模型,我们提出了用信息实体来增强语言表示的方法,这个方法利用大规模文本语料库和知识图谱来预训练一个语言表示模型。下图为该模型的总体示意图:
论文模型
ERNIE的整体模型架构由两个堆叠的模块组成:
1)基础文本编码器(T-Encoder)
2)上层知识编码器(K-Encoder)
其负责将额外的面向token的知识信息集成到基础层的文本信息中,这样就可以将token和实体的异构信息表示到一个统一的特征空间。
对于token如果存在对应的实体,可以按照上述的公式计算,如果token没有对应的实体,信息融合层就按照如下公式计算输出而没有集成。
经过简化,第i个聚合器的操作可以表示为:
tokens和实体的最终输出将由最高层的聚合器产生,而这个最终的输出也将作为编码器K-Encoder的最终输出。
3)注入知识的预训练
和BERT类似,ERNIE也采用了MLM和NSP作为预训练任务,这使得ERNIE能够从文本中根据token捕获词汇和句法信息。整体的预训练损失是dEA,MLM和NSP各损失之和。
实验结果
本文模型分别在两个任务上和各beseline进行对比。对Entity Typing任务在FIGER和Open Entity两个数据集上做了实验,通过accuracy,loose macro,loose micro scores来评价,结果如下所示。
对Relation Classification任务在FewRel和TA-CRED两个数据集上做了实验,通过precision,recall,micro F1来评价,结果如下所示。