【NLP】如何利用BERT来做基于阅读理解的信息抽取
信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成计算机能够处理的结构,实体抽取、关系抽取、事件抽取等都属于信息抽取的范畴。在NLP领域,信息抽取的应用场景十分的广泛,是一个非常重要的基础任务。
作者&编辑 | 小Dream哥
1 传统的信息抽取
信息抽取是将非结构化的信息转化为结构化信息的过程,可以分为三类:
命名实体识别(NER):从文本中抽取人物、机构、文件名等实体。
关系抽取(RE):得到实体后,抽取实体间的关系,一般抽取得到一个(实体,关系,实体)的三元组。
事件抽取:抽取多个实体和事件关系,一般得到一个trigger和多个arguments的多元组。
很多时候,信息抽取会包括上面的几种,例如上面的三元组抽取,会包括实体抽取和关系抽取。传统的做法包括pipline和joint方法:
pipline方法:先抽取实体再抽取关系,就像一个流水线一样。这种方法容易在关系抽取时引入实体抽取时的误差,从对整体效果造成不好的影响。
joint方法:即通过类似于端到端的方法,一次性抽取出实体和关系,避免误差的累积。
但是上述两种方法都无法处理一些复杂的问题,例如,“乔布斯在1977年至1983年担任了苹果公司的CEO,在1986年至1996年担任皮克斯动画工作室的CEO”。这里存在7个实体,相互间都有关系,非常复杂。传统的信息抽取方法难以处理。
今天我们介绍基于阅读理解的信息抽取,能够较好的处理一些复杂的问题,特别是在抽取一些比较长的信息时,效果比较明显。
2 基于阅读理解的信息抽取
赞 (0)