ACL 2021 | 知识引导的事件因果关系数据自动生成框架

AI科技评论今天介绍一篇发表于自然语言处理领域顶级会议ACL 2021的论文《LearnDA: Learnable Knowledge-Guided Data Augmentation for Event Causality Identification》
本论文由中国科学院自动化研究所赵军课题组与百度合作完成,论文第一作者为该课题组博士生左新宇
本论文关注事件关系抽取中的训练数据缺失问题,提出一个知识引导的事件因果关系数据自动生成框架,该框架利用对偶学习机制,基于引入的因果相关事件,将事件因果关系识别器和数据生成器对偶约束,生成高质量的训练数据,提升事件因果关系识别的性能。
作者介绍:左新宇,中国科学院自动化研究所模式识别国家重点实验室,赵军研究员课题组博士生,今年毕业入职腾讯,研究方向为自然语言处理、信息抽取、事件关系抽取和知识图谱等,在ACL/COLING等NLP领域国际会议和期刊中发表论文6篇。
论文链接:https://arxiv.org/abs/2106.01649
1

研究介绍

事件因果关系识别(Event Causality Identification, ECI)旨在识别文本中事件之间的因果关系,可以为许多自然语言处理(Natural Language Processing, NLP)任务提供重要线索,如逻辑推理、问答系统等。ECI任务通常被建模为一个分类问题,即识别一个句子中两个事件之间是否存在因果关系。例如,ECI系统需要在下述句子中识别“袭击”事件和“丧生”事件间的因果关系:“基马尼·格雷是一名喜欢足球的年轻人,一场激烈的比赛后不久,他在警方的袭击中丧生。”
目前大多数ECI方法采用监督学习的范式。虽然这些方法取得了很好的性能,但通常需要大规模的标注训练数据。然而,现有的事件因果关系识别数据集规模小。从认知角度到语言学角度,因果关系的定义没有统一的框架,导致现有事件因果关系识别数据集规模相对较小,根据统计,该任务最常用的EventStoryLine数据集只包含258篇文档,4316个句子和1770个因果事件对。
这些小规模的标注数据集阻碍了高性能事件因果关系识别模型的训练,无法提供充足的训练数据支撑模型准确理解文本中的事件关系语义。
因此,训练数据缺失是事件因果关系识别需解决的重要问题。

图1 知识库中的因果相关事件

ECI任务需求的训练句的核心是两个因果相关的事件,本章定义这种特性为“因果性(causality)”,例如,“袭击”事件和“死亡”事件是因果相关的,而“袭击”事件和“出生”事件之间几乎没有因果相关性。因此,如何获取大量不同的因果相关事件,是该任务生成新训练数据的基础问题。幸运的是,现有的知识库中有大量因果相关的知识,可以为因果相关事件的获取提供充足的资源。
如图1所示,从不同的知识库中获取事件相关因果知识有三种方式:
1、通过词汇知识扩展数据集中标注的因果相关事件,获得新的因果相关事件。例如,通过WordNet中的同义词拓展、通过VerbNet中的动词类别拓展等;
2、从概念知识中提取因果相关三元组,获得新的因果相关事件,如ConcepNet;
3)通过因果连接词从外部文档引入新的因果相关事件。例如,PDTB2中的表征因果话语关系的连接词和KBP数据集等外部规范文档。
图2 两种事件因果关系数据增强方法示意图
但是,仅仅有因果相关的事件并不能作为完整的训练数据,还需要符合语言规范的上下文来表达事件因果语义。本章定义这种特性为“规范性(well-formedness)”,包括,a)符合语言规范的句法,b)符合逻辑的、具有语义角色的事件相关实体,和c)表达完整因果语义的衔接词。
因此,如何为因果相关事件构建符合语言规范的因果句,是为ECI任务生成新训练数据的关键。直观来看,如图2所示,有两种方法可以生成ECI任务相关的新训练数据:
1)远距离监督:从已标注事件的相关文档中找到表达因果相关事件因果语义的句子;
2)约束性生成:基于因果相关事件生成表达其因果语义的句子。为此,探索了一个知识融合的数据增强方法,利用大量抽取的因果相关事件生成新训练数据,解决ECI任务训练数据缺失问题。该方法包含两个框架,知识增强的事件因果关系数据自动标注框架和知识引导的事件因果关系数据自动生成框架。
其中前者已经发表在COLING 2020中,后者为本文档解读的论文中提出的框架。
图3 ECI任务数据示例
通过分析发现,自动标注的训练数据质量相对不高,并且包括远距离监督在内的多数自然语言处理数据增强方法都是独立于任务的框架,一次性产生所有新训练数据。在这些框架中,数据生成和目标任务独立建模,导致生成的数据缺乏与任务相关的特征,如语言表达和知识。例如,Easy Data Augmentation (EDA)是目前最具代表性的数据增强方法,基于词语替换、删除、交换和插入产生新数据。如图3所示,S3是EDA基于S1通过删除操作生成的ECI任务新数据,但是缺少符合语法规范的上下文表达“丧生”事件和“袭击”事件之间的因果语义。因此,为交互建模数据增强与ECI任务,生成更高质量的、具有任务相关特征的新训练数据,本章还提出知识引导的事件因果关系数据自动生成框架 (Learnable Data Augmentation framework, LearnDA),利用对偶学习机制,将事件因果关系识别器和数据生成器对偶约束,从识别过程中学习如何生成任务相关的新数据,从生成过程中学习如何更准确地理解因果语义,生成高质量表达事件因果语义的新训练数据。
具体来说,一方面,LearnDA是知识引导的,基于从不同知识库中抽取的因果相关事件初始化对偶生成过程,这保证了生成新数据的“因果性”。例如,利用知识库中的“判决”和“示威”间因果相关的知识可以构建一个新的因果句,可帮助理解“声明”和“抗议”间的因果关系。另一方面,LearnDA是可学习的,利用约束性生成策略,在对偶交互中通过迭代学习生成具有“规范性”的上下文,在生成的句子中表达因果相关事件间的因果语义。从方法角度说,约束性生成是在给定事件和相关实体为条件下,逐步填补句子中剩余的缺失衔接词。
综上所述,针对上述问题,该论文的主要贡献如下:
  1. 本章设计了知识引导的事件因果关系数据自动生成框架 (Learnable Data Augmentation framework, LearnDA),利用对偶学习机制,将事件因果关系识别器和数据生成器对偶约束,从识别过程中学习如何生成任务相关的新句子,从生成过程中学习如何更准确地理解因果语义学习,生成高质量表达事件因果语义的新训练数据。

  2. 本章基于两个常用公开数据集,EventStoryLine和Causal-TimeBank,评估KnowDis和LearnDA生成的新训练数据对于ECI任务的有效性。

2

方法介绍

知识库因果相关事件抽取
LearnDA通过三种方式从多个知识库中抽取高概率因果相关的事件,保证生成新训练数据的“因果性”——1)词典知识拓展;2)连接知识引入;3)概念知识引入。
其中由于概念关系知识和事件知识相关性相对较弱,得到的新事件只用于事件过滤,不用于下一步的句子生成。表1列举了如何从各个知识库中抽取新的因果相关事件,表2说明了为什么新抽取的事件是因果相关的。
上述方式初步抽取的新事件比较粗糙,很多因果相关性并不强,因此,受启发,本章构建因果表示空间,将由抽取的新事件组成的事件对转化为<事件1,因果相关/非因果相关,事件2>形式的三元组,通过单层神经网络将事件和关系映射为因果表示空间中的向量表示,并通过最大化下述目标函数计算三元组中两个事件的“因果距离”,优化相应的事件和关系表示:
在优化后的因果表示空间中,因果相关性越高,三元组中两个事件之间的距离越短。最终,基于事件间表示向量的在空间中的距离对三元组进行升序排序,得到最终新抽取的因果/非因果相关事件,供下一步句子生成使用。
知识引导的事件因果关系数据自动生成框架
  • 模型总体结构

图4 知识引导的事件因果关系数据自动生成框架 (LearnDA)
如图4所示,LearnDA通对偶学习联合建模知识引导的约束性句子生成器和事件因果关系识别器。LearnDA迭代地优化识别器和生成器,生成与任务相关的新训练数据,然后利用新数据进一步训练识别器。
  • 可学习对偶数据增强框架

可学习对偶数据增强框架的体系结构如图5所示。其中I表示事件因果识别器,G表示由两个独立的生成器组成的句子生成器,根据输入事件对ep中两个事件的因果或非因果关系c生成因果句或非因果句。

图5 可学习对偶数据增强框架

具体来说,生成器G生成句子s'表达输入事件对ep中两个事件的因果或非因果关系c,接收一个表征目前系统输出质量的奖励R,其由表征生成器本身输出质量的语义对齐奖励Rs和表征识别器I输出质量的因果性奖励Rc组成 (原始环, primal cycle)。同样,识别器I基于输入的句子s识别输入事件对ep中两个事件的因果关系或非因果关系c',接收一个奖励R,其由表征识别器本身输出质量的因果性奖励Rc和表征生成器G输出质量的语义对齐奖励Rs组成 (对偶环, dual cycle)。
其中,LearnDA引入了两种奖励,因果性奖励 (Rc) 和语义对齐奖励 (Rs),激励生成器G根据识别器输出质量的奖励反馈生成与任务相关的句子,同时利用生成器输出质量的奖励反馈进一步优化识别器I的识别性能。定义如下:
因果性奖励(Rc):如果生成的句子能够清晰地表达输入事件对中事件间的关系,则识别器会更容易理解句子表达关系语义。因此,使用因果关系分类的准确性作为因果性奖励作为评估当前系统生成句子的质量的反馈之一,同时对识别器本身进行调整和优化。
语义对齐奖励(Rs):我们希望生成句子的语义能够与输入事件对中事件间的关系保持一致。此外,如果能更准确地分类输入事件的关系,则可以认为新生成句子的语义与输入的关系更有可能保持一致。因此,通过生成与输入关系语义相似句子的概率来衡量语义对齐的程度,定义语义对齐奖励。
  • 知识引导的约束性生成器

图6 知识引导的约束性生成器示意图

如图6所示,知识引导的约束性生成器 (Knowledge Guided Constrained Sentence Generator, KCSG) 基于从多个知识库中抽取的因果/非因果相关事件,使用一个约束性生成架构生成包含给定事件并表达其因果/非因果关系语义的句子。
具体来说,给定因果/非因果相关事件,约束性句子生成器通过以下三个阶段生成具有“规范性”的新数据:1)相关实体分配,确保句中参与事件不同语义角色的实体逻辑性合理,2)句子补全,确保句子因果或非因果关系语义表达的完整性,3)句子过滤,确保生成句的质量和多样性。
  • 整体算法流程

3

实验结果

实验数据
论文在两个常用公开数据集上验证新生成训练数据的有效性:1) EventStoryLine v0.9 (ESC):包含258篇文档,4316个句子和1770个因果事件对;2) Causal-TimeBank (Causal-TB):包含184个文档,6813个事件,318个因果事件对。
实验对比模型
现有的事件因果关系识别方法在不同的数据集上进行实验,所以对于ESC和Causal-TB数据集,分别选择不同的对比模型进行比较。
对于ESC数据集,本章选择,1) LSTM,一个基于依赖路径的序列神经网络模型,对事件间的上下文进行建模,识别因果关系;2) Seq,一个基于复杂设计特征的序列神经网络模型;3) LR+和ILP:建模文档主题结构特征的模型。对于Causal-TB数据集,本节选择,1) RB,一个基于规则的系统;2) DD,一个基于数据驱动的机器学习系统;3) VR-C,一个基于动词规则、数据过滤和标注因果信号的模型,这些模型是由提出的。
此外,由于提出的模型是基于BERT构建的,所以进一步与基于BERT构建的方法进行比较:
1) BERT,本章提出的基础事件因果关系识别器,仅仅用标注数据训练,且没有使用Gao中使用的特征,这是一个强基线对比模型;
2) MM,基于BERT构建的事件屏蔽上下文泛化表示的模型;
3) MM+Aug,用LearnDA生成的新数据进一步训练MM;
4) KnowDis:用本章提出的知识增强的事件因果关系数据自动标注框架生成的新数据训练模型,与之比较说明LearnDA生成的新数据更加高质量且与任务相关;
5) MM+ConceptAug,MM中也引入了Concept概念知识,为了进行公平比较,本节仅使用Concept概念知识生成新数据进行实验比较。具体来说,先通过KonwDis回标事件对应的原始句,再通过LearnDA生成新句,进一步训练MM;
6) LearnDAFull表示LearnDA的完整模型,即先通过对偶训练,再基于对偶生成的新数据进一步训练识别器。
主实验结果及分析
表1列举LearnDA和其他对比方法的实验结果,*代表多次独立实验结果的均值,经过显著性检验,p<0.05。通过观察,得到以下结论:
表1 主实验结果
  1. LearnDAFull优于其他对比方法,在ECI任务上取得了最好的性能,两个数据集上的F1值为52.6%和51.9%。进一步发现,LearnDAFull比不基于BERT的模型,ILP/VR-C,和基于BERT的模型,MM/KnowDis,在两个数据集上的F1值分别高出7.9%/8.7%和2.5%/2.1%,证明了其有效性。此外,基于BERT的方法具有较高的召回值,这得益于更多的训练数据及预训练使用的大量无标注数据中的事件相关知识。

  2. 通过对比KnowDis和LearnDAFull的结果,可以发现,基于外部知识库中抽取的因果相关知识,LearnDA生成的训练数据比远距离监督标注的数据更有助于提升ECI的性能,在两个数据集上的F1值分别提升2.9%和2.1%。这表明LearnDA可以生成更多高质量的ECI任务相关的训练数据。

  3. 通过比较MM+ConceptNet和MM的结果,在相同的知识库下,LearnDA生成的数据可以进一步提高MM在ECI任务上的性能,在两个数据集上的F1值分别提升0.8%和2.8%,这说明LearnDA可以通过生成与任务相关的训练数据来更有效地利用外部知识。

  4. 比较MM+Aug和MM,可以注意到,使用LearnDA生成的数据进行训练可以进一步提高MM在ECI任务上的性能,在两个数据集上的F1值分别提升1.4%和3.9%。需要注意的是,MM是基于BERT-Large框架构建的,模型参数更多,训练规模更大,但新生成的数据仍然可以进一步提升其性能,这说明LearnDA可以有效缓解ECI任务训练数据缺失问题。

可学习对偶数据增强的有效性
在表2中,BERTOrgAug和BERTDualAug分别表示BERT模型在非对偶生成数据和对偶生成数据上的进一步训练。LearnDADual表示识别器只经过对偶训练而不使用新生成数据深入训练。LearnDADualAug-w/o.KB表示在没有知识引导的情况下,只基于标注数据中的因果相关事件生成新数据深入训练LearnDADual。LearnDADualAug-w/.<kb> 表示LearnDADual基于数据库kb中抽取的因果相关事件生成新数据深入训练LearnDADual。
本论文在ESC数据集上分析了可学习对偶数据增强在ECI任务上的有效性,通过观察实验结果,可以得到以下主要结论:
表2 消融实验结果
  1. 在识别器上的有效性:通过比较表2中LearnDADual和BERT的实验结果,可以注意到,仅仅使用标注的训练数据,经过对偶学习,ECI任务的性能提高了2.6%。这表明,通过对偶学习,识别器可以从生成过程中学习到更丰富的因果语义表达。

  2. 在生成器上的有效性:通过比较表2中BERTDualAug和BERTOrgAug的实验结果,可以注意到对偶框架生成的数据具有较高的质量,对ECI任务更有帮助,性能也提高了2.6%。这表明,通过对偶学习,生成器可以从识别过程中学习,生成ECI任务相关的数据。

  3. LearnDA的可学习性:图7阐明对偶训练轮次对ECI任务在ESC数据集上性能的影响。其中,在每一轮中,使用当前轮生成器生成的新训练数据深入训练识别器。通过实验结果可以观察到,随着对偶训练轮次的增加,生成器可以逐步从识别过程中学习任务相关的信息,生成更加任务相关的数据,从而进一步提高ECI任务的性能。

图7 对偶训练轮次对 ECI 性能的影响
知识引导的有效性
表2也基于ESC数据集说明了基于不同知识库中抽取的因果相关事件生成的数据对ECI的影响,通过观察实验结果,可以得到以下主要结论:
1)对比LearnDAFull和LearnDADualAug-w/o.KB的实验结果,可以注意到基于外部知识库中因果相关事件生成的数据可以进一步提高ECI的性能;
2)具体而言,词典知识扩展和连接知识引入两个方式抽取的因果相关事件都可以引入更多的因果信息,使识别器更容易理解事件的因果关系;
3) 此外,词典知识扩展比连接知识引入更有效,因为前者带来的因果知识范围更广,引导效果也会更好。
LearnDA与其他数据增强方法对比
本论文将LearnDA与NLP相关的数据增强方法比较,进一步说明其有效性。
  • LearnDA生成数据的有效性

本论文使用不同的自然语言处理中常用的数据增强模型生成新数据,训练ECI模型,在ESC数据集上验证LearnDA生成数据的有效性。如表3所示,LearnDA生成的数据对ECI模型性能提升的更明显,这与前面的实验分析一致,新数据更规范、更具有任务相关性。
具体而言,1)文本表层转换方法产生的数据相对于原始数据变化小,对ECI任务性能影响相对较小;2)逆翻译方法通过多语言间的翻译生成的新因果表达很有限,因此仅提升一点召回率,整体影响也相对较小;3)词语替换可以通过替换词语引入新的文本表达,但生成的数据不规范,不能准确表达因果关系,因此对ECI任务性能影响也有限。

表4 生成数据的有效性

  • LearnDA生成数据的质量

本论文选取5名自然语言处理领域的博士生,对不同数据增强方法生成的数据随机抽取的100个进行手工评分(分值范围为1-4分),并给出相应的原句作为参考 (Cohen’s kappa = 0.85)。此外,引入BLEU值作为自动评价指标进一步评价数据的多样性。如前所述,对于ECI任务,数据的任务相关性表现为因果性和规范性,多样性体现数据中文本表达的泛化程度。
具体来说,通过观察表 4中的数据,可以注意到LearnDA生成的句子同时具有上述三个属性,并且与标注数据的质量非常接近。此外,基于外部知识辅助的词语替换,EDA产生的句子具有一定的因果性和多样性。但由于语法上的不规范,不能很好地表达因果关系。相应地,逆翻译产生的句子与原句子非常相似,这导致多样性较差。
表4 生成数据的质量
4

结语

为了解决事件因果关系识别中训练数据缺失问题,本论文提出一个知识引导的事件因果关系数据自动生成框架,该框架利用对偶学习机制,基于引入的因果相关事件,将事件因果关系识别器和数据生成器对偶约束,生成高质量的训练数据,提升事件因果关系识别的性能。
具体来说,生成器可以从事件因果关系识别过程中学习到如何生成高质量的数据,识别器也可以通过数据生成过程学习到哪些表述蕴含了因果语义。在国际公开的数据集上的实验结果表明,新生成的训练数据可以有效提升事件因果关系识别的性能。
(0)

相关推荐