ACL 2021 | 知识引导的事件因果关系数据自动生成框架
研究介绍
图1 知识库中的因果相关事件
本章设计了知识引导的事件因果关系数据自动生成框架 (Learnable Data Augmentation framework, LearnDA),利用对偶学习机制,将事件因果关系识别器和数据生成器对偶约束,从识别过程中学习如何生成任务相关的新句子,从生成过程中学习如何更准确地理解因果语义学习,生成高质量表达事件因果语义的新训练数据。
本章基于两个常用公开数据集,EventStoryLine和Causal-TimeBank,评估KnowDis和LearnDA生成的新训练数据对于ECI任务的有效性。
方法介绍
模型总体结构
可学习对偶数据增强框架
图5 可学习对偶数据增强框架
知识引导的约束性生成器
图6 知识引导的约束性生成器示意图
整体算法流程
实验结果
LearnDAFull优于其他对比方法,在ECI任务上取得了最好的性能,两个数据集上的F1值为52.6%和51.9%。进一步发现,LearnDAFull比不基于BERT的模型,ILP/VR-C,和基于BERT的模型,MM/KnowDis,在两个数据集上的F1值分别高出7.9%/8.7%和2.5%/2.1%,证明了其有效性。此外,基于BERT的方法具有较高的召回值,这得益于更多的训练数据及预训练使用的大量无标注数据中的事件相关知识。
通过对比KnowDis和LearnDAFull的结果,可以发现,基于外部知识库中抽取的因果相关知识,LearnDA生成的训练数据比远距离监督标注的数据更有助于提升ECI的性能,在两个数据集上的F1值分别提升2.9%和2.1%。这表明LearnDA可以生成更多高质量的ECI任务相关的训练数据。
通过比较MM+ConceptNet和MM的结果,在相同的知识库下,LearnDA生成的数据可以进一步提高MM在ECI任务上的性能,在两个数据集上的F1值分别提升0.8%和2.8%,这说明LearnDA可以通过生成与任务相关的训练数据来更有效地利用外部知识。
比较MM+Aug和MM,可以注意到,使用LearnDA生成的数据进行训练可以进一步提高MM在ECI任务上的性能,在两个数据集上的F1值分别提升1.4%和3.9%。需要注意的是,MM是基于BERT-Large框架构建的,模型参数更多,训练规模更大,但新生成的数据仍然可以进一步提升其性能,这说明LearnDA可以有效缓解ECI任务训练数据缺失问题。
在识别器上的有效性:通过比较表2中LearnDADual和BERT的实验结果,可以注意到,仅仅使用标注的训练数据,经过对偶学习,ECI任务的性能提高了2.6%。这表明,通过对偶学习,识别器可以从生成过程中学习到更丰富的因果语义表达。
在生成器上的有效性:通过比较表2中BERTDualAug和BERTOrgAug的实验结果,可以注意到对偶框架生成的数据具有较高的质量,对ECI任务更有帮助,性能也提高了2.6%。这表明,通过对偶学习,生成器可以从识别过程中学习,生成ECI任务相关的数据。
LearnDA的可学习性:图7阐明对偶训练轮次对ECI任务在ESC数据集上性能的影响。其中,在每一轮中,使用当前轮生成器生成的新训练数据深入训练识别器。通过实验结果可以观察到,随着对偶训练轮次的增加,生成器可以逐步从识别过程中学习任务相关的信息,生成更加任务相关的数据,从而进一步提高ECI任务的性能。
LearnDA生成数据的有效性
表4 生成数据的有效性
LearnDA生成数据的质量
结语