对话摘要简述

作者:哈工大SCIR 冯夏冲

对话摘要任务在近两年得到了工业界和学术界的广泛关注。随着社会的发展和通讯技术的进步,对话数据日益增多,并且迸发出不同的形式:会议、邮件、闲聊、讨论、辩论等等。不同形式的对话数据又有着自身的特点。对话摘要技术可以从复杂的对话数据中提取关键信息,从而大大降低理解对话数据的难度,更好地辅助下游任务。
本文核心围绕对话摘要展开,主要涉及三个方面:
  • 对话摘要的过去:对话摘要突然展露头角的“来龙去脉”;
  • 对话摘要的现在:对话摘要面临的挑战,现有工作如何解决,以及最新的ACL2021的相关工作;
  • 对话摘要的未来:对话摘要未来的发展趋势,以及可能的研究难点、热点。
1.对话摘要的过去

第一部分主要介绍摘要任务、摘要任务近两年的进展和热点、对话摘要任务的兴起、定义、发展背景和发展脉络。

摘要(Summarization)是自然语言处理领域一个经典的任务,其核心目的是从输入中选取关键信息,转为一段简短的概括。这一任务通常来讲包括两个部分,一个是内容选择,另一个是表面实现。如图中所示,给定一段新闻,通过摘要技术,可以生成一段简短的概括,该概括可以节省读者时间,帮助读者快速理解原文重要内容。如果想要了解更多摘要基础内容,可以参考我们之前的Blog:文本摘要简述
根据不同的分类准则,摘要任务可以分为不同的子任务。最常见的、也是大家最熟知的,根据摘要生成的方式,可以分为抽取式摘要和生成式摘要。除此以外,根据输入文档的多少,可以分为单文档摘要和多文档摘要;根据输入信息的模态,可以分为单模态摘要和多模态摘要;根据输入输出语言,可以分为单语言摘要和跨语言摘要;根据输入数据领域,可以分为新闻摘要、专利摘要、论文摘要、对话摘要等。除此以外,也可以有别的准则,例如短文本摘要和长文本摘要。就目前来讲,多文档摘要、多模态摘要、跨语言摘要和对话摘要都是当前的研究热点。如果对多模态摘要感兴趣,可以参考我们之前的Blog:多模态摘要简述
基于不同的任务形式,得益于不同的应用场景,摘要这一任务在近两年也是持续火热,我们对于一些主要的AI和NLP会议中的摘要论文进行了词云显示,得到了图中的结果:
  • AAAI 2020:由于是一个综合型的AI会议,所以多模态摘要研究较多;
  • ACL 2020:摘要的事实一致性研究异军突起,共出现了7篇论文,主要关注(1)如何评价生成摘要的事实一致性和(2)如何提升生成摘要的事实一致性。摘要的事实一致性研究也成为了从2020年至今最火热的研究方向之一,如果对于该方向感兴趣,可以参考我们的综述论文《The Factual Inconsistency Problem in Abstractive Text Summarization: A Survey》和Blog:事实感知的生成式文本摘要
  • EMNLP 2020:同样由于会议的性质,评价方面的工作较多,除此以外,多文档摘要和基于预训练的摘要也是研究的热点。
  • COLING 2020、AAAI 2021、NAACL 2021:可以发现,从COLING 2020开始,对话摘要出现在了大家的视野,并且一直持续。
我们在生成词云的时候做了一定的归一化,将dialogue、conversation、meeting等统一归一化为dialogue。那么对话摘要的具体形式是什么样子的呢?
对话摘要属于摘要任务的一种,其核心面向的是对话类数据,对话类数据又有着不同的形式,例如:会议、闲聊、邮件、辩论等等,不同形式的数据又各有特点。图中列举了一些简单的示例:
  • 会议摘要:关注会议中的大纲、决策、提问、计划等等核心内容,可以帮助参会者或者非参会者快速的回顾整个会议。会议摘要有一个专业的名字叫做”会议纪要“;
  • 闲聊对话摘要:帮助新加入者了解对话历史信息,快速加入聊天;
  • 医患对话摘要:主要总结四方面的信息:病人主观描述、医生客观观察和检查结果、医生诊断以及未来治疗计划。四个方面统称为SOAP,分别为四个部分英文字母的首字母。生成医患对话摘要可以有效的辅助医生完成电子病例。
除了上述举例之外,还有客服对话也是一类重要的对话数据,客服对话摘要也受到了滴滴等公司的关注。虽然不同形式的对话摘要在自己的特定领域有着不同的应用场景,但是他们的核心与摘要任务的核心是一致的,均为了捕捉对话中的关键信息,帮助快速理解对话核心内容。
在简单了解了对话摘要这一任务的形式之后,我们来分析一下为什么对话摘要这一方向突然的展露头角?
首先,我们认为对话摘要的发展是依托于自然语言处理发展大背景的。这里借助实验室车万翔教授做出的ACL 2010-2020研究趋势总结,其中提到两点:人机对话异军突起和文本生成强势上升。对话摘要这一任务刚好需要两方面技术的支撑,一方面,该任务面向对话类数据,另一方面,现有的摘要多关注生成式摘要,依赖于文本生成技术的发展。因此对话摘要在上述两个方向发展的大背景下崭露头角。
其次,聚焦于对话摘要任务本身,我们认为,一个方向的发展需要一个高质量的数据集作为支持。例如HotpotQA的出现推动了多跳推理的发展,在对话摘要这一方向亦是如此。EMNLP 2019,三星波兰研究院开源了首个大规模的人工标注的闲聊对话摘要数据集,直接推动了这一领域的快速发展,EMNLP 2020,佐治亚理工的Diyi Yang老师和Jiaao Chen博士在SAMSum数据集上实现了SOTA效果并开源了代码;微软的Chenguang Zhu老师在会议摘要数据集上实现了SOTA效果,并开源了代码,极大的方便了后续研究者跟进这一方向。从此以后,COLING、AAAI、NAACL涌现出了众多的对话摘要相关研究,一些研究关注数据集的构建,一些研究关注无监督的方法。直到最近的 ACL2021,虽然整个接收列表还没有放出,但是已经从arXiv和Github上可以看到5篇对话摘要相关的论文,足以证明这一方向已经为当下的研究热点。
对第一部分做一个阶段性总结。这本节,我们介绍了基本的摘要任务以及最近两年的发展,从而引出了对话摘要这一方向。接着我们介绍了对话摘要的任务形式,并分析了该方向崭露头角的背景原因及其自身的发展脉络。
2.对话摘要的现在
第二部分,我们将介绍目前对话摘要任务面临的挑战,以及现有工作如何解决这些挑战,最后将简单介绍目前已经放出的ACL2021对话摘要相关工作。
我们将对话摘要任务面临的挑战划分为三个层次:
  • 第一层为数据资源的挑战:该挑战可以认为是任务无关的,因为所有的任务都会面临数据资源稀缺的问题。
  • 第二层是对话建模的挑战:由于对话摘要任务面对的是对话类数据,如何建模对话数据,使得模型更好的理解对话文本对于生成对话摘要是十分重要的。
  • 第三层是领域特定的挑战:由于对话数据又体现为不同的形式,每种形式又有着自己的特点,如何更好的捕捉这些特征是很重要的。
我们首先介绍针对第一层挑战的相关工作。主要分为三类:(1)构造新的对话摘要数据集;(2)借助预训练的思想缓解数据不足的问题;(3)使用无监督方法。
如图所示,我们总结了现有大部分对话摘要数据集。其中AMI和ICSI是2003年左右提出的小规模会议摘要数据集,也是研究会议摘要任务的标准数据集。除了上述两个数据集以外,其余所有数据集均是近两年提出,覆盖了众多的领域,其中也不乏一些大规模数据集,例如在NAACL 2021,Chenguang Zhu等人提出的MediaSum。这些数据集中也包括了一些新颖的数据集,例如GupShuo是一种输入为两种语言的对话摘要数据集,LCSPIRT为中文报警对话摘要数据集。众多数据集的提出为这一方向奠定了扎实的基础,也为很多研究提供了机会。
虽然对话摘要数据比较稀缺,但是新闻摘要是一个研究长久的方向。例如新闻摘要常用数据集CNNDM便具有近30w的规模。因此Chenguang Zhu等人首先使用新闻数据预训练摘要模型,然后再使用会议数据进行微调。通过他们的消融实验可以看出,预训练起到了一定的作用。
上述方法使用新闻数据,可以视为一种领域外的数据。我们设计了一种数据增强策略,来构造伪造的领域内数据用于预训练模型。简单来讲,我们认为在会议中,一个问题往往会引起一段讨论,问题通常包含了讨论的核心要点内容,因此我们将问题视为伪造的摘要,讨论视为伪造的会议,从原始的会议数据集中构造了伪造摘要数据集。从表格可以看出,我们构造的数据集是原始数据集的20倍大小,一定程度上可以用于预训练我们的模型。更多细节可以参考我们的论文Dialogue Discourse-Aware Graph Model and Data Augmentation for Meeting Summarization和Blog:会议摘要有难度?快来引入对话篇章结构信息
解决数据不足的常见方法就是采用无监督的方式。Yicheng Zou等人在AAAI 2021发表了两篇工作研究无监督方式在对话摘要任务中的可行性,这里选取其中一篇进行介绍。该方法的核心是基于相似度选择对话主题句,然后借助降噪自编码器生成对话摘要。在训练部分,一方面,采用对比学习的思想训练句子相似度计算模型,另一方面,训练降噪自编码器用于后续生成对话摘要。在测试部分,基于MMR的想法,综合考虑重要性和冗余度选取对话主题句,然后使用降噪自编码器生成最终摘要。
提到对比学习,在AAAI 2019,刘知远老师已经采用了对比学习的思想训练摘要模型:DeepChannel: Salience Estimation by Contrastive Learning for Extractive Document Summarization。在ACL 2021,Pengfei Liu博士也探究了对比学习在摘要任务中的使用《SimCLS: A Simple Framework for Contrastive Learning of Abstractive Summarization》。
第二层挑战是对话建模的挑战。为了更好地理解对话,现有工作往往通过引入外部信息来更好的建模对话,例如:对话结构信息,主题信息等等。
第一种对话结构信息是:对话行为。对话行为指示了句子在对话中的作用与影响。Goo等人采用多任务学习的框架,一方面进行句子级别的对话行为标注任务,另一方面进行摘要生成任务,通过注意力机制,利用对话行为信息辅助摘要生成任务。值得一提的是,Goo等人将主题信息作为摘要,而不是采用真实的摘要。
另一种对话结构信息是:对话篇章结构信息。对话篇章结构信息指示了句子之间的交互关系,例如:问答、支持、反驳等。这种句子之间的交互关系是对话类型数据的显著特征。我们首先使用对话篇章结构解析器得到会议的对话篇章结构,然后我们借助图神经网络去显式的建模会议句子与篇章关系,整个摘要器为从图到序列的架构。更多细节可以参考我们的论文。
主题信息是对话摘要任务中研究较为广泛的一种信息,因为主题漂移是对话类数据的显著特征。一个对话往往会包含多个主题,对话摘要需要去捕捉每一个主题的核心内容。针对闲聊对话,Jiaao Chen等人从四个方面去建模对话文本,分别是:对话级别(将对话视为一个词语序列),句子级别(讲对话视为一个句子序列),主题级别(将对话视为多个主题段)和阶段级别(将对话视多个演化段)。除了主题级别建模,阶段级别代表了一个对话的演化过程。结合四种建模方式,最终完成摘要生成。
在医患对话中,主题往往体现为某一症状相关的内容,例如:头疼、肿胀等。Zhengyuan Liu等人在解码端采用两种注意力机制。一种是常见的词语级别的注意力机制,另一种是主题级别的注意力机制。其中,主题级别的注意力机制可以帮助模型在生成当前摘要句的时候关注于当前症状内容。
区别于其他类型的文本,对话类文本包括了说话人(参与者)。更好的建模说话人可以帮助模型理解对话类文本。Yuejie Lei等人设计了两种注意力机制,一种是同一说话人之间的注意力机制,另一种是不同说话人之间的注意力机制,然后通过超参结合两种表示。从而获得考虑说话人信息之后的增强表示。
在一段对话中,参与者往往通过自己的背景知识、常识知识去理解对话上文,从而做出回复。因此有很多工作已经证明了常识知识在对话回复生成和对话上下文建模中的有效性。我们探索了常识知识在对话摘要任务中应用。如图所示,通过“接我”和“车坏了”,可以推理得到“搭便车”这一背后蕴含的知识。因此引入常识知识可以帮助我们理解对话文本,生成更加抽象和凝练的摘要。我们通过ConceptNet引入知识,并将说话人,句子和知识视为三种不同类型的数据进行建模,最后实验证明了引入常识知识和异构性建模的有效性。更多细节可以参考我们的论文Incorporating Commonsense Knowledge into Abstractive Dialogue Summarization via Heterogeneous Graph Networks和Blog:融入常识知识的生成式对话摘要
除了文本模态的信息,多模态的信息也可以帮助我们更全面的理解对话数据。Manling Li等人研究了多模态会议摘要任务。其核心想法在于“当一个说话人在说话时,如果被其他人注视的时间越长,该说话人的信息越重要”,该特征被称为VFOA特征。因此首先训练一个VFOA特征抽取模型,然后将该视觉模态的表示与文本模态的表示相结合最终完成摘要任务。
通过以上工作可以发现,前人工作往往通过引入外部信息来增强模型对于对话的理解,其中关键词,冗余句和主题分割是三种被证明有效的信息。然而之前的工作往往通过一个开放域工具获得这些标注,或者采用人工标注的方式。为了缓解这个问题,我们提出了一种基于预训练语言模型的、无监督的对话标注器。通过该标注器,我们可以为现有对话补充额外的信息。然后利用标注之后的对话训练摘要模型。更多细节可以参考我们的论文《Language Model as an Annotator: Exploring DialoGPT for Dialogue Summarization》。
第三层挑战是领域特定的挑战,这部分主要关注不同类型的对话数据。
会议往往具有专业性,因此在会议用语中“领域术语”常常出现。例如在计算机NLP学术会议中,常常出现预训练语言模型等术语,在医学会议中,常常出现药物等术语。通常这些术语又是数据集中的低频词汇,因此很难被有效建模。Koay等人经过实验发现,会议中的领域术语对于摘要生成非常重要。
会议文本的另一特点是文本长度长,例如ICSI数据集的会议,平均长度为1w个词语。直接将所有输入词语视为平滑词语序列将耗费大量的内存,同时模型也无法很好地捕捉长距离依赖信息。因此Chenguang Zhu等人采用层次化Transformer架构,设计词语级别编码器和句子级别编码器来缓解这一问题。除此以外,Koay等人设计了一种滑动窗口机制来应对文本过长的挑战。将可以处理长序列的预训练模型(例如:Longformer,Big Bird等)应用于会议文本也是一种可行的方式。
客服对话属于一种面向任务的对话,它往往内含了一种特定的逻辑结构:用户提出问题,客服给予解答,用户表示赞同与否,对话结束。Chunyi Liu等人设计了一种从粗粒度到细粒度的生成模型,首先生成关键词语序列代表对话的内在逻辑,然后再生成详细的摘要。
在医患对话中,医生往往询问患者的病情情况。如图中所示,如果患者做出否定回答,那么只有将问题”请问你有过敏史“和回答”没有“同时考虑,才能生成正确的摘要,否则,如果忽略否定回答,现有的语言模型极有可能将问题解读为正向回答。Anirudh Joshi等人设计了一种注意力机制要求同时关注问题与否定回答,帮助生成更加精确的摘要。
虽然ACL 2021的论文接收列表还未放出,但是我们已经从arXiv和Github上看到了一些对话摘要相关的论文,在这里简要概述一下。
Yulong Chen等人提出了一个新的数据集,不同于之前的SAMSum是一种侧重于”书面“对话的摘要数据集,其核心点在于”口语“对话。
Kundan Krishna等人提出了一种”抽取-聚类-生成“的框架来生成医疗对话的摘要。
Chien-Sheng Wu等人提出了一种由粗粒度到细粒度的对话摘要生成方式,其首先生成对话梗概,然后再生成最终摘要。
Alexander R. Fabbri等人提出了四套数据集,分别涉及四个领域,并且整理了之前的工作作为未来研究的benchmark。
Chulaka Gunasekara等人提出从摘要生成对话,从而为对话摘要进行数据增强。

3.对话摘要的未来

在这一节,我们尝试预测对话摘要的未来研究趋势。
第一个未来趋势是多模态对话摘要,多模态对话摘要又分为两种:同步的多模态和异步的多模态。同步的多模态是指不同的模态信息可以对齐,这类场景往往发生在会议之中。通过模态间信息的互补,可以丰富会议的建模。但是此类研究可能会涉及到数据隐私性的问题,在当下,面部特征和声纹特征都是非常重要的个人隐私,因此很难拿到这类数据进行研究。那么一种可行的方法是采用联邦学习的方式来保护用户的隐私,同时还能完成这一任务。
对于异步的多模态,这类场景通常发生在闲聊之中,模态信息可以包括文本、图片、表情包(动态+静态)、视频、语音。随着各类数据的广泛使用,仅仅研究单一文本的对话摘要已经难以适配当前的真实生活场景,因此异步的多模态对话摘要将是一个重要的研究方向。由于涉及到表情包等信息,可能延伸出来的交叉方向还有情感分析等。
第二个可能的未来趋势是多领域对话摘要。从图中可以看出,即使是对话类数据,也是千差万别,各有特点,现有的研究多关注于单一领域的对话摘要,没有充分的利用不同领域的数据。
一种可行的解决方式是借助元学习,有效的利用不同领域的数据学习全局最优初始化,或者是基于预训练语言模型进行领域适配。
第三个未来趋势是新的任务形式。输入对话,输出摘要,这一单一的任务形式可能难以符合实际应用场景的需求。因此一些更加实用的任务将会成为未来的研究趋势。第一个是基于查询的对话摘要,用户可能只关心会议中某个特定的部分。在NAACL2021,Ming Zhong等人已经做出了探索,并开源了数据集以供后续研究者跟进。不同于之前单一的会议摘要,该任务首先给定会议以及查询,需要根据查询选择会议中的相关片段,然后再生成摘要。查询又分为两类,一种是通用查询,关注一些概括性的信息,另一种是特定查询,关注一些更为细节的信息。
第二个可能的新任务是个性化对话摘要。该任务旨在从用户对话历史中学习用户偏好,后续生成针对该用户偏好的对话摘要。举例来讲,通过历史对话,系统得知该用户对篮球感兴趣,那么当一段新的对话包括了多个话题时,个性化对话摘要将会生成篮球相关的摘要提供给用户。
第三个可能的新任务是任务特定的对话摘要。例如生成邮件对话中的TODO项。如图所示,一段对话主要在讨论预定会议室相关的内容,那么任务特定的对话摘要旨在生成该用户需要完成的任务。

4.总结

整体来讲,对话摘要并非凭空出现,一方面,其本身具有一定的研究基础,另一方面,基于对话系统和文本生成技术的发展,这一任务才崭露头角。众多数据集的提出进一步推动了该方向的发展。现有的对话摘要研究还处于初期阶段,任务形式较为单一,未来的对话摘要一定会迸发出不同的、更加实用的形式。其中,我们认为多模态对话摘要和多领域对话摘要将成为下一个研究热点。如果对于对话摘要这一方向感兴趣,可以阅读我们整理好的论文列表 : https://github.com/xcfcode/Summarization-Papers#dialogue ,本文slides可以从对话摘要最新进展简述(http://xcfeng.net/res/presentation/Dialogue_Summarization.pdf)获得。

本期责任编辑:刘 铭

本期编辑:张 馨
(0)

相关推荐

  • 关于NLP相关技术全部在这里:预训练模型、信息抽取、文本生成、知识图谱、对话系统

    我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习.其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越难找到好的学 ...

  • 语言模型微调领域有哪些最新进展?一文详解最新趋势

    选自ruder.io 作者:SEBASTIAN RUDER 机器之心编译 编辑:小舟 详解 2020 最具影响力的十大 ML.NLP 研究的 DeepMind 研究科学家又来了,这次来讲讲语言模型微调 ...

  • 文字生成视频,只需一步

    [CSDN 编者按]随着网络性能的不断提升,视频已经成为越来越多人获取信息.娱乐休闲的主要方式,与此同时也涌现出了不少视频的创作人员,他们将喜欢的人.事.物,以具有创意的视频形式呈现出来,这让和小编一 ...

  • BERT新转变:面向视觉基础进行预训练| NeurIPS 2019论文解读

    ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 论文作 ...

  • 预训练模型最新综述:过去、现在和未来

    ©PaperWeekly 原创 · 作者 | 王馨月 学校 | 四川大学本科生 研究方向 | 自然语言处理 BERT.GPT 等大规模预训练模型(PTM)最近取得了巨大成功,成为人工智能领域的里程碑. ...

  • 巨头们的618学术之战丨618 专题

    为了每年度上演不止一次的"线上春运"大戏,大厂们可谓是不遗余力. " 作者 | 青暮 每年618,不仅是巨头们比拼商业与工程能力的修罗场,也是学术之争的竞技舞台. 购物节 ...

  • 简述对话机器人类型

    对话机器人作为新一代人机交互的入口,近些年成为了各大巨头公司抢占的风口,阿里.百度.腾讯.小米也都纷纷推出了自家的智能音箱,本文将主要介绍一下对话机器人的类型. 一.按照技术实现方式可以分为检索式和生 ...

  • 《老子》~读书摘要

    《老子》~读书摘要

  • 对话高管 | 殷敏:凡是能满足患者需求的工作,阿斯利康都全力以赴

    在中国医药界,阿斯利康是先锋,也是"另类"."先"在自1993年进入中国以来,28年深耕中国市场,业务遍及全国各省市.地区,并在2013年以来,着手组建县域团队 ...

  • 各个时期景泰蓝特点及真伪鉴定简述

    珐琅器在传入中国后出现了两种分支,一种是源自波斯的铜胎掐丝珐琅,约在元朝传入中国,并在明代开始大量烧制,景泰年间达到了巅峰,因此后世称之为"景泰蓝",这之后景泰蓝就成了铜胎掐丝珐琅 ...

  • 《生命深处》创作对话录

    张从杰 : 这段时间,针对杨彩云老师的<生命深处>,我说了不少话. 以前是三个疑问,疑问端木槿为什么嫁给了马向东,疑问最后为什么不能和吴奎结合,疑问为什么就身患重病作别人生. 最近是三大质 ...

  • 内行与内行的对话(上)

    从2010年接触精油开始,关于精油的标准的疑问,就一直在脑子里没有被解决过. ☞ 什么样的精油是好精油? ☞ 好精油应该有哪些标准? ☞ 这些标准又从哪里来? ☞ 那么对应到芳疗应用中,符合标准的精油 ...

  • 六爻测病用神怎么断,六爻测病六神代表什么,六爻测病断言断卦方法简述。

    ​青龙--酒色虚弱.朱雀--狂言乱语.勾陈--胸满肿胀.螣蛇--坐卧不安.白虎--跌打损伤.玄武--色欲阴虚. 鬼位三爻旺空,腰疾.动而不空,临日,冲克世爻,闪腰. 鬼居间爻,胸膈肿痛.鬼爻持世,原有 ...

  • 亚特兰蒂斯之谜?柏拉图早在著名的对话中有着详细记载

    亚特兰蒂斯之谜?柏拉图早在著名的对话中有着详细记载 我们现在人都知道,当今世界有五大洲,可是或许有人想过,难道地球上除了周五的时候就没有第六大洲了吗? 事实上在许多人的心目中,地球上确实存在过第六大洲 ...

  • IS-2重型坦克简述-1

    对抗"虎"式坦克的产物 战争就是这样,敌方出现了一种新兵器,我方就要研制出更新的兵器来对付你.这一点在第二次世界大战期间,表现得尤为突出. 在二战期间中型和重型坦克的较量中,苏联和 ...