【ACL 2019】基于单句和双句打分的生成式摘要

在生成摘要的过程中,除了需要对单个代表性句子进行压缩或改写,还需要考虑多个句子的信息融合,尤其是两个句子(即 Sentence Pair)的信息融合。本文提出了一种对单个句子和句子进行联合打分的方法,用来筛选代表性的句子或句子对。同时探索了多种句子表示方式,并报告了详细的实验结果。

论文题目:Scoring Sentence Singletons and Pairs for Abstractive Summarization

论文作者:Logan Lebanoff,Kaiqiang Song,Franck Dernoncourt,Doo Soon Kim,Seokhwan Kim,Walter Chang,Fei Liu

论文链接:https://arxiv.org/pdf/1906.00077.pdf

01

研究背景

生成式摘要(Abstractive Summarization)的目标是对输入的一篇文档生成一段较短的摘要,以概括原文档的内容。为了提高生成质量,已有的一些方法会先从原文中抽取一些代表性的句子,然后再基于该句子集合使用 seq2seq 模型进行改写,从而得到生成的结果。本文作者认为,在生成摘要的过程中,除了需要对单个代表性句子进行压缩或改写,还需要考虑多个句子的信息融合,尤其是两个句子(即 Sentence Pair)的信息融合。作者给出了三个摘要数据集(XSum,DUC04,CNN/Daily Mail)中的统计信息以验证其猜想,如下图所示,可以看到有相当数量的摘要是通过融合两句话得到的。

基于这个观察,本文提出了一种对单个句子和句子进行联合打分的方法,用来筛选代表性的句子或句子对。本文探索了多种句子表示方式,并报告了详细的实验结果。

02

主要方法

本文将单个句子和由两句话组成的句子对统称为实例(Instance)。句子对不要求相邻,所以对于一篇有 N 句话的文档,其实例数量为

。本文的方法分两个阶段,阶段一是对文档中所有实例进行打分,阶段二是对得分高的实例进行压缩和转写。下面将分别介绍这两个阶段。

在阶段一中,为了对实例打分,需要先将每个实例表示为一个向量,然后基于向量表示来预测实例的得分。作者使用 BERT 模型来表示实例,由于在摘要任务中句子出现的顺序会影响句子的重要程度(如文档开头的句子往往比较重要),所以作者将句子的位置作为一个新的输入引入到 BERT 模型中:

其中

分别对应BERT 中的 token 表示、segment 表示、词的位置表示,

是作者引入的句子位置表示。在经过多层的 Transformer 之后,使用最后一层[CLS]标签对应的隐向量作为整个序列的表示,用

来预测该序列的得分。在训练阶段,作者会从所有的实例中选出与 ground-truth 摘要最接近的作为正例,其余的作为负例。除了使用 BERT 来表示实例之外,作者还使用了一种基于 TF-IDF的稀疏表示作为基线方法,在本文中该表示方法称为 VSM。

在阶段二中,作者使用 MMR方法对高分实例去除冗余,公式如下:

式子中 I 表示实例在阶段一的得分,R 表示实例跟已选出的实例集合的冗余度。初始时集合 S 为空,然后逐步选取得分最高的实例加入到 S 中,最终得到一个没有冗余的高分实例集合。作者使用已有的摘要模型 Pointer-Generator 对该集合中的每一个实例进行压缩和转写,得到最终的生成结果。整个流程如下图所示:

03

实验结果

本文在三个数据集上做了实验,分别是DUC04,CNN/Daily Mail,XSum。本文对两个阶段的结果分别进行了评价。阶段一的抽取结果通过precision、recall、f1 score来评价,结果如下表所示:

阶段二的摘要生成结果用 Rouge 值来评价,结果如下表所示:

学术头条已建立微信交流群,想进群的同学请加学术君微信:AMiner308,记得备注:名字+单位/学校噢!

分享干货

(0)

相关推荐

  • 论文出刊一般多久收录

    发表论文只有文章被收录才是对文章学术价值的最终认可,尤其在一些晋升考核中,文章被检索收录是关键的考核指标,文章仅仅见刊还不符合最终标准,论文被检索时需要一定时间的,论文出刊一般多久收录?不同类别刊物所 ...

  • 论文发表先写摘要还是正文

    论文发表先写摘要还是正文?摘要和正文都是论文的关键部分,摘要是文章核心内容的提炼,正文自然就是文章的核心内容了,先写作哪一个主要看作者的写作习惯,有作者习惯先写正文的,也有习惯先写作摘要的. 按照学术 ...

  • 期刊论文摘要一般多少字

    摘要是论文正文中的第一部分,通常发挥着统领全文的作用,合格摘要中心明确.简明扼要,读者通过阅读简短的摘要就可以清楚的了解文章的核心内容,况且读者接触文章正文首先看的就是摘要,所以文章摘要的写作至关重要 ...

  • 论文摘要中能用第一人称吗

    论文摘要中能用第一人称吗?学术论文是客观严谨的学术成果,不单单是文章的摘要部分,学术论文全文都应当避免使用第一人称,如果文章有致谢部分,这部分的写作是可以以第一人称来写作的,除此之外应当杜绝第一人称. ...

  • 明天正式揭晓!2019年诺贝尔文学奖双得主,会是中国作家残雪吗?

    环女带你环球游,不错过每一件女性新鲜事. 明天,2019年诺贝尔文学奖就要揭晓了. 热门人选里,出现了一位中国作家,叫做残雪 她不仅在获奖赔率榜上,与知名"陪跑运动员"村上春树并列 ...

  • (7条消息) Visual Studio 2019 基于Linux平台的C++开发

    由于很多unix特有的函数无法在Windows上使用,而Vim又用的不太顺手,突然想到最初用vs的时候有一个基于Linux的C++开发.在网上找了很多教程后,发现还是官方的教程比较详细,不过其中也有一 ...

  • 从 ACL 2019 看 NLP 未来发展趋势

    随着自然语言处理领域的顶级盛会 ACL 2019 落幕,亚马逊 Alexa AI 的机器学习科学家 Mihail Eric 对本次会议进行了一次比较全面的回顾.从奇闻轶事到学术前沿,本文一网打尽,自然 ...

  • 穿越百年:2019款凯旋速度双缸SPEED TWIN1200

    毫无疑问,英国凯旋跻身最古老.最著名的摩托车.从1902年推出最早的凯旋摩托车算起,迄今经历了近120年历史,比大多数古老品牌还要更古老!下图就是1936年的凯旋双缸机车. 在漫长的历史流光中,凯旋从 ...

  • 在诗词里什么叫“双句一押、双句押韵和一三四押”?还有“递增”和“递减”都是什么意思?

    前言 题主说的是关于押韵位置的问题.诗的押韵,有的句句押,有的在双句押韵,有的首句也押韵. 词的押韵就不一定了,要根据词牌的要求来押韵.. 递减和递增,不知道和押韵有什么关系. 一.双数句押韵 律诗的 ...

  • 业绩会直击|背靠雅居乐和绿地,雅生活2019年业绩谋双位数增长

    近日,2018年2月刚登陆港股的雅生活服务(下称"雅生活")交出了其上市后的第一份成绩单. 背靠绿地和雅居乐两大房企,雅生活的2018年虽然经历了高层人事变动等波折,但步调还算稳健 ...

  • NeurIPS 2019 | 基于图自编码器的因果结构学习模型

    ❝ 论文标题 | A Graph Autoencoder Approach to Causal Structure Learning 论文来源 | NeurIPS (workshop) 2019 论文 ...

  • 2019下半年,这13句话送给自己

    2019-07-30 17:47 一坐标签:经历缘分感情1.累了,就休息休息,你得到再多也没有用,好的东西不一定非得属于你,老天是公平的,该是你的终究会来,不是你的再强求也得不到. 2.一条路,走了很 ...

  • 关于ACL重建,到底选择双束还是单束?

    前叉之家 - 创立于2014年,是一个前交叉韧带损伤.重建的康复交流平台,致力于帮助患者了解更多康复知识,创立于叉友,服务于叉友. ACL双束重建 前交叉韧带(ACL)是膝关节四大韧带之一,为膝关节稳 ...