ACL 2019 | 将带推敲解码器的增量Transformer用于文档级知识对话

2024-08-02 13:04:33

本文将对 ACL2019论文《Incremental Transformer with Deliberation Decoder for Document Grounded Conversations》进行解读，这篇论文提出了一个两步解码器（推敲解码器）可以在给定文档的内容时生成上下文连贯、正确利用知识的回复。

论文地址：https://www.aclweb.org/anthology/P19-1002

源码地址：https://github.com/lizekang/ITDD

论文作者：Zekang Li， Cheng Niu， Fandong Meng， Yang Feng， Qian Li， Jie Zhou

论文背景

基于序列到序列（Seq2seq）框架的深度模型被广泛应用在了对话系统任务中，这些模型大多是使用端到端（end-to-end）的方法在大规模的人人对话语料上进行训练的。虽然这些模型取得了巨大的成功，但距离对话系统“像人一样对话”的目标仍有很大差距。为了达到这一目标，很基本的一个想法就是将知识引入对话系统。

已有的一些工作主要集中于将事实知识（factoid knowledge）整合进对话系统，但这些事实知识需要大量的精力进行收集。文档是一种可以提供不同种类知识的知识资源，最近的一些研究将文档数据用于了问答任务。

文档级知识对话需要将文档知识与多轮对话历史相结合，本文提出了一个带推敲解码器（Deliberation Decoder）的增量Transformer用于文档级知识对话。编码器采用一个Transformer来增量编码对话历史，并将文档知识合并进多轮上下文的编码过程。解码器包含两步，可以在给定文档的内容时生成上下文连贯、正确利用知识的回复。第一步的解码器关注于上下文相关性，而第二步的解码器通过查阅相关文档知识来细化第一步解码器的结果，因此增加了知识相关性和正确性。这与人类的认知过程是相符的，在现实世界的人类对话中，人们通常首先制定关于如何回应先前话语的草稿，然后使用背景知识来完善答案甚至提出问题。

本文提出的模型在Document Grounded Conversations Dataset[1]上进行了测试。实验结果表明，该模型能够产生更好的上下文连贯性和知识相关性的回复。自动和人工评估都表明该模型大大优于竞争基线。

论文模型

自关注编码器（Self-Attentive Encoder）是一个[2]提出的transformer编码器，该编码器可以独立的编码文档知识以及当前句子。

增量transformer编码器（Incremental Transformer Encoder）是一个统一的transformer编码器，其使用增量编码方案利用知识表示对多轮话语进行编码，该模块将先前的话语u（i）和文档s（i）的自关注编码器表示作为输入，并使用注意机制逐步建立相关上下文和文档知识的表示。

推敲解码器（Deliberation Decoder）是一个两步的统一transformer解码器，可以更好地生成回复。第一步解码器将当前句子u（k）的自关注表示和增量transformer编码器的输出作为输入，主要依赖对话上下文生成回复；第二步解码器将第一步输出的自关注表示和相关文档的自关注表示作为输入，使用文档知识进一步改善回复。

论文实验

本文以Seq2seq[3]、HRED[4]、Transformer[5]等多个模型作为基线，在Document Grounded Conversations Dataset上考察了本文提出的方法的表现，本文提出的方法在自动评测指标和人工评测指标上都取得了更好的表现。

此外，作者还使用增量Transformer作为编码器（ITE），上下文知识知识关注解码器（CKAD）测试推敲解码器的有效性，实验表明本文提出的方法具有更高的知识相关性以及更好的上下文理解能力。

下图的几个例子也表明，通过本模型生成的响应具有更多的信息以及更好的连贯性。

结论

本文提出了一种带有推敲解码器的增量Transformer，通过模仿现实世界人类的认知过程来优化知识相关性和上下文连贯性，用于文档知识对话的任务。实验结果表明，与最先进的基线相比，本文所提出的模型可以产生具有更多相关性、正确性和一致性的响应。接下来还可以应用强化学习来进一步提高效果。

参考文献

[1] Kangyan Zhou， Shrimai Prabhumoye， and Alan W Black. 2018. A dataset for document grounded conversations. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing， pages 708–713.

[2] Ashish Vaswani， Noam Shazeer， Niki Parmar， Jakob Uszkoreit， Llion Jones， Aidan N Gomez，？ukasz Kaiser， and Illia Polosukhin. 2017. Attention is all you need. In Advances in Neural Information Processing Systems， pages 5998–6008.

[3] Lifeng Shang， Zhengdong Lu， and Hang Li. 2015. Neural responding machine for short-text conversation. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing （Volume 1：Long Papers）， volume 1， pages 1577–1586.

[4] Iulian V Serban， Alessandro Sordoni， Yoshua Bengio， Aaron Courville， and Joelle Pineau. 2016. Building end-to-end dialogue systems using generative hierarchical neural network models. In Thirtieth AAAI Conference on Artificial Intelligence.

[5] Ashish Vaswani， Noam Shazeer， Niki Parmar， Jakob Uszkoreit， Llion Jones， Aidan N Gomez，？ukasz Kaiser， and Illia Polosukhin. 2017. Attention is all you need. In Advances in Neural Information Processing Systems， pages 5998–6008.

用于代码生成的基于树的Transformer结构

介绍: 代码生成是一个重要的人工智能问题,有可能显着提高程序员的生产力.给定以自然语言编写的规范,代码生成系统会将规范转换为可执行程序.例如,如果 python 程序员给出指令"初始化字典 ...
CPTR：用于图像添加主题的全Transformer网络

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
用Transformer进行图像语义分割，性能超最先进的卷积方法！

重磅干货,第一时间送达丰色发自凹非寺报道 | 量子位正如大家所知,在进行图像语义分割时,图像被编码成一系列补丁后往往很模糊,需要借助上下文信息才能被正确分割. 因此上下文建模对图像语义分割的 ...
邱锡鹏，这是Transformer最全综述

机器之心报道自 2017 年 6 月谷歌发布论文<Attention is All You Need>后,Transformer 架构为整个 NLP 领域带来了极大的惊喜.在诞生至今仅仅 ...
基于Transformer对透明物体进行分割

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
利用Transformers进行手写文字识别

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
NLP实操手册: 基于Transformer的深度学习架构的应用指南(综述)

人工智能算法与Python大数据致力于提供深度学习.机器学习.人工智能干货文章,为AI人员提供学习路线以及前沿资讯 23篇原创内容公众号点上方人工智能算法与Python大数据获取更多干货在右上 ...
商汤&港理工提出基于聚类的联合建模时空关系的 GroupFormer 用于解决群体活动识别问题，性能SOTA

▊ 写在前面群体活动识别是一个关键而又具有挑战性的问题,其核心在于充分探索个体之间的时空交互,产生合理的群体表征 .然而,以前的方法要么分别建模空间和时间信息,要么直接聚合个体特征形成群体特征. 为 ...
谈一谈UNet图像分割

作者丨呼啦圈正在输入中来源丨GiantPandaCV 编辑丨极市平台极市导读这篇文章主要针对于图像分割的算法的一些理解,主要是一个比较经典的UNet系列的网络的认识.最后希望看完这篇文章的读者可 ...
Paper：2017年的Google机器翻译团队《Transformer：Attention Is All You Need》翻译并解读

Paper:2017年的Google机器翻译团队<Transformer:Attention Is All You Need>翻译并解读论文评价 2017年,Google机器翻译团队发表 ...
EMNLP2021 “Transformer+预训练”再下一城，港科大开源高效的"多模态摘要总结"网络

▊ 写在前面多模态摘要总结(Multimodal abstractive summarization,MAS)模型总结了视频(视觉模态)及其相应的文本(文本模态)的知识,能够从互联网上的大量多模态数 ...
YOLOv4一作提出Transformer新架构：DPT！替代卷积网络做密集预测

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 220篇原创内容 Official A ...
完全图解GPT-2：看完这篇就够了（一）

设为 "星标",重磅干货,第一时间送达! 选自github.io,作者:Jay Alammar 机器之心编译今年涌现出了许多机器学习的精彩应用,令人目不暇接,OpenAI 的 G ...
一文理解 Transformer 的工作原理

概述自然语言处理中的 Transformer 模型真正改变了我们处理文本数据的方式. Transformer 是最近自然语言处理发展的幕后推手,包括 Google 的 BERT. 了解 Tran ...
【学术论文】基于Transformer模型的中文文本自动校对研究

摘要 : 提出将Transformer模型应用于中文文本自动校对领域.Transformer模型与传统的基于概率.统计.规则或引入BiLSTM的Seq2Seq模型不同,该深度学习模型通过对Se ...

ACL 2019 | 将带推敲解码器的增量Transformer用于文档级知识对话

相关推荐