分享6个权威对话数据集!
朋友们好,我是Giant。
最近我做了一些关于“文档对话生成(Document Based Dialog)”的调研工作,有很多有趣的发现。
“对话生成”相信大家都不陌生,比如你让家里的天猫精灵唱首歌,让手机里的Siri播报天气,和微信上的小冰聊天,它们的答复都属于对话生成。
而“基于文档的对话生成”(DBD)属于主题受限的对话,聊天双方需要根据给定的文档展开互动。这里的文档属于提供给模型的外部知识。
文档只是外部知识的一种形式,“知识”还可以是数据库、图谱、关键词等形式。引入外部知识是为了限制模型的输出范围,让聊天围绕某一个特定的主题展开。
DBD也是近几年自然语言处理研究的热点之一。本文分享6个我最近收集的公开权威数据集,供大家参考。
1. Wizard of Wikipedia - ICLR 2019
第一份数据集,由FaceBook在2019年提出。文档数据来自维基百科。
每一轮对话包含导师和学徒两个角色,双方就某一个主题开展深度交流。其中学徒事先未获取文档信息,导师需通过对话把核心内容传递给学徒。
整个数据集有超过2W个对话,540W篇文档。
CMUDoG是卡耐基·梅隆大学发布的以流行电影为主题的数据集。
对话额外提供的文档信息包含4个方面:
两名用户从第一部分开始展开讨论,逐步过渡到第四部分。
下图是基于电影《盗梦空间》(The inception)的数据样例。
整个数据集包含4000多个多轮对话,每一个对话平均有21次交互(42个句子)。
这里的Rating是对话质量评估,反应了交谈的内容和提供的电影百科之间的关联程度。
下载地址:
https://github.com/festvox/datasets-CMU_DoG
有了英文电影数据集,咱中文应不甘落后。去年清华大学联合腾讯模式识别中心发布了电影领域的中文对话数据集Movie-chats。数据爬取自豆瓣,双方围绕一部或多部电影展开讨论。
这份数据集有意思的地方在于数据标注非常全面,每一句对话都标出了对话动作(DA),属性(Aspect),当前讨论的电影(Mov_Tracker),背景依据(grounded knowledge)。
对话中还加入了实体跳转。比如俩人一开始在聊《赌神》,可能过一会开始讨论《赌圣》、《澳门风云》了。
所以这份数据集可以研究的工作非常多,包括情感分析、实体挖掘、对话状态追踪、知识检索、对话生成等等。
数据集一共包含 24W 个多轮对话,301W 个句子,6.4W 部电影,内容相当庞大了。
下载地址:
https://github.com/chin-gyou/MovieChats
Persona是FaceBook发布的闲聊数据集。和普通开放域闲聊的区别在于,Persona额外添加了聊天双方的个人资料信息。
个人资料(profile)由4-5句短文本组成,内容类似于 “I am a vegetarian. I like swimming. My father used to work for Ford. My favorite band is Maroon5”。
实际交谈中,双方要根据自己设定的角色资料展开对话,并在对话中尽量了解对方。完整示例如下:
由于profile较短,语义连贯性可能略差于文档或文章。数据集共包含超过 10,907 个对话,162,064 个话语。
下载地址:
https://github.com/facebookresearch/ParlAI/tree/master/projects/personachat
RCC数据集收集了 Reddit 上95个子主题的对话语料,时间跨度从2016.11到2018.8。
Reddit是知名社交新闻论坛网站。有23.4亿用户,月平均浏览量达80亿。网站每天会更新大量内容及评论信息。
RCC作者用这些内容和评论互动构建了不同交互次数的数据集,同时在论文中提出一个主题层次递归编码器(THRED)。
下载地址:
https://github.com/facebookresearch/ParlAI/tree/master/projects/personachat
doc2dial是IBM最近发布的基于文档的对话数据集,一共包含两个任务:
数据集共有4个不同领域的480篇文档,4800个多轮对话,每个对话平均有14次交互。
doc2dial还有一个同名榜单,目前队伍还很少,想刷榜的盆友可以试一试。
下载地址:
https://github.com/doc2dial/sharedtask-dialdoc2021