学术简讯 | CN-Celeb:中国明星声纹数据集再度来袭

近日,清华大学语音和语言技术中心 (CSLT) 发布了第二批中国明星声纹数据集 CN-Celeb2,供说话人识别研究者免费使用。与第一批 CN-Celeb1 相比,CN-Celeb2 同样地覆盖了采访、歌舞、音乐、影视等11类实际场景,但 CN-Celeb2 具有三个显著特点:(1) 极大地扩充了整个数据规模,共2000位中国明星,总时长1090小时;(2) 数据源涵盖了包括 Bilibili、网易云、唱吧、喜马拉雅、抖音等多个新媒体平台;(3) 针对性地平衡了不同场景、长短语音所占的比例,使数据分布更加合理。CN-Celeb2 的采集流程与 CN-Celeb1 相仿,语音片段全部由各个数据源经过自动化处理程序提取,并通过人工校验得到。整个 CN-Celeb 系列覆盖了噪音、信道、发音方式等各方面的复杂性,特别适用于研究复杂场景下的说话人识别技术。整个 CN-Celeb 数据集可在共享资源网站 http://openslr.org/82/ 免费下载。CSLT 研究组将继续致力于 CN-Celeb 数据集的开源计划,助力说话人识别技术的创新研究。

CN-Celeb2 的由来

2019年11月,清华大学语音和语言技术中心 (CSLT) 发布了全球第一个多场景说话人识别数据集 CN-Celeb1。CN-Celeb1 包含了来自 1000 名中国明星在采访、歌舞、音乐、影视等11类场景中的语音片段。这些语音片段中覆盖了包括非限定的自由文本、各种各样的传输信道、复杂多变的背景噪音、说话人自身的生理波动等各种不确定性因素,对当前主流的说话人识别技术带了巨大的挑战。发布至今,CN-Celeb1 得到了学术界和产业界的广泛关注,尤其是在复杂场景说话人识别等研究领域体现了其独有的价值。

尽管 CN-Celeb1 为复杂场景说话人识别研究提供了宝贵的数据资源,但受限于其有限的数据体量,难以作为一个独立的数据集搭建整个说话人识别系统。为此,CSLT 研究组的实习生范悦、亢嘉文、刘瑞琦,指导老师王东、李蓝天、蔡云麒等人沿用了 CN-Celeb1 的数据采集流程,收集了第二批中国明星声纹数据集 CN-Celeb2。CN-Celeb2 覆盖了与 CN-Celeb1 相同的11种实际场景,但数据规模达到了2000人,1090小时!至此,整个 CN-Celeb 系列共包含了3000名说话人,能够很好地支持复杂场景说话人识别系统的训练与测试。整个 CN-Celeb 数据集现已发布到 OpenSLR 共享资源平台,供研究者免费下载。

CN-Celeb1 vs. CN-Celeb2

  • 数据量:CN-Celeb2 的数据量远远多于 CN-Celeb1。具体地,CN-Celeb1 包含1000人,274小时;CN-Celeb2 包含2000人,1090小时。

  • 数据分布:CN-Celeb2 平衡了某些场景 (如微视频、朗诵、广告等) 的数据短板,使各个场景的数据分布更加均衡;此外,CN-Celeb2 还考虑到语音时长的分布情况,使不同时长语音所占的比例更加合理。表1给出了两个数据集的数据分布对比。

表1 CN-Celeb1和CN-Celeb2数据分布对比表

  • 数据源:与 CN-Celeb1 相比,CN-Celeb2 的数据源更加丰富多样。CN-Celeb1 的所有数据均来自于 Bilibili;而 CN-Celeb2 的数据来自于包括 Bilibili、网易云、唱吧、喜马拉雅、抖音等多个新媒体平台。数据源的多样性使 CN-Celeb2 更贴近于实际应用场景。图1给出了两个数据集的数据源对比。

图1 CN-Celeb1 和 CN-Celeb2 数据源分布对比图

  • 说话人多场景数据:单一说话人-多场景数据对于复杂场景说话人识别的研究尤为重要,但其收集过程也极为困难。针对此类数据,CN-Celeb1 和 CN-Celeb2 分别收集了754人和648人,共计1402人。下图2给出了 CN-Celeb1 和 CN-Celeb2单一说话人-多场景数据的分布情况。

图2 CN-Celeb1 和 CN-Celeb2 单一说话人-多场景数据分布对比图

基于 CN-Celeb 的最新研究

近期,CSLT 研究组基于 CN-Celeb 对复杂场景的说话人识别进行了一系列研究,研究成果已经公开,见如下论文:

  • 题目:CN-Celeb: Multi-genre Speaker Recognition

  • 地址:https://arxiv.org/abs/2012.12468

CN-Celeb 资源下载

  • CN-Celeb 项目网址

    • http://cslt.riit.tsinghua.edu.cn/mediawiki/index.php/CN-Celeb

  • CN-Celeb 论文地址
    • https://arxiv.org/abs/1911.01799
    • https://arxiv.org/abs/2012.12468

  • CN-Celeb 下载地址

    • http://www.openslr.org/82/

  • Kaldi Recipe 地址

    • https://github.com/kaldi-asr/kaldi/tree/master/egs/cnceleb

CN-Celeb 项目研究团队

(0)

相关推荐