音乐源分离以3D点云为条件
重磅干货,第一时间送达
小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
近年来,深度学习技术在声源分离中的应用取得了显著进展。目前结合音频和视觉信息的方法使用二维表示,如图像来指导分离过程。然而,为了通过真实音乐合奏的录音(重新)为3D虚拟/增强现实应用程序创建声音正确的场景,需要3D环境中每个声源的详细信息。这种需求,再加上3D视觉采集系统(如激光雷达或rgb-depth摄像机)的普及,刺激了模型的创建,这些模型可以使用3D视觉信息引导音频分离。提出了一种基于音乐演奏记录三维点云的多模态深度学习模型进行音乐源分离。该模型采用三维稀疏卷积提取视觉特征,采用密集卷积提取音频特征。融合模块结合提取的特征,最终实现声源分离。结果表明,所提出的模型能够从单一的三维点云框架中区分乐器,并能像参考案例中手动分配乐器标签那样进行源分离。
本文的结构如下:
在本研究中,作者采用混合与分离的学习方法。在第一步中,混合-分离方法包括通过混合单个声源来生成人工音频混合物。然后,学习的目标是根据其相关的视觉信息恢复每个单独的声源。这允许使用未标记的个人声音本身作为监督。因此,尽管网络是在监督的方式下训练的,整个管道被认为是自我监督的。
基于三维视觉信息的音乐源分离是一个新的研究领域。虽然有很多音频数据集18,但来自音乐家的3D视频数据却很缺乏。为了完成这项工作,作者捕捉了几个演奏者演奏五种不同乐器的3D视频:大提琴、低音提琴、吉他、萨克斯管和小提琴。此外,作者分别从现有的音频数据集中收集这些乐器类型的音频记录。最后,一旦收集了所有的3D视频和音频数据,作者就会随机地将每个仪器的音频和3D视频关联起来。
框架结构
概览图,显示模型的不同部分
绿色区域表示视觉网络,使用稀疏的Resnet18架构分析每个3D视频帧后提取视觉特征。蓝色区域表示音频网络,该网络采用U-Net架构对音频混合谱图进行分析,提取音频光谱特征。融合模块结合提取的多模态特征进行源分离。
(a)用于提取每个3D视频帧特征的稀疏Resnet18架构示意图。
(b)稀疏的Resnet18剩余块示意图。
作者增加了作者的3D视频数据集,从小型集成3D视频数据库26和Panoptic Studio27收集3D视频。在小型集成3d视频数据库中,使用三个rgb深度的Kinect v2传感器进行记录。然后使用livescan3d28和OpenCV库为每个摄像机视角和传感器数据的每一帧对齐和生成点云。平均每台乐器的录像时间为5分钟,每台乐器只有一个表演者。在Panoptic Studio中,使用10个Kinect传感器进行录音。在这种情况下,录音跨越了两个乐器类别:大提琴和吉他。平均每台乐器的录像时间为2分钟,每台乐器只有一个表演者。
实验结果
与标签调节相比,使用单个3D深度框架调节模型显示了竞争性能。这表明,该模型能够从3D深度框架中识别乐器,因为在乐器标签明确地作为一个热向量给出的情况下。
结论
本文提出了一种基于三维点云的音乐源分离深度学习模型。该模型以自我监督的方式从3D视觉信息和音频中共同学习。结果表明,该模型是有效的条件下,使用单一帧和适当数量的来源存在的音频混合。与2D相比,3D视觉条件反射可能适用于虚拟现实和增强现实应用,在这些应用中,声音信息和3D环境中每个源的位置需要进一步的听觉化。在未来的工作中,利用三维环境中声源位置所引起的空间音频线索可能有助于分离相同的仪器声源。此外,从音频和点云共同学习的多模态模型可以提高听觉3D场景的理解。
论文链接:https://arxiv.org/pdf/2102.02028.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。深度学习爱好者 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
深度学习爱好者 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
· 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
· 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
· 深度学习爱好者 默认每篇文章都是首发,均会添加“原创”标志