攻破“鸡尾酒会”难题,人声分离给生活带来了哪些改变?

试想一下,在一个嘈杂的鸡尾酒会上,同时存在着许多不同的声源:多个人同时说话的声音、餐具的碰撞声、音乐声等等。如何在酒会上分辨出特定人物的声音,这对于我们人类来说十分简单。

但对于计算机来说,要把一个音频信号分割成多个不同的语音来源,依然有许多棘手的问题需要解决。当许多人的语音交叠在一起的时候,AI时常措手不及。1953年Cherry提出“鸡尾酒会”问题至今,仍然没有人能够解决机器深度学习识别分离人声的问题。

但是,近日在GoogleResearch 软件工程师 Inbar Mosseri 和Oran Lang 发表的论文《Looking to Listen at the CocktailParty》中,采用了一个全新的视听模型为“鸡尾酒会”问题提供了一个合适的解决之道。

音频-视觉语音分离模型,解决“鸡尾酒会效应”

为了解决“鸡尾酒会”问题,谷歌从YouTube上搜寻了10万个高质量讲座和演讲视频生成训练样本,通过约2000 个小时的视频片段分析,训练出基于多流卷积神经网络(CNN)的模型,将合成鸡尾酒会片段分割成视频中每个说话者的单独音频流。

该试验中,输入是一名或多名发声对象,同时被其他对象或嘈杂背景所干扰的视频。输出的是将输入视频的音轨分解成纯净的音轨,并对应上相应的说话者。

所谓的音频-视觉语音分离模型,就是加强选中人的语音,同时减弱同一时间其他人的音量。该方法适用于具有单一(主)音轨的常见视频,用户也可以自行选择倾听对象来生成对其的单一音轨,或者基于语境由算法进行对特定发声对象进行选择。

而在模型训练过程中,网络系统(分别)学习了视觉和音频信号的编码,然后将它们融合在一起形成一个音频-视觉表现。通过这种表现,网络系统可以学会为每位发声对象对应输出时频掩码。输出的时频掩码与噪声输入频谱图相乘,随后转换成时域波形,从而形成每一位说话者单独纯净的音频信号。

基于神经网络模型架构

此外,在多人发声的场景下,视觉信号除了有效提升语音分离的质量,还可以把分离之后的音轨和视频里的人物对应起来。此种方式为其后的语音识别领域提供了许多的可能性。

解决“鸡尾酒会效应”这一难题意味着什么?

“鸡尾酒会效应”难题的解决为语音识别领域的许多问题提供了思考路径,同时视觉-音频网络识别系统的提出,也为人声分离提供了视觉+听觉的解决方式。随着技术落地,当人声分离技术真正应用于市场中会对产品有哪些改变呢?智能相对论分析师柯鸣认为,其在以下四个方面会有较大突破。

        1.    人声分离助力CC(隐藏式字幕)发展

隐藏字幕(Closed Captioning)是电视节目和电影中为有特殊情况或者需要的观众准备的字幕,其可以起到用解释性语言描述画面的作用。

Caption 这个词,有辅助听力障碍的人士用意。Caption一般还包含了效果音的提示,这些声音正常人可以分辨,而对于障碍人士则必须通过字幕。

比如美国的「流言终结者」节目,除了可以看到「TV PG」分级标签以外,也显示了 CC 标志表明节目提供隐藏式字幕,以此来服务那些需要特殊帮助的群体。

《流言终结者》

同样,谷歌人声分离技术对于促进CC发展有较大前景。多通道系统中对于特定人声的分离能够简化节目、电影制作流程,其在语音识别的预处理,以及视频字幕方面能产生良好效果。

对于视频自动字幕加载系统而言,多名发生者同时发声导致的语音重叠现象是一项已知的挑战,与此同时,将音频分离至不同的源也有助于呈现更加准确和易读的字幕。人声分离技术可以在语音原声的基础上直译出各个对话主题的声音,并将其分开,利用AI实现字幕自动化,这极大程度上保证了字幕的同步性与准确性。 

2. 人声分离降低AI同传“乌龙率”

在2018年博鳌论坛上,腾讯AI同传搞了一个大乌龙。除了翻译不准确的问题意外,现场还被曝光翻译系统崩溃“抽风”,出现乱码的情况,让现场相当尴尬。

腾讯AI同传的“车祸”现场

事后,腾讯指出:出现此种乌龙的原因在于中英双语切换频率的问题。当声源在两种语言之间不断转换时,后台中、英文识别引擎就会同时开始工作,这会导致两种识别引擎互相“掐架”,语音识别混乱。最终翻译结果只能选择一种语言进行输出,导致引发错误。

而人声分离技术的应用,似乎为AI同传中的人声识别提供了一个有效的解决途径。对于多种语言的识别流畅化后,AI同传的质量也相应会得到一定的提高。

3. 或可为智能音响提供“保险箱”

AI人声分离加强智能音响识别精准度

智能音箱的问世,使得普通家庭进入了语音互动的时代,其使用的简易性甚至超过了智能手机。有业者认为,智能音箱将会取代智能手机,成为家庭自动化或者智能家居生活的入口,自然语言对话将成为主流和高效率的用户界面。

与此同时,智能音响在应用过程中,也面临着诸多挑战,其主要体现在语音识别技术、声纹识别等诸种技术上。目前,智能音箱的技术难题在于语音识别技术如何在嘈杂的环境中识别语音指令——包括酒吧和体育场等人声鼎沸的场景。

为此,微软在Xbox上部署了一款名为Voice Studio的应用,专门收集人们在玩游戏或看电影时的对话信息。为了吸引用户贡献自己在玩游戏过程中的对话内容,该公司为参与其中的用户提供了各种各样的奖励,包括点卡和游戏道具。

但是,效果并不尽如人意。如何在嘈杂环境识别人声、如何分别多人声音依然是智能音箱的难题。日后,随着智能家居的普及,智能音响成为了物联网环境下与其他家居沟通的“钥匙”,而AI人声分离技术的应用,攻克技术问题的同时也为智能音响提供了一个安全性较强的“保险箱”。

4. 为无人驾驶提供仿生启示

“鸡尾酒会效应”在动物界的应用为无人驾驶提供一定启示。以蝙蝠躲避障碍和捕食为例,其在飞行过程中会发射一系列超声波,超声波遇到障碍后反射回来,蝙蝠通过感知反射信号到达两耳的时间差来判断障碍物的方向,通过感知反射信号的强度来判断障碍物的距离。

蝙蝠发出的超声信号一般是在110kHz的一个扫频信号,通过感知不同频率信号的衰减程度,就可以辨别障碍物的材质,进而可以判断障碍物是否为捕食对象。

蝙蝠是如何区分自己和他人发出的超声波信号的呢?科学家通过研究发现,蝙蝠并没有改变发出的超声频率,而是通过叫声变大,持续时间变长,发射频率增多等方式来解决的。

动物界的“鸡尾酒会效应”启示无人驾驶:想提高雷达的定位精度,提高信噪比是根本。比如,蝙蝠叫声变大,相当于提高了信号的能量;而叫声持续时间变长和叫声频率增多,则是增加了信号的样本点数。在噪声不相关的情况下,经过简单的平均就可以降低噪声的影响。这一点,将会为机器人和无人驾驶汽车带来了新的启发。

无人驾驶的激光雷达探测

此外,视觉-音频语音识别分离模型应用于无人驾驶领域能大程度提高雷达、激光等距离传感器测量出路面信息的性能,而这正是无人驾驶安全保障的基础。

随着日后无人驾驶的普及,人声分离模式或可衍生出“雷声分离”,将雷达误收风险降到最低,从而保证无人驾驶障碍识别方面的安全性。

诚然,新技术的应用需要一段时间。谷歌官方目前也表示:“正在探索使用这个技术到谷歌系列产品中去”。随着“鸡尾酒会”难题的解决,AI语音识别将会有长足进展。具体投入产品后表现怎样,还需要市场来检验。

(0)

相关推荐

  • Arctime Pro 2.4.1 发布!

      时间轴交互优化    ' 我们在2.4版新增的"全自动整段语音识别"功能,收到了大量用户的好评,用量上升之快使我们接连升级了好几次服务器 ~当然,在这段时间我们也收到了大家的各 ...

  • 把歌曲人声与伴奏的完美分离的方法

    把歌曲人声与伴奏的完美分离的方法

  • AI智能人生伴奏音频分离

    相信大家都有到过这种情况,想找某首歌的伴奏,就算是翻遍全网也找不到.. 能够是通过人工智能AI技术在线免费分离任何音乐的人声和器乐(伴奏/背景音乐)两个独立档案! Lalal 它号称世界第一的AI驱动 ...

  • 让你的电脑桌面动起来 、极速看图工具、在线分离音乐和人声 | 今天有什么?

    火雨壁纸 - 让你的电脑桌面动起来 火雨壁纸是一款完全免费的电脑桌面动态壁纸软件 .软件提供了包括动漫 .风景 .游戏 .萌宠在内的十几种分类的海量高清壁纸素材 ,点击即可替换 .此外 ,火雨壁纸还支 ...

  • 视频音频伴奏与人声分离教程

    视频音频伴奏与人声分离教程

  • 一款音频人声伴奏分离软件lalal.ai(网站)

    我们日常听的歌,一般是由人声+伴奏两组音轨构成的.将多组音轨混合起来简称"混音". 混音不难实现,随便一款音频工具就能做到.那么你听说过人声伴奏分离吗? 在国外就有这么一个神奇的网 ...

  • 这 7 本书,真正给我的生活带来了长期改变

    神译局是36氪旗下编译团队,关注科技.商业.职场.生活等领域,重点介绍国外的新技术.新观点.新风向. 编者按:读过的书要真的对自己的生活有所改变,才算是一本好书.本文作者列出了长期影响自己生活的7本书 ...

  • 全屋智能家居能为生活带来什么变化?它适合你使用吗?

    你是否有这样的经历?上班快要迟到了,要赶着出门,出门后才想起忘记关空调了,要跑回家关掉:难得周末休息要睡个自然醒,但给早上的太阳晒到床头了,忍受不了爬起床拉上窗帘睡觉:家里的电视.机顶盒.空调.风扇. ...

  • 学习普通话,到底给我们的日常生活带来了怎样的改变?

    现今社会,能够说一嘴流利的普通话,确实是一个非常"引人注意"的事情.普通话是人们交流的第一张明片,标准的普通话会给人留下一个深刻的好印象. 那我们在学会普通话后,又能有怎样的收获呢 ...

  • 手抖一般会给生活带来什么影响?

    手抖分很多种,最让人琢磨不透的就是特发性震颤疾病了,特发性震颤是一种功能性疾病,在医院仪器检测,身体的各项指标都是没有太大问题的,但是手抖的情况依然存在,并在人多的场合,情绪激动,紧张,做精细活的时候 ...

  • 图解|人工智能给人类生活带来巨大改变,你体验过哪些

    图解|人工智能对生活带来这些影响,你体验过哪些 来源: 光明网

  • 一杯茶,可以给生活带来什么

    什么是生活?最简单的问题,最难回答.与茶相遇,会慢慢揭开生活的本来面目. 每天给自己一杯茶的时间,这是生活的最低要求.喝茶,虽是寻常生活的一种,却不是一种寻常境界. 在茶中消磨时光,是一种全新的处世哲 ...

  • 同感 | 养花能给人带来巨大的幸福,能给生活带来许多惊喜

    有人说,对于花草,无非就是喜欢和不喜欢,其实不然.爱美之心人皆有之,绝大多数的人都是喜欢花草的,人们看到美丽的花儿都会发自内心地赞叹:太美了! 但养花人和不养花的人,对花草的赞美和喜爱是不一样,对于不 ...

  • 手抖会给生活带来哪些影响

    在生活中,往往有很多事情会导致手抖,比如生气,激动,抑郁,情绪低落,害怕,等等.像这些时候手抖在中医角度我们把它叫做特发性震颤.那么特发性震颤有哪些特点呢 特发性震颤唯一的症状就是肢体抖动,患者通常先 ...

  • ​经常看书,会给你的生活带来巨大的变化

    苏本华曾说过,读书必须加以思考,否则绝对不会有收获. 请试想,一个不经常看书的人,看到一些激情的画面,只会说出:我操,而看书的人会说: 海棠花谢春融暖,偎人凭.娇波频溜 美只向.洞房深处.痛怜极宠,似 ...