汽车玩个《流浪地球》梗,打开了一串关于AI语音的脑洞

技术史中有一个有意思的现象,科技树往往会进行分支延展。甚至有时候原本期待的技术目标还没实现,却在技术分支打开了一连串实用脑洞。

最著名的案例,大概就是在大型计算机的主干道上,分叉出了PC和整个数字时代。谁也未曾想到,一片集成电路的出现,让原本的技术基础设施变为了创造出全新纪元的大众消费品。在AI语音交互这条科技树上,我们很可能也在见证这样的转变。比如在追求NLP巴别塔的岔路上,一些强应用指向的信息却在带来全新的可能。

甚至是一个蹭热点的玩法背后,可以看到AI语音这条科技树点开了一串新的脑洞。

时间回到春节,爆款电影《流浪地球》带火了那句“道路千万条,安全第一条”。随后全球最大的互联网汽车平台斑马网络火速推出了配合《流浪地球》的一个玩法,从中便能管中窥豹,找到关于AI语言应用的新脑洞。

斑马一声答,抖音好多6

《流浪地球》热映后,冷淡萌的MOSS和雪地车中北京第三交通委的提示让不少人都燃起了中二之心,也想和自己的爱车来一出模仿秀。

虽然很多地图App也推出了类似的语音包,但仍然缺少最重要的交互体验。

就在2月12日,《流浪地球》上映刚刚一周,斑马便推出了语音交互彩蛋。用户只要说出“你好斑马,开始点火”的语音指令,语音交互系统便会回复出那句熟悉“道路千万条……”。

第一条视频刚刚在抖音推出半天,就火速获得了1.5万个点赞。随后又有大量斑马用户在抖音上上传了自己与爱车的对话视频。用户们操着不同方言、在不同车型中重复着那句“你好斑马,开始点火”,着实让斑马在抖音上火了一把。

这次借势营销的成功取决于两点。

第一是斑马快速完成了语音交互的部署,正好赶上电影热映的发酵期,可以唤起用户的参与兴趣。

第二是在斑马在快速部署的同时确保了语音识别的准确率和用户体验。让用户在不同环境和条件下都可以参与,没有因技术问题而破坏体验。

这个一句话的交互虽然看起来简单,但却可以引发关于AI语音,车联网,甚至语音服务市场的一连串推理。

车中的耳朵:

语音识别折射出效率红利

而斑马在短时间内完成精准语音指令部署这件事的重要性,远远不止一次借势营销这么简单。

首先我们要知道,车载环境是一个非常特殊却又普遍的环境。一方面车内空间有较强的噪音,在收音方面相对困难;另一方面车内空间应用广泛,用户会使用各种方言、口音与斑马进行交互。

可以说在斑马点火的命令背后,隐藏着语音交互进入高效率与普惠性的特征。

应对车载环境下的语音指令唤醒,斑马要解决口音、方言、噪声等场景下的精准可用状态。为达成这个目标,唤醒背后必须具备三个方面的技术准备。

1、为方言和环境噪声识别,进行大量端到端的训练。想实现这一点,不仅需要大量的方言语料资料,同样需要足够的云端算力支持。

2、麦克风序列的有效搭建和硬件准备。汽车空间内复杂的噪音来源一直给语音交互的收音造成了巨大的困难,而斑马选择了前置解决方案,在汽车中提前搭建好麦克风阵列来为整个语音交互流程提升效率。

3、语音采集、特征提取、声学样本的高可用模型搭建,基于标准化解码的语音入口和端到端部署。想在短时间内完成应用级别的语音指令训练,需要熟练的模型建立流程和部署能力。

三者的聚合,让语音交互正在抵达标准化周期,于是斑马才能快速准确地更新应用,跟上热点。

而在算法应用性的背后,其实我们还可以看到端云耦合在高效工作着。

云上的短跑:

智能语音交互驶入敏捷开发赛道

大家都知道,我们平时应用的各种软件也会保持一个周期性的更新状态。通常是一周或者一个月更新一次版本,带来一系列新功能。

如果在车中依旧保持这样的软件更新频率,显然是不足够的。对于车联网这种刚刚进入市场产品来说,像这次《流浪地球》一样,不断快速迭代,为用户带来更多惊喜的细节,会更有利于市场的覆盖。

想要实现更敏捷的开发周期,需要的技术关键点在于端云的高度一体化,即云端计算性能和终端车联网架构在设计和能力上实现一致性。

斑马自身的车联网架构也具有高度的统一性。不仅在开发上更加高效,同时也减少了技术与不同终端层层适配与测试的时间成本。于是才能实现用户无需进行版本更新,达成新玩法的零秒上线,让不同终端的用户都能享受同样的技术更新效率。

端云耦合加上语音的便捷性,正在用一种新的技术逻辑将车联网拖入新的敏捷开发周期。车联网体验中完全可以达成快速准确的智能服务持续触发,甚至允许用户进行与系统的内容交互。

车联网的脑洞:

语音激变让巴别塔成为无限可能

继续向着更底层的技术推理,我们会发现一个来自流浪地球的问候,隐藏着AI语音技术的另一种广义应用可能性。

AI语音的第一种可能当然是在巴别塔上,解读拥有几千年历史的各种语言,让人类真正实现无障碍的沟通,然而这并不容易。

但在斑马的案例中,我们可以发现在车联网的特定交互场景里,通过敏捷的AI应用能力交付。可以带给用户实时化,多功能,甚至指向娱乐综合体验的语音能力。在这种能力的催生之下,未来用户可以依托驾驶场景自主生产内容,实现共创。

端云一体,算法标准化,以及场景的硬件统一性,正在催化轻量级的语音交互焕发广泛的应用可能。

或许就在不久的未来,个人用户可以定制原创交互语音。不仅是唤醒、AIoT等功能,例如用户可以将途中的所见所想上传为一组语音问答,并与其它同系统车主分享,为车主与车、车主与车主打造全新的共创模式。车联网与万事万物的连接,都可以因此变得更加个性化。

尤其当公共服务也开始引入语音交互技术时,这种能实时更新的车联网语音交互会拥有更高的开垦价值。达摩院2019十大技术趋势认为“随着端云一体语音交互模组的标准化、低成本化,会说话的公共设施会越来越多,未来每一个空间都至少会有一个可以进行语音交互的触点,随着智能语音技术的提升,移动设备上的实时语音生成与真人语音可能将无法区分,甚至在一些特定对话中可以通过图灵测试。针对这一领域的规则甚至法律会逐步建立,从而引导行业走向规范化。”

而公共设施同样面对着和车联网相似的情况——应用情景复杂、应用者广泛、所处场景嘈杂。这时车联网上累积的收音技术、不同方言的辨识技术以及敏捷更新能力,都能为之所用。

从AI产业的全局来看,或许语言不一定只有巴别塔一条路。轻应用、快速开发、多效循环的语音能力应用,打开更高可行性和商业化潜力应用AI路线。从网联汽车,到社会化服务硬件和新的家庭场景,AI的可能性正在打开。

(0)

相关推荐