智能音箱把语音交互吹上了风口 / 四六文摘

今年的7月注定是个让我们惊奇的月份，智能科技新品的发布，犹如这炎热的季节，火爆上演。

无人零售的淘咖啡体验店，在阿里造物节获得了拿了就走的完美体验；李彦宏乘坐百度无人驾驶汽车赶赴百度AI开发者大会，发布全面开源的Apollo自动驾驶平台；阿里人工智能实验室相对低调地发布了智能音箱天猫精灵X1，将语音识别交互技术吹到了风口。

随着物联网的迅速发展，作为重要接口的智能语音技术已成为国内外IT巨头的必争之地。在阿里推出了天猫精灵的同时，百度宣布收购美国语音交互技术公司。而此前，京东联合科大讯飞推出了“叮咚音箱”，腾讯云发布了“小微”。在美国，亚马逊、谷歌、苹果、微软等硅谷巨头早已纷纷布局。有机构预计，未来几年智能语音行业将呈现爆发式增长。一场以智能音箱为终端的物联网接口大战正如火如荼地展开。

天猫精灵X1

7 月 5 日，在位于北京鼓楼的时间博物馆，阿里巴巴 Ai Labs 举办「未来，开口即来」新品发布会，宣布推出该部门第一款自主开发的智能音箱「天猫精灵 X1」，其售价仅为 499 元，其语音交互技术综合采用了来自思必驰的语音识别、语音合成、算法降噪、环麦阵列，以及阿里 AliGenie的NLP和声纹识别等。它能够理解中文语音指令，通过语音交互实现购物、播放音乐音频内容、玩游戏、查天气、问百科、充话费、控制天猫魔盒等功能。

阿里巴巴人工智能实验室负责人浅雪介绍天猫精灵X1

在语音交互前端技术方面，“天猫精灵 X1”采用了思必驰环形六麦阵列技术（AISpeech 6mic）。在顶部的六颗高灵敏麦克风有助于收集来自不同方向的声音，从而更容易在周围的噪音中识别出有用的信息，实现360°全角度拾音效果和5米远场交互。思必驰作为项目合作方，在这款音箱中提供了环形六麦阵列、语音识别、语音合成、回声消噪及语音增强等技术方案。该款产品的NLP、声纹识别等技术则来自 AliGenie，它集成了阿里巴巴积累多年的自然语言处理、人机交互等技术。

环形麦克风阵列在智能音箱类家居产品中成为了宠儿，一是由于它能够满足家居环境下远场交互的需求，二是由于它能够帮助智能音箱、智能中控、机器人等需要全角度拾音的智能硬件产品实现更好的收音效果。思必驰2015年即推出了国内首款环形6+1麦克风阵列，现已全面升级至环形6麦，算法更优化且成本更低，目前在智能机器人和智能音箱领域有较为广泛的应用。

天猫精灵X1采用了最平凡的圆柱形设计，有黑白两种配色，高度为128mm，直径为82mm。在硬件配置上，天猫精灵 X1采用了业内首颗 SmartAudio专业处理芯片，相比此前市面上的主流芯片，处理效率提升25%，功耗降低32%。系统软件方面，采用了一键声波配网技术，这让天猫精灵 X1 不到 10 秒就能连上网络。而配网对智能家居来说，非常有挑战性，目前大部分产品配网时间平均大于 30 秒。

一个值得注意的细节是天猫精灵 X1 的底部设计了朝下发光的灯带（12 颗高亮 RGB 唤醒灯），因此并不会直接刺眼，同时通过不同颜色的视觉反馈能够表示不同的含义（1600 万色），这一点在现场连线产品演示时也能注意到。

从产品功能方面，天猫精灵X1内置阿里第一代中文人机交流系统AliGenie，相当于一个“你的小秘书”，支持效率工具、订日程、备忘提醒；音频音乐播放；购物助手支持话费充值、订外卖；日常生活用品购买；健身教练支持倒计时、卡路里查询等。其背后拥有阿里体系庞大的内容资源，可为用户提供丰富多样的服务。

基于阿里系的主生态网上购物，X1 推出了声纹识别，还打通了支付环节。用户先将自己的声音注册后生成声音密码，与机器绑定后，确认开启声纹购功能。随后，当用火狐说出 “帮我买一箱牛奶” 这样的需求时，天猫精灵会要求用户跟着念一串随机数字进行声纹校验，如果确认为用户本人，天猫精灵会从用户绑定的支付宝中进行扣款完成交易。

浅雪介绍，声纹识别技术是生物识别的重要识别手段之一，结合服务链多重安全机制，已达到商用的级别。这也是阿里在语音深度学习领域的核心技术之一。据悉，天猫精灵目前最多可以识别 6 个人的身份。

阿里还重点介绍了号称「第一代中文语音人机交流系统」的 AliGenie，这是一个云端语音操作系统，能够听懂中文普通话语音指令。

目前已经可以实现智能家居控制、语音购物、手机充值、叫外卖、音频音乐播放等功能，覆盖了音乐、影视、餐饮、人物、旅游、财经等 20 多个领域，能够理解人类 80% 的意图。

AliGenie 还配备了技能市场，类似于手机的应用市场，开发商可以为其开发出各种各样的实用技能，丰富其产品的使用场景。目前，AliGenie 的开发者平台主要面向 4 种类型的开发者，包括内容开发者、应用开发者、智能家居开发商和硬件生产商，并向开发者们开放了包括深度学习、自然语言处理、搜索/推荐算法和知识表示及推理问答系统等四大核心技术，以帮助开发者及硬件厂商节约研发成本，更好地为用户提供服务。

这里值得关注的是内容开发者和硬件生产商的开放。在采访环节阿里表示，内容开发者平台类似于一个「语音版公众平台」，内容创业者可以在这里进行音频内容的上传，并且形成特有的内容服务；而硬件生产商方面，已经和「芭比娃娃」生产商美泰尔进行合作，将来开发出与 AliGenie 语音联动的玩具产品。硬件方面目前阿里智能联盟的上千万智能家居设备已经能够与天猫精灵 X1 进行连接，随着阿里对 AliGenie 开发者平台的开放，天猫精灵 X1 也将能够支持越来越多的智能硬件设备。

阿里推出的不仅是天猫精灵X1，AliGenie的智能语音平台的用户前景也许才是他更关注的焦点。

亚马逊的Echo

智能音箱的创新者非Amazon的Echo所属。在亚马逊看来，智能音箱可以看做是生活助手，作为智能音箱鼻祖的Echo是怎样做的？它又是如何被亚马逊创造出来？

创造Echo的想法来自《星际迷航》

2014年11月，Echo正式在亚马逊上线。但实际上，创造Echo的想法要更早。大约在四年半之前。

亚马逊设备业务高级副总裁大卫·林普(David Limp)称，亚马逊那时候已经开始一些比较早期的研发工作，并发现了一些大家都没有注意到的趋势。

首先是云计算。当时亚马逊有了自己的AWS云服务，并非常清楚的感受到云计算所拥有的巨大能力。所以在公司内部，亚马逊鼓励其他部门将业务或者产品放到云端。

与此同时，机器学习算法也开始凸显实力。亚马逊用机器学习算法为网站用户做产品推荐，并取得非常好的效果。消费者很喜欢这样的推荐，也认为亚马逊推荐的很精准。

这时，亚马逊的工程师开始思考，机器学习算法还能在哪些领域应用。

最终，有人提出了一个想法：如果将没有云计算能力与机器学习结合在一起，是否可以创造出一种类似电影《星际迷航》中的一种设备。在电影中的宇宙飞船上，无论站在什么位置，都可以随意发问，然后一个“隐形电脑”就会找到答案并回答你。

Echo的第一个目标，就是成为《星际迷航》中隐形电脑一样的设备。

Echo产品本身非常简单，智能助手Alexa才是它躯壳下真正的灵魂。

为了优化Alexa差不多经历了3年的时间。至于如何优化，这里举两个例子。首先是关于延迟。

Alexa在研发之初，要5秒以后才能听到答复。为了提高回答速度这背后却是一套复杂的流程。用户提出问题后，Alexa需要把它识别成文字——把文字传送到云端——在云端被识别、明确用户问题——在云端连接提供时间服务的应用——应用传回答案——答案从云端传回——翻译成语言播放出来。

另外在声音识别环节，就要解决关于真实应用环境的噪声问题，这也是要说的第二个例子。

Echo的原型机，在样板间中可以工作的很好。但是，真实的家庭环境不可能像样板间一样安静。比如在自家厨房，很可能一边洗碗，一边放音乐，然后旁边还有搅拌机的声音、孩子的打闹声等。

亚马逊花了很多年来解决这个问题。比如他们改善设备本身的麦克风收音等相关技术，让它能更好、清晰地辨别用户发出的声音；在云端让应用进行大量的机器学习，使它能过滤不需要的噪音，然后识别用户的指令等。

目前，Alexa已经从最初的5秒延迟缩短至1.5秒左右。而这3.5秒的差异背后，却包含了大量的技术研发工作。

Echo不只是一个硬件

一经问世，Echo就成为业界的关注焦点。因为它是亚马逊创造的一类全新的产品和服务， Alexa为消费者所提供的服务，与其过去通过Pad或者手机能获得的服务完全不同。

亚马逊希望Echo能够跟大量的应用和服务结合，并同时满足客户、开发者以及亚马逊自己的需求。

比如Echo刚刚推出时，功能很少。但是亚马逊将Alexa平台的接口开放后，至今已有上万个开发者加入进来，并基于Alexa开发出12000余种功能和应用。

现在 Echo系列产品在快速发展，尤其是在美国市场，取得了非常不错的表现。

如果你想要一个固定在家里某个位置的智能扬声器，并且是一位永远你在线的私人助理，那么Echo是个理想的选择。它会带来不错的音效，适合听音乐，如果接入到Wi-Fi里，还可以回答各种各样的问题，控制智能家居产品。

而亚马逊Tap可以做所有该做的事情，包括声音体验。不过由于采用无线供电的方式，因此为了省电Alexa并不总是在线，必须要按下专门的按钮才能启用。当然更新之后也支持免提选项。如果你想要带着它去海边或者旅行，Tap是个很有用的伙伴。

至于Dot，就是一个迷你版、永远在线的Echo，不过它并不是扬声器，因此需要和家里的音响配合使用。Echo Dot可以6个或12个组合使用，确保家中每个房间都有一位Alexa待命。

接下来是Echo Look，尽管它也有麦克风，可以接收语音命令，但是严格意义上来说也算不上一款音乐播放设备，而它完全是为了拍照和提供时尚建议而来。

最后，亚马逊最新的Echo Show是一款提供核心体验的产品，可以像所有Echo一样工作，并且还提供了一块屏幕，带来更多的互动体验，通过摄像头查看视频，并且提供音频和视频通话功能。而在Alexa的使用上，Echo Show完全支持所有功能。

苹果的HomePod

苹果WWDC17开发者大会上，苹果终于发布了自己的首款音响产品HomePod。

苹果HomePod

首先这款名为HomePod的产品采用编织材料无缝包裹，颜色有黑白两种可选。在音箱的下方搭配了七个中高频喇叭，上方搭配一个4寸低音单元。音箱采用同为手机使用的A8芯片作为处理器，内置听音环境的优化功能，可以根据自我判断来优化在不同空间中的声音表现力。支持两只立体声配对并且内置了Siri功能，可以语音控制，除了音乐可以播放还可以播放一切音频播报的信息如新闻、天气、闹钟设置等等，可以理解为一个没有屏幕的Siri。并且也可以通过你的手机或者其他设备远程控制你的HomePod，产品的芯片采用手机同样使用的A8芯片。

产品尺寸

其实对于这款HomePod来说，在当今的消费类音响行业中，它没有任何功能是创新的，甚至就连它的外观设计也并没有当年苹果的惊艳你可能还会觉得似曾相识。

苹果HomePod相较于亚马逊的Echo，坚持了它对于音箱HIFI的品质的一贯追求。

至于语音控制，苹果的Siri作为目前最成熟的语音交互系统来说，确实还是有一定的优势，但这也并不算是亮点吧？

显然，虽然苹果传统上拥有优秀的硬件工业设计能力，但是如果HomePod幕后的Siri语音助手，依旧停留在目前让消费者十分失望的水平，则苹果在智能音箱市场的前景，将十分渺茫。

目前，在语音助手领域已经形成了谷歌助手、苹果Siri、亚马逊Alexa和微软Cortana的四强格局，而且这四家公司都分别推出了自己的智能音箱产品。再加上国内阿里的AliGenie，俨然形成了群雄纷争的格局。而真正的语音助手应是无处不在，连接万物，从家电到汽车、手机……音箱的出现，或许是语音交互的一次尝试，却可能不是它最终的模样。

本篇文章为传感器技术平台原创文章，转载需联系我们授权！未经允许转载我们将进行投诉！

分享一条链接：传感器原理和应用大合集

智能音箱把语音交互吹上了风口

相关推荐