小鹏是如何让我们用语音控制一台P7所有功能的?
小鹏在前不久正式OTA推送了Xmart OS 2.1.0版本,也是小鹏P7首个大版本OTA,除了开放了XPilot自动驾驶的部分功能和对Xmart OS中近100个功能进行优化升级之外,最重要的一点是它的全场景语音。从日常使用的角度来说,这个号称是全球第一个实现全语音交互的更新,甚至比XPilot 3.0中的NGP高速自主导航驾驶还要值得期待。
我们先来看看这次的全场景语音都有哪些特别的亮点。
一次唤醒,连续对话
首先加入的连续对话功能,说完“你好,小P”之后,我们可以在20秒内持续对它发出指令、跟它聊天逗闷子,而不用再一词一句地频繁唤醒。当系统探测不到有效指令信息20秒之后,小P就会推出这次对话。通过对用户行为的调研,小鹏发现大部分指令的集中发生一般都在1分钟之内,绝大部分则都在十几秒内完成,这也是为什么小鹏设定了20秒的聆听时间。
我们在屏幕的左上方可以看到,在这段时间内,系统一直在聆听并识别。而且识别的准确率已经相当高,除了对我们聊天内容中偶尔的专有名词有个别字错误,中英文混杂也可以识别,而且对于有效指令没有任何错误识别。这里车云菌心里产生了两点疑问:把我们的闲聊天都听进去岂不是一直在误触发?其他乘客说了冲突的命令系统到底要听谁的?
第一,小鹏使用了语义拒识技术,简单来说就是通过语义识别判断车内是乘客间的闲聊还是对车机发出的指令,只有当系统采集到了有效命令判断我们在跟它做交互,它才会进行相应的回应和执行。而且从我们实际的体验来看,小P对于我们意图的判断已经非常准确,整个过程没有一次“误入”我们于工程师的对话,而我们中间随时对它说的指令,它都非常迅速地响应操作,已经非常成熟,直观感受就是“很人性”。
另外,这次的语音系统支持了语义打断,不过同样跟目前市面上的不太一样。有了语义拒识的基础,系统只有捕捉都有效指令才会被打断执行下一个操作,比如我们问完天气之后跟副驾感叹最近北京怎么一下子要到零下了,就不会打断正在播报的天气。
第二,小鹏配备了双音区语义识别,谁唤醒听谁的。也就是说如果这一轮唤醒后的对话由主驾发起,那么其他人再怎么说它都不会理会,这样就避免了一些车控功能被车上的儿童误触发操作造成一些安全隐患。
这种一次唤醒连续对话的形式其实更加人性化。目前在免唤醒上,多数车企仍然采用的是固定免唤醒词的方案,但形式的单一死板导致实际触发使用体验感较为一般,而且命令词非常有限,也无法做到与乘客间对话的区分。而小鹏在技术上的进步和优化就很好地解决了这个问题。
可见即可说
这一点可以说是全场景语音最直观的体现了,一句话概括就是凡是在屏幕界面上有的都可以用语音控制。通常我们通过语音导航、听歌、蓝牙、WiFi等,系统基本上可以帮我们完成主要的指令或显示出功能页面,但一些更细节的调整,像切换下一个选项卡、下划翻页、点击某一个按钮,往往还是需要我们去点击屏幕。而有了可见即可说,你会感觉系统可以听懂你要点哪,就像一个声控鼠标一样。
比如直接说“氛围灯绿色/蓝色”,系统就能自动调整;打开小鹏实验室页面上,只需要直接说“高”,就能直接设置将屏幕上显示的哨兵模式灵敏度设置设为高。你可以直接说出屏幕上的关键字,系统会替你选择,而且如果内容过长也不怕。比如你要关闭应用使用限制,系统需要我们勾选已阅读选项,我们只需要说“已阅读”而不用说完整句话;当你在开车想选择音乐时,只是瞄了一眼屏幕可以直说“加州”就可以播放加州旅馆,甚至只说“big”就能播放目前屏幕中歌名带有“big”的歌曲。
我们通过视频已经更直观地感受到现在小P的强大能力,这已经可以说脱离了传统指令式交互的范畴,将语音交互上升到了一个新的高度。尤其是在这一点上,让你真正感觉好像它真的像人一样可以听懂我们说话,突出了普通语音模式的一个“傻”。
广泛理解,但精准控制
更人性化的还在于系统对于同一种命令更广泛的模糊识别,我们不用在刻意地用一种所谓“机器语言”跟它交流。直接说“向下吹”、“向右吹”、“避人吹”,而不是空调调整到XX模式;座椅不舒服可以说“主驾座椅调后一点”或者直接“调到最后”;哪里不知道要怎么设置也可以直接问“单踏板模式在哪里”。我们不用再思考菜单层级,如何才能一步一步到最后的设置页面,语音只需一步就直达具体的功能点,完全打破了我们之前体验的交互逻辑。
不仅如此,在相对广泛的识别能力之上,语音控制却有了更精准的控制能力,语音控制的车窗开关精确到1%、空调10速率6风向28级温度调节、歌曲精确到1秒级进度调整,“车窗开到23%”、“歌曲前进37秒”、“地图比例尺设为100米”这些已经统统可以实现。
私人定制
这是车云菌最惊喜也是最喜欢的功能,可以针对一系列常用的功能设定一个快捷方式,充分体现了小鹏语音系统更高阶的个性化能力。用过iPhone上快捷指令或者macOS上Alfred的同学们应该感到很熟悉,它可以让你一步一步自由定制输入命令、执行功能、语音回馈等各项步骤,通过简单的组合实现一个专属于你的一串动作。直接来看视频:
另外,在Xmart OS 2.0.1上穿着宇航员的小P形象现在支持自定义设置,系统为它提供了4套衣服,但更重要的是你可以扫码上传照片,将小P的头像换成你家娃、宠物、偶像戴着头盔的样子。
还有一个小彩蛋,长按左上角小P的头像拖动到左侧音乐选项卡上,左侧边栏就会直接完整显示小P的形象,它会根据音乐的律动跳舞。
什么才是智能汽车的最佳交互?
我们其实逐渐经历了这么几个车上人机交互的阶段:
- 第一阶段:基于物理按键的交互方式,仅支持少量命令集。这一阶段通过手动完成空调调节、车窗开关等基础操作,导航、音乐等应用通过手机操作。
- 第二阶段:基于图形界面的交互方式,在大屏上将可操作的应用数量提升至少量应用集。这一阶段通过手动完成空调调节、车窗开关等基础操作,导航、音乐等基础应用通过车机大屏操作。
- 第三阶段:基于丰富应用生态的交互方式,随着大屏的应用及指令层级不断复杂化,智能语音成为车内最佳的交互方式,这种交互能够让用户更集中精力驾驶、更便捷操作车载功能。这一阶段空调调节、车窗打开、导航及音乐使用等所有的操作都可以通过语音解决。
根据小鹏的数据,2019年每日有效语音指令数为12次,2020年每日有效语音指令数已提升至25次,2020年小鹏P7语音平均日使用率93.2%。显然,已经步入第三阶段的我们需要的自然是更好用的语音交互,而全场景语音则是小鹏在现阶段为我们提供的一种优秀的方案。全场景语音的“解放双手”比自动驾驶来得更彻底,让你在车上可以实现完全不触碰屏幕就可以完成各项功能,让我们可以专注于全自动驾驶时代之前最后的驾驶任务。
依靠实时在线的云端语义处理技术,小鹏得以在语音交互上几乎取得了目前国内市场领先的位置。从实际体验来说,无论是功能的丰富程度、交互的自然程度,还是一些小功能和细节的惊喜程度,都可以说几乎是表现最好的,几乎也只是为了严谨一点。即使是暂时离线,语音系统也拥有足够的基础语音命令来保证一定的语音交互能力。
从借鉴到领先,小鹏率先推出的全场景语音已经令他们走在了智能化和语音交互的前面,别看这好像看起来只是一次语音的升级,背后反映的却是人机交互逻辑和体验的改变。小鹏更懂中国了。
●强势布局!它才是智能汽车领域的“技术老手”!
●日产加速全球转型,东风日产专注中国落地
●一汽-大众第八代高尔夫跨界突破,云游科技企业打造“数智化”多维场景