手机交互新畅想:语音识别会这样干掉触摸屏
__________________________
前些日子有一则视屏为大家带来了很多欢笑,一个山东的朋友为自己的爱车装上了语音助手,结果最后却被这个语音助手搞得火冒三丈。视频在下面,没看过的朋友可以拿来测试一下自己的笑点。
娱乐归娱乐,看完视频我们不禁陷入了深深地思考中,曾今被热炒的语音识别怎么就变得这么鸡肋了呢?
难道这又是一个“伪命题”么,现在的语音助手最大的缺陷在哪些方面,未来他们要做出哪些改进才能承担我们“私人管家”的重任,声称要取代触摸屏和大多数App的语音助手能够成功么?以上这些问题都深深困扰着笔者。
但是“拨开阴云见明日”的时候到了!昨天某公司公布了全新语音助手Bixby的部分特性,主要有三:
① 一个应用支持Bixby后,用户可以通过语音操控执行之前需要触摸进行的任何操作,也就是说通过Bixby我们可以用语音指令完成复杂的操作;
② Bixby拥有理解语境的能力,可以识别用户是在和别人说话还是和“自己”发送命令;
③ Siri等语音助手需要用户输入固定模式的精确语音信息才能执行相应操作,但Bixby足够聪明,Ta可以理解不完整、模糊不清的语音,甚至是“言外之意”。
从以上三点我们基本可以确定,未来的语音助手是可以避免之前那个搞笑视频中的种种缺陷的,例如把用户和他人的对话识别为指令、不理解用户的情绪等问题,并且更加重要的是,“一问一答”机械式的尴尬对话再也不会出现,语音助手就是一个能和我们正常交流的“人”。
一问一答式的语音助手太愚蠢
这些让我们想起了微软、谷歌等公司以前对语音助手的观点:语音指令将完全取代在屏幕上点划的操作、语音虚拟助手将取代绝大多数功能类App。
以前各大公司在语音助手上的功夫主要下在②、③两个领域,也就是第一阶段,因为不管是方言、嘈杂的环境、复杂的交流过程都使得语音助手很难从一大堆声音信息中识别到真正有用的。
这些技术的难点主要集中在语料库的建设,还有对于语音识别系统大规模、长时间的训练上(这是一种人工智能学习能力的训练,就像AlphaGo需要不断练习才能提升围棋水平一样),对于语音助手来说几万小时的训练时间都是九牛一毛,所以这么大的计算、数据吞吐量,基本没有几个公司承担的起,要做到最好更是难上加难。
第二个阶段,而即使攻破了“听到”这个难点,“听懂”则又上了一层楼,以前的语音助手都是“一问一答”式,问什么Ta就回答什么,一旦对话中断、旁边有人插嘴,或者突然换了一个问题,那么语音助手的识别就可能出错。但是如果Ta能够“听懂”,就意味着Ta能明白哪些话是需要记录的,哪些问题是需要回应的,当达到这种程度的时候,我们的语音助手其实就很像一个真正的人了。
最后一个阶段,就是语音助手完全进化为我们的超级私人助理的过程,也就是①的过程,Ta将能够获取我们计算终端中的所有信息,然后对这些数据、图片、文件做出各种分析,随时随地提供给我们,在这个阶段语音助手就像一个什么都不会忘记、什么都会、计算能力超强的个人管家。
所以想象一下未来语音助手的使用场景:
场景一:记账软件可以下岗了,买东西后只需要平平常常地说一声“哎,又花了100元钱”,Ta听得懂并且会替你记住,不用像现在这样说“Siri,我刚刚花了100元钱,帮我记到XX软件中”,减少了不少尴尬,你也可以直接问Ta我这个月花了多少钱,Ta会直接告诉你的,所以很多App都会因此消失;
笔记、记账、待办事项等工具类软件未来都会淘汰
场景二:一场发言十分杂乱的会议中,语音助手会记录下这场会议,用户可以在会后直接问Ta:“刚刚X总说明天下午要去干嘛?”,Ta会告诉你的。用户也可以直接问“今年第一季度我们各个网点营业额情况如何?”,Ta也会从你刚刚拍的PPT照片中找到你问的信息,再也不需要开会时用笔记软件记录了;
可能会有些朋友觉得这样的助手岂不是帮人类把所有的活干了,但是细想想人工智能最后的目的不就是这个吗?但是我们总有一些创造型工作是人工智能无法代替的。
最后,笔者在这里要扭转大家“语音操控效率低”的印象,我们现在使用的触摸式交互逻辑,是典型的树状结构,我们必须一层一层地深入,达到需要的层级之后再查看我们要的信息;但是语音就不一样了,这是一种可以直达目的层级的操作方式,需要什么直接问,比如我们要找一条短信时,以前要点开短信应用、找到对话、点开、找到信息,而通过语音助手就可以直接问“刚刚马云给我发了条短信?给我看看”。
触控是典型的树状操作层级,层层深入
除了可以“直达目的层级”,语音指令还能简单地概括一项复杂的操作过程,比如要计算今年公司利润环比增长值,以前需要打开PPT或者相关资料、记下各项数据、最后在计算器中一个个算出来,而现在只需要问一句“给我公司今年利润的环比增长值”,语音助手会在后台识别、计算,然后呈现给你,效率又高又有逼格。
所以你还会觉得语音助手是一个鸡肋的功能么?之前大家觉得Siri鸡肋只因为苹果等厂商还没有把语音助手开发到最强形态,即使是语音识别准确率、语境理解、复杂信息的摘取和“言外之意”都不怎么搞的定,更别说成为一个“人”了。
语言和思考作为人类最伟大的能力,无论如何都是站在所有交互方式顶端的,大家完全没有必要对这个说法存疑。虽然未来语音确实无法完全取代屏幕(毕竟阅读、视频等信息读取的工作语音没办法帮我们完成),但是干掉触摸屏这种交互方式是一点问题都没有滴!
当3D Touch把“树”变成立体的,也就多了一些操作捷径
但是请注意笔者这里只是说的”触摸屏“,这不意味着我们的手会闲下来,触摸屏被淘汰是因为效率实在低下,其实现在已经有了3D Touch这样的屏幕,“平面树状交互结构”升级成“立体树状交互结构”,有一些近路可以走了。
未来我们的双手需要承载的交互还会比3D Touch更近一步,能像语音一样直接到达想要的层级,你要问我是什么样子,看过钢铁侠吧?
推荐阅读
【本文图片来自网络】