智能语音成“AI四大项目” 千亿市场待开发

11月15日,科技部召开了新一代人工智能发展规划暨重大科技项目启动会,公布了首批国家新一代人工智能开放创新平台名单,并宣布分别依托百度、阿里云、腾讯、科大讯飞这四家公司,在自动驾驶、城市大脑、医疗影像、智能语音等四领域建设国家新一代人工智能开放创新平台,其中科大讯飞作为BAT外的第四极以“智能语音”项目入选,让这家公司格外引人注目,而语音识别和无人驾驶、城市大脑等项目并列,也看得出其在应用层面的重要性。

有研究机构指出,2015年全球语音识别市场规模约为61.9亿美元,预计到2020年可以接近200亿美元(约等于1200亿人民币)。但也有业内人士认为,语音识别市场已告别过热,进入理性期。

22种方言 一样能识别

2017年11月7日,在上海举行的中国国际工业博览会(简称工博会)上,科大讯飞在工博会首次设立的人工智能专区中展示了晓译翻译机以及讯飞听见系统。

  

展台上,一台装有讯飞听见智能会议系统的笔记本正在不断记录着讲解员的话,从现场演示效果看,不仅可同步记录,准确率较高,简单的英文也能翻译出来。据讲解员表示,这套系统的语音识别准确率在95%以上。科大讯飞相关人士告诉《IT时报》记者,以讯飞输入法为例,其通用语音识别准确率达到98%,并能够识别22种方言。针对少部分口音不标准的用户或者讲方言的用户,还可以进行个性化识别。

  

北京捷通华声科技公司也是一家从事智能语音、智能图像、语义理解等人工智能技术的公司,在总经理武卫东看来,语音识别在通用领域平均准确率达到95%以上,在一些特定行业应用领域,准确率可以高达97%。“大多数做语音识别的公司,基础都是建立在深度神经网络上的,运用机器学习、建立基础模型,没有很大差异。彼此之间的区别在于解码器技术、大数据基础、并行网络等,这些差异会构成行业内的差异化竞争。” 武卫东表示。

在这些差异化因素中,最重要的是大数据基础,用武卫东的话说就是,“深度神经网络的方法,是通过大量的语音数据,训练出高精度的声学模型和语言模型,从而提升识别率。数据量决定了语音识别的准确率,也能提升领域覆盖度。”一般来说,数据来源主要是在云端App产生的数据以及行业应用中真实场景的数据。

训练计算机学会自我分辨

  

让语音秒变文字,在极短的时间内,机器内的语音识别系统已经经历了一个极为复杂的分析过程。

“当你对着手机说话时,目标语音首先被数字化并送入系统的前端模块,前端模块主要包含语音信号处理和语音特征处理两部分。信号处理部分是为了改善识别效果受环境噪声、信道畸变等因素的影响,而特征处理则是将输入的语音进行某种符合语音识别需求的‘转换’,即让手机听懂‘人话’。”科大讯飞相关人士解释,在确定了上述的语音特征处理等规则之后,接下来就是进行模型训练,又分为声学模型训练和语言模型训练,教会机器学会“哪个字词发什么音、该怎么连在一起读”以及“什么样的命令或文字组合是合理的。” 此外,解码引擎的运算效率至关重要,直接影响用户体验。目前,科大讯飞的解码引擎可以在用户说完话40毫秒之内给出结果。

  

目前在语音识别方面,大多数公司正在做的是无监督/半监督训练。“通俗点讲,就是让机器在没有人工干预的情况下,进行模型训练。比如在用户使用机器时,机器会结合用户个性化的发音特点,优化模型,提升识别率。”武卫东向《IT时报》记者解释说。

在业内人士看来,每提升一个百分比的准确率,都是质的飞跃。这不仅要相当完善的数据库,满足这样的准确率还得有效率较高的识别提取算法和自学习系统。

可落地商业生态还不多

  

如今,语音识别在应用落地方面也在发力,比如,在消费娱乐领域,VR游戏引入语音识别技术后,玩家可抛弃游戏手柄,真正做到沉浸式体验。在对AI需求旺盛的智能家居领域,更是如此,越来越多的家居加入了对话功能,达到提升生活智能化的目的,甚至在解锁、支付等方面,能确认说话人身份的声纹识别也在流行。

金融、医疗、客服等B端领域,智能手机、PC、移动应用等C端领域,公共服务、智慧城市项目等G端领域都是语音识别的聚焦行业。在易观国际分析师王京京看来,目前语音识别技术的落地也存在一定困难,“比如,B端市场的应用核心在于降本增效或者解决痛点,如果语音识别/语音交互不能明显地为企业降低成本、提升效率或者解决某些痛点,企业就缺乏应用的动力;C端市场的落地在于交互体验、使用习惯和商业生态,现在的语音识别效果和效率还不能达到十分完美,在一定程度上影响了用户体验。而且大多数场景下,用户原本的交互习惯已经形成,除非像车载这样对语音交互有刚需的环境才能达到比较高的渗透率。”

BAT和初创公司都有机会

  

从技术层面上说,目前,市场上已有的语音识别公司的差异并不大,王京京告诉《IT时报》记者。要形成差异化竞争,需要在某些细分应用领域中深扎下去,通过提供完整的行业解决方案来增加获客、完善生态,从而形成行业壁垒。

  

AI热潮之下,只要是属于AI领域的细分市场都受到创业企业的追捧,BAT也不会错过。以语音助理为例,最大的布局者是阿里巴巴,其次是百度的度秘,最后是今年5月腾讯发布的叮当。百度近几年在人工智能方面投入巨大,试图寻找下一个机会点,其语音技术也已集成语音识别、语义理解、深度问答、多轮对话、情感分析、语音合成等能力,语音交互能力在搜索、地图等产品中均有体现。

  

BAT等互联网巨头的入局是否会对其他企业造成影响?在不少业内人士看来,目前还不明显。“人工智能产业不是一家公司就可以包打天下,必须要建立产业生态,不会形成寡头。”武卫东这样认为。

  

在王京京看来,虽然BAT也在语音识别方面发力,但语音识别创业公司更有条件深耕细分应用领域,提供一体化解决方案,BAT的重心更多是在偏通用型的语音技术以及服务自身业务布局上。

  

有市场,就会引来投资者,语音识别领域也不例外。事实上,语音识别领域的投资很早就开始了,近几年的投资热度并不亚于计算机视觉/人脸识别。从整体来看,语音基础设施层的投资布局已经基本建立,接下来资本会更多关注细分和差异化的语音应用领域。“目前,资本方对技术并不看重,主要看重变现能力和商业模式。”武卫东表示。

相关链接

生物识别做唯一密码要当心

  

当生物识别成为密码,就意味着面临被窃取甚至是被攻破的可能性。声纹识别和语音识别最大的差异就是,语音识别的目标是电脑自动将人类语音内容转换为相应文字,但并不能确认说话人的身份,声纹识别的目标则是确认说话人的身份。

把声纹识别用在支付、安全等特定领域,对于声纹识别准确率的要求很高,误解率要控制在万分之一甚至百万分之一。但是武卫东也坦言,单一的生物识别验证肯定有被攻破的可能,因此,捷通华声在进行生物特征验证时,采用多项生物特征交叉验证的方式,形成融合。“比如声纹+人脸+证件,在用户体验上,要做的就是这几个步骤融为一体,比如在进行声纹验证的同时,摄像头自动打开,进行人脸识别,尽量缩短验证过程,最大化进行安全和便捷的平衡。”

但在信息安全身份认证资深专家、众人科技创始人谈剑峰看来,生物特征的唯一性恰恰是其最不安全的根源,“现在大家考虑的都是终端安全,认为在终端上用自己唯一的声纹、人脸进行验证很安全,但没考虑到这些生物特征被采集之后会存储在服务器上,一旦服务器被攻击,风险极大。密码学中有一个原理就是可更换,但生物特征具有不可再生性,只能用在抓取罪犯等特殊场景中。”

(0)

相关推荐