思必驰联合创始人俞凯:培养人工智能生态,实现企业共赢
俞凯拥有学者和创业者的双重身份。在学界,俞凯是上海交大计算机科学与工程系研究员,智能语音技术实验室主任;在产业界,他是思必驰创始人、首席科学家。
俞凯在人机口语对话交互的主要核心技术领域进行了广泛研究,在国际一流期刊和会议上发表论文 100 余篇。多次担任 InterSpeech 等国际会议的对话或语音处理领域主席,2014 年获得中国人工智能学会颁发的"吴文俊人工智能科学技术奖"进步奖,2016 年获评"科学中国人年度人物"。
思必驰联合创始人 俞凯
从 2002 年到 2012 年,俞凯在剑桥度过了十年。前 5 年他专注在语音识别,研究方向包括了声学模型、语言模型、系统搭建等语音识别的核心模块。后 5 年,俞凯将主要精力放在了对话上,包括端到端对话系统、自适应个性化合成、语义理解、对话管理、端到端系统架构等。曾与剑桥导师、剑桥大学皇家工程院院士 Steve Young 教授、Blaise Tomson 博士一起创办了英国语音技术公司 VocalIQ 。
在剑桥的中期,也就是 2007 年,俞凯意识到整个人工智能的发展必须有底层基础技术的持续创新,如果没有自己的原创和持续创新的能力,技术落后就会成为必然。于是,他与剑桥校友高始兴共同创立了思必驰。
在思必驰,俞凯开始大显身手,曾带领思必驰多次在美国国防部、美国国家标准局组织的大规模语音识别评测,国际研究机构组织的对话系统挑战赛等国际评测和竞赛中获得冠军,也是国内唯一一个真正在美国国防部和美国国家标准局的语音识别评测当中拿过冠军的企业。
以下是 TGO 鲲鹏会采访俞凯博士的实录:
TGO 鲲鹏会:听闻您在思必驰担任过很多不同的角色,能简单介绍一下吗?
我其实是思必驰的第一任董事长。2012 年思必驰拿到第一轮融资之前,我的身份是一直是 CEO 。融资之后,CEO 需要更多的精力处理技术之外的事情,于是思必驰的 CEO 换成了高始兴,我的身份变成了董事长。但是,思必驰拿到第二轮融资之后,股东之间的协调工作量也开始增大,我认为这一块的事情也需要剥离出去。为了专注推进技术,我卸任了董事长一职,转而担任思必驰的首席科学家。
TGO 鲲鹏会:思必驰同时被中国和英国政府评为高新技术企业,也代表了中国的前沿技术,能否说一下思必驰的创新技术?
从个人经历来看,我是国内唯一一个真正在美国国防部和美国国家标准局的语音识别评测当中拿过冠军的。这里面需要解释几点:第一,国际评测有很多,但是部分评测比较复杂,能参加的队伍极少,部分门槛相对较低,能参加的队伍就比较多。比如,说话人识别的冠军,国内的部分企业和科研院所都拿过,几乎年年都在换,而语音识别能参加的队伍非常有限,历史上参加过语音识别冠军的企业或机构全世界不超过 10 家,其中剑桥一直是第一。当时我在剑桥搭的系统也拿了国际的冠军。
另外,思必驰也是国内唯一一个真正在端到端的口语对话上拿过国际对话挑战赛冠军的企业。这两个都属于 Hard code 国际评测,都是很综合、很系统的评测,参加的单位都比较少,因为很多单位没有足够多的资源可以来支持这件事。
TGO 鲲鹏会:在您的推动下,思必驰与上海交通大学成立了 Speech Lab联合语音实验室,可以介绍一下这个实验室的研究成果吗?
思必驰的交大联合实验室使得我们一直拥有基础研究能力,我们有几个能力都是国际领先的:比如在抗噪的语音识别方面,在 Aurora 4 这样一个国际的标准测试集上面,从 2015 年底至今我们始终保持着全世界最低的错误率。7.09% 的词错误率,相比于世界其他机构目前 10% 左右的最好结果,有一个大幅度的明显优势。这个测试集在语音识别的研究界使用了 20 多年,所有的你能够想到的最好的学校和机构,包括 IBM 、微软都在这个上面测试过,所以这个错误率是可比的。这里我们讲的是单系统,在语音识别的解码的搜索速度上面,我们在 16 年发布的算法,搜索速度提升了 5 到 7 倍,这个是有论文发表以来提高最大的。
除此之外,思必驰在对话状态跟踪的国际挑战赛上,语音转换、语音合成的一些竞赛上都名列前茅。另外,思必驰本身在和客户交流的过程当中也有一些第三方评测,整体评价都比较高。思必驰可能是唯一一个或者少数几个公司之一,有能力同时给阿里、腾讯、小米、联想、富士康这些大客户提供服务。这些都代表着思必驰本身的技术实力。我要强调一点,这个只是我能给你讲出来的很多东西当中的一小部分。我们因为有这些基础,所以能够不断地、层出不穷地找到新的方法,也比较适应现在人工智能整个技术发展高速迭代的情况。
TGO 鲲鹏会:能否详细介绍一下思必驰的 DUI 对话定制平台?
俞凯:DUI 平台实际上是国内第一个把对话概念引入进来的平台。所以如果要谈思必驰是一家什么样的公司,第一个关键词就是"人工智能"。什么人工智能呢?大多数人可能想到的关键词是"语音",我们一直强调的不是"语音",而是"口语对话",也就是"言语对话",既包括对语音又包括对语言,更重要的事情是解决交互。我自己在国外前 5 年研究语音识别,后 5 年研究对话系统,这两个是有分别的。DUI 平台的前身是我们 2013 年发布的对话工场,我们把对话这个概念引到国内研究,思必驰也是第一个发布这个概念的企业,对话智能是整个未来人工智能最核心的部分。从 2013 年的对话工场到 2017 年的 DUI 平台,实际是原来的一个扩展,它是国内第一个大规模可定制的对话平台。你要注意这六个关键字"大规模可定制",也就是说我们所做的这个平台不再跟以前一样。
TGO 鲲鹏会:能不能举例解释一下"大规模可定制"?
比如,之前一个客户想用语音合成技术,其他客户也想要,他们都希望自己是独有的,与众不同的。现在我们所做的大规模可定制就是用一些先进的技术,在语音识别、合成、理解、对话、交互这些层次上帮助客户实现个性化定制,这是 DUI 平台最主要的一个特点。再详细一点说,DUI 平台实际上是一个面向应用的平台,所以它不单单有核心语音技术,还有四大系统服务开发者,在实现对话的几乎每个环节都可以实现自由的定制,其他地方是也有本地的 SDK ,在 DUI 平台上,用户可以根据自身产品特性自行定制语音功能,比如说图形和语音的结合,比如说唤醒词的定制,比如说我前面改了一些语义理解,几乎就是立刻你手机上东西就能用了,你想想这个多快?
TGO 鲲鹏会:它是模块定制好的吗?
俞凯:不是,它实际上是在网上定制好了之后,我们有一个本地的玲珑系统,这玲珑系统你可以把它看成是个本地的 AI 操作系统,就是架在底层的计算系统之上的一个人工智能层的操作系统,是个通用的东西。它并不是直接执行某一个特定的语音命令,它可以去用各种各样定制好的模型,而定制好的模型就是从云端传过来的,所以很快就更新就好了。
还有一个天机系统,天机系统的意思是,它可以去做各种各样的数据分析和统计,也就是说之前定制的时候只是给了一些基本的技术。比如,你是个应用开发者,那没有办法帮助你去理解各种各样的真实用户。你的用户里面有多少人是四川人,有多少人是上海人,怎么统计呢?你得找以前的技术提供方案,特别麻烦。我们是自己用的一套系统,所有的这些统计都可以自己通过定制的办法实现。
第三个青囊系统是负责 DUI 服务力和研发支撑的子系统。青囊负责记录和跟踪开发者反馈的问题、后台的 bug 修复和更新、以及跟踪开发者的使用情况,并随时系统内保持优化,极大地缩短了从发现问题到解决上线的闭环联调,便于平台整个研发体系和流程的打通和管理,保证 DUI 的良性发展。
还有一套是紫微系统,负责对后端内容进行对接,以及接口标准化的封装,并兼容 AVS 服务,让开发者能够方便地完成调用和配置。对话的最终目的在于让机器明白任务意图,需要大量的第三方内容和服务作为后端支撑,满足用户的个性化需求。DUI 平台本质上并不单单是一个提供技术的平台,它本质上是提供了一个全方位的开发者服务的平台。
TGO 鲲鹏会:从目前来看,思必驰正致力于解决理解、决策和表述等认知智能领域问题,能简单介绍一下进展吗?
俞凯:现在思必驰解决这些问题的过程当中,有一部分是理论的进展,有一部分是实践的进展。理论的进展,我们在对话跟踪挑战赛上取得了国际最好的成果,包括现在我们对统计的这套管理,我们在实施一些新型的框架。之前,全世界统一对话管理上线都多多少少有些问题,性能不够好,我们现在有一些融合的办法,能够把这个东西做到可以上线,所以现在理论的框架已经突破了,现在正在进一步前进。另外,我们做问答理解,我们在问答聊天方面提了一些可控制的问答,我们提了一些新的方法可以做到生成式的可控制的聊天,这些都是比较先进的东西。
TGO 鲲鹏会:思必驰的对话系统已经涉足智能家居、智能车载、机器人这些领域,以后还会应用在哪些场景中?
俞凯:场景非常多,现在你看到的主要是智能硬件这一部分,而智能硬件自身包括云服务,它在其他更多的领域里面都可以得到广泛应用,比如说金融教育、呼叫中心、医疗、政务、安防等等,总结起来就是智慧城市,这些都是可以得到非常广泛的应用的。
TGO 鲲鹏会:现在有开始向这方面扩展吗?
俞凯:有的,这个就涉及到思必驰整体的布局。首先思必驰是提供整体解决方案的,但思必驰还有面向智能服务的,面向不同的领域去做定制的解决方案等,这些都是从不同的角度去分的。所以思必驰的布局分两个层次展开:一个层次是思必驰自身提供这些解决方案给相应的公司,另外一个就是思必驰有两支基金,围绕着大生态,我们也在投资一些企业。所以思必驰一个核心点就是,你可能看到的并不完全是思必驰自己做一款产品,这是思必驰理念和别人不一样的地方,思必驰是希望能够合作共赢,培育人工智能生态,希望能够有更多的垂直领域的公司成长起来。这样的话,专业的人做专业的事,然后才能有更大的人工智能的势能出现,所以思必驰是通过赋能来实现的,因此这个布局我们是通过和其他各方合作,以及一些生态投资来实现的。
TGO 鲲鹏会:我们聊点跟行业相关的问题,您认为中国的人工智能技术水平在国际上处于什么位置?
俞凯:从应用技术的水平上讲肯定是领先的。通过使用手机你就会发现,我们的很多应用性的创新已经走在了美国的前面。但是研究型的,包括底层技术、原创技术,我认为中国属于国际先进,但还不能叫领先。我们还没有做到有什么东西是能领着别人走的。
TGO 鲲鹏会:您觉得什么样的企业应该发展人工智能技术?
俞凯:需要的企业。为什么这么说呢?人工智能只是提供了一些新兴的计算方法、传感方法和分析方法。这些东西如果在原有企业的运作链条当中有涉及,只要涉及到信息流,基本上人工智能或多或少的都能够用进去。我认为几乎所有的传统行业都需要一些人工智能。但消费类产品,与信息科技相关的,它需要的程度会更大。
TGO 鲲鹏会:您对于刚开始学习人工智能的技能人什么建议吗?
俞凯:我觉得技术方面肯定是从深度学习开始,这是毫无疑问的。只要自己有一定的基础,在网上可以找到很多的东西学。但是,从应用的角度讲我还有个建议,就是算法代替不了对行业或者具体应用的理解,举个例子,假如一个机器学习专家不擅长做产品但可以去做研究。但是,如果想做应用产品,那么,如何把算法和实际的应用结合在一起,如何深刻的理解应用并且从现实当中去总结出人工智能的基础问题,再有解决问题的手段,这才是最重要的核心能力。