云知声CEO黄伟:做物联网,我为什么要自己造AI芯片(附视频) | 甲子光年
编辑:路瑶 设计:一凡
微信公众号:甲子光年(ID:jazzyear)
成立于2012年的云知声,是一家专注于物联网人工智能的公司。2014年,云知声提出“云端芯”一体化战略,今年5月发布了首款面向物联网的AI系列芯片“UniOne”,并宣布开源全栈语音交互方案。
在11月4日甲子引力大会上,云知声创始人兼CEO黄伟做了主题为《 AI芯片在物联网产业升级中的应用价值》的演讲,讲述了云知声如何一步步看到AI一体化、端到端打通的大趋势。
在这篇演讲中,黄伟主要分享了以下3个方面的内容:
1.互联网从 PC 到Mobile再到AIoT时代的演变过程。
2.AIoT 落地的典型挑战及云端芯战略。
3.云知声 AIoT 产业化历程及成果。
黄伟认为,新一代人机交互革命引领的万物智能时代已经到来。
关注甲子光年,在后台聊天窗口回复“黄伟”,获得《AI芯片在物联网产业升级中的应用价》报告PPT完整版。11月4日甲子引力大会的其他主讲嘉宾稿件和PPT将在本号陆续发布,敬请期待。
AI芯片在物联网产业升级中的应用价值
主讲人:云知声创始人兼CEO黄伟
前面牛奎光总讲了未来10年投资什么硬科技。过去很长一段时间我们投什么?共享经济。今天除了留下一批单车还留下什么?中兴事件时,我发了一个朋友圈:靠送外卖永远赢得不了竞争。
接下来,对于中国经济内生的变革,包括我们如何赢得未来的竞争,科技格外之重要。
无论是媒体还是资本方,都跟我讲过一句话,你应该专注,应该只做一点。为什么要做那么多?我很难跟他们解释,但是我认为,对的事情就应该坚持。
今天我看到AI一体化、端到端打通,跟我自己的切身体会非常一致。接下来我就讲讲在产业界真正的实践。
我今天主要介绍云知声通过AI芯片在物联网产业应用的价值。这一张PPT就一句话,既是绪章也是结论:新一代人机交互革命引领的万物智能时代已经到来。
这张图相信大家在很多场合看到过,过去我们从PC时代进入Mobile时代,今天我们已经进入AIoT时代。
我第一次用鼠标是大二,第一次上网是1998年,那时我们开始进入PC时代。但那时我们是通过打开一个IE,在IE里面用输入法输入网址,获得人和信息世界的交互。鼠标和键盘使我们能方便地在IE框里输入信息。
2004年毕业后,我的第一份工作是在摩托罗拉做手机。当年我们做手机时,三星应该算是三线品牌,基本上是第三流的,苹果只是一个小公司。但是今天我们看到,2010年开始进入移动互联网时代,那年全球智能手机出货量达到千万级别,小米成立。
我自己会把2010年作为世界移动互联网的起点。变化来得非常快。我们今天看到地球上不光诞生了阿里、腾讯这样几千亿美元市值的公司,也诞生了像苹果这样市值接近一万亿美元的公司。
回过头看,为什么Mobile相比PC获得那么大增长?以前在PC时代,我们到网吧才打游戏,进入移动互联网时代,我们可以坐在马桶上打游戏。我们可以看到,设备数量的增加,以及场景的迁移、多样化,产生了巨大的化学变化。
想象一下,进入AIoT时代后,我们身边任何一个设备,可能一个麦克风、一个灯泡、一个音箱,所有事物都是联网的、智能的。这会给整个社会带来什么改变?很多时候,这些底层技术改变的不止是某一个产品的品类,它们改变的是我们的生活方式,是我们的社会组织形态。以五年、十年为单位计算的话,这些才是真正的重大变革。
越来越多的设备连接到云端,联网的目的是什么呢?显然不是为了给供应商贡献更多流量,给中国移动多付点钱。我们希望联网后,通过各种不同的终端,在不同场景里获得更多场景化的服务。联网后,这种服务需要交互,需要AI化。同样的,所有的AI能力,不管是做的还OK,还是说离应用有差距,都需要在场景里面落地,从而往前演进。
所以,物联网需要AI化,AI要在互联网落地,是一个双向而行的过程。我们会看到这个过程越来越近。我曾经在美国Nuance工作过,这个公司以前有三大业务,手机、汽车和医疗。今天,面对互联网巨头的夹击,手机和汽车业务受到的冲击非常大,医疗却守得非常稳。
创业初期我也想过,我们能不能通过AI给医院赋能?这个想法产生是在2012、2013年,当时医院没有完全信息化,很多医院没有联网,没有联网时不需要AI。而且当时我们这些技术公司,能提供的AI能力也并没有那么好。比方说,我们当时做语音识别,那时中国一流的语音识别准确率不过90%左右,说一百个字有10个是错的,考虑大量专业术语恐怕还不止。这个时候你想去赋能,其实根本就不是赋能了,不仅没有给医生提供帮助,反而给医院添乱。很多时候,我们选择什么样的场景、使用什么能力,取决于时机和当时的能力水平。
2012年,我们成立时给公司取名云知声,英文名叫Unisound。云是云彩的云,知是知道的知,声是声音的声。我们为什么叫云知声?我们希望利用云端的技术能力,通过感知和认知的技术,感知声音世界,这是我们当时就叫云知声的原因。2012年,中国并没有真正意义的云计算,那个时候我们能够提供的只是网盘,也就是云存储。但我们相信未来很多服务、很多算法、很多算力都在云端。
为什么选择从声音切入呢?因为语音和语言是整个人工智能皇冠上的明珠。今年4月份,我在美国参加活动时看见,在中国跟美国的创业圈,人工智能都非常热,但是重点略有不同。在美国的人工智能创业圈,无论估值还是关注度,重点更多在语音语言类,或者自动驾驶这些团队,而我们国内比较关注安防,这是不同的场景。但从美国的机构和媒体关注的方向上,我们会看到,语音和语言确实是未来非常重要的方向。因为考虑到成本,很多AloT设备没有屏幕,可能连摄像头也没有。
而且人之所以成为人,是因为在过去几十万年的进化过程中,我们创造了语言。每个动物都有眼睛,包括苍蝇,但它们为什么没有进化成智慧生物?是因为人有语言。通过语言,我们能够把很多人高效地组织在一起。通过语言,知识可以传递、继承,这是非常非常重要的一点。第二点,今天语音和语言技术有很多局限性,但相比较来说,这块还是相对成熟的。比方说,今天的语音识别,不仅可以做近场识别,也可以做远场识别,甚至能识别出是你是男是女,是什么年龄阶段,在这个房间的哪个位置。基于这些,我们认为从语音切入AIoT需求,是一个比较合理的点。
其实今天所有的AI团队在谈到落地时,都面临巨大的挑战。2012年我们刚创业时,面临的挑战是什么呢?
首先是今天的主题,to B。今天,我看到大家很多人在谈论to B。但在2012年,说云知声做to B时,很多投资机构会觉得你不够性感。你为什么做to B呢?不止一个投资人跟我说,老黄你要做APP的话就投你。但是我做APP干吗呢?通过这些机构媒体的反馈,你们可以想象到,AI当时的落地非常不顺利。大家的认知还没到,那个时候大家对to B的关注,完全不像今天大会上这样。
其次是AI技术的成熟度。2016年通过阿尔法狗,大家才知道深度学习。我们在2012年就开始做深度学习了。但是从2012年到2016年,包括到2018年,很多技术依然不够成熟,不够完善。
甚至还有一个问题,技术难道就是用户想要的吗?前面浩哥说一定要全栈,一定要端到端打通,什么叫全栈,什么叫端到端打通,不同人的理解不同。可能有人说,你把语音识别做到99.5%就好了,但是有用吗?没有用。不同时间段,大家对一个问题的理解不一样。我们也面临这个问题。我们怎样把我们的能力很好地跟客户需求结合在一起呢?
我先讲一下,如果大家真正去开发一个技术,真正希望这个技术能够创造价值,会面临哪些问题。
第一是终端的碎片化。什么叫IoT? Internet of things,甚至Internet of everything。从PC到Mobile都是高度标准化的设备,PC基本上都是英特尔芯片,Windows的操作系统。Mobile基本上要么苹果,要么安卓。但是AIoT设备非常多元化,有音箱,有冰箱,有空调,各种各样。这些设备的碎片化,会给你带来巨大的挑战。怎样用一个产品,用一个方案满足不同场景中的不同客户?即便在同一个产品形态里,大客户和小客户也会对你提出不同的需求。
第二是分散的供应商。那些让我专注做一件事的朋友,出发点是好的,但他们没有意识到,时代已经变了。PC时代,公司做一个网站就可以了,一个网站搞定所有事情。那个时候很多人通过帮公司做网站赚到了第一桶金。到Mobile时代,做一个网站肯定不够了,你至少还要做APP,做各种应用市场的分发、推广和宣传。Mobile时代,我们每个公司工作的复杂度已经超过PC时代。而在AloT时代,设备变得更加碎片化、场景化,供应商也非常分散。分散的供应商加重了终端厂商的时间、财力成本。你如何用更短的时间、更低的成本,给客户提供更多方案,决定你能不能在市场上生存。今天我们的目标肯定是希望更快更好,但现实中的结果往往更分散、更慢。
第三是不可控的产品体验。我们今天已经进入AIoT时代,但很多产品经理依然在用互联网时代的思维做产品。他没有意识到,今天场景的碎片化,已经给我们带来很多挑战。很多产品经理依然希望把一个东西打散,找N家供应商,丝毫不顾忌供应商是黑盒子。比如说做一个云交互的设备,里面有很多环节,包括语音降噪,理解,合成,知识图谱等,有的产品经理会把这个过程拆成七八个链条,每个链条找三个供应商过来,相当于十几个陌生人在一个房间里做一件事情,你不知道我在干吗,我也不知道你在干吗。
第四是TTM(产品上市周期)无法保证。因为链条很长,供应商很多,产品的复杂度大大超过从前,我们要反复去调,去测试,就会造成TTM非常长,团队的开发成本很高,你的客户使用成本也很高。这会影响客户对这件事情的决策。我们一直在讲要搞定决策人,如果这个事你跟对方老大说两个礼拜我给你搞定,老大可能就马上拍板了,跟他说这事我要半年、9个月,这事就黄掉了。能不能用更快的时间满足需要很重要。
第五是如何在不同产品间快速复制。比较下to B和to C,to C可以快速拷贝,to B就是去做。但我的理解是什么呢?我理解to B有两种做法。一种是项目to B,一个客户给我提需求,搞一个团队,充分理解用户需求,搞到6-9个月,搬到另一个客户那完全不成立。还有一种是产品to B。我们认为这是两种不同的思维,对团队的要求完全不一样。用产品to B意味着需要用一个相对标准化的产品。它的技术能力和技术方案,能适应大多数用户比较共性的需求。这是比较难的,但一旦你做到了,你就可以快速在不同产品间复制。如果你做不到,注定是项目公司。你靠400人做1亿收入,明年靠900人做到2亿收入。因为人越多,内耗肯定越多,效率会下降。
我前面讲的,是自己真正体会到的,用to B的方式、用AI在场景中落地,面临的五个最典型的挑战。
2014年初,我们第一次对外提出我们的产品云端芯。我们相信,未来大多数计算能力、技术能力和服务能力,都发生在云端。端是什么?端就代表着各种不同品类的产品,包括智能音箱,包括有屏幕的,也包括没屏幕的。但是所有的端都需要终端感知能力,都需要芯片。
在2014年初,我们就认识到,即便在不同场景中,云端芯都是必须要具备的能力。2016年,华为开始提出华为人工智能战略——云端芯,和我们在两年之前提出的一字不差。今天我们可以看到,几乎所有公司,无论是BAT大公司,还是创业公司,大家基本上都在遵循这个原则:如果想满足用户需要,我们的方案、技术和产品,一定要云端芯一体化。
今天如果提供一个纯粹的SDK,毫无疑问根本不能满足用户需要。以智能音箱为例,它是非常典型的、最小功能集的物联网交互。首先,它具有感知能力,能知道你在说什么。其次,它还具有表达能力,通过语音合成、图象或其他形象化方式,将内容和信息传递给客户。除此之外,它背后还有思考能力,能通过云深入理解用户的意图,通过账号体系,把一个用户在不同场景里的使用习惯混在一起,并通过用户最接受的方式,把用户所需要的内容和信息反馈回去。这是三个简单的能力。
我们有没有可能在产品to B思维的模式下,从不同场景、不同客户的需求中,从个性中找出共性?
你对着车说话,对着音响说话,对着手机说话,模式也许不一样,但里面总归有比较趋同的东西。能不能把共性的东西放进芯片,把相对个性化、需要定制开发的东西放在云端,这是我们几年前开始思考的问题。
这个图是我们2014年提出云端芯之后一步一步做的。
2012年我们有一个开放平台,我们通过SDK的方式给客户提供服务,2012年他们也在用我们的SDK。其实我们希望以云平台为基础,找出具有典型意义的场景,我们在这个场景里做一系列的终端产品,再将终端产品通过平台连接在一起。先定义典型场景,在典型场景里满足典型用户的需求,将这些个性变成共性。共性的东西我们再通过芯片,大规模、低成本、高效率地实现万物互联。这是我们对云端芯一体化、如何在行业中落地的思考和行动路径。
这是我们一步步做的一些事情。
我们在2014年初提出了云端芯一体化,同时拿出了一个芯片模组的原型,然后开始跟大的厂商对接,2016年开始量产,到今天我们这个芯片模组出货量超过一百万片。这是一个很典型的案例,我怎么样去落地,它不是消费品,是工业产品,有更高的工艺要求。
我们在2016年开始量产,其实我们依然面临很多问题。第一是边缘算力要求。很多人问为什么你们自己做芯片?其实一开始我们不想做芯片,这玩意谁都知道很累,很烧钱,还可能失败,我在做的时候,很多人投反对票,做芯片这件事情没人给我提供任何融资帮助。大家都觉得这事做不成,也没必要做,但在那个时间点,没有任何一家芯片公司愿意跟你合作,为什么?因为这是一个新的市场。2014年,我们开始做芯片模组的时候,谁会相信今天格力美的空调会带有语音功能呢?我自己做的话,我卖给格力、美的的芯片模组就会非常贵。我只能用在格力、美的非常高端的产品中。所以你必须开发出更高算力的芯片,而且有更低的成本,更好的性能,才能在产品里获得更高出货量。我们没有办法,只有一个选择——自己做芯片。
2015年8月,我们自己组建了新团队。好在2015年、2016年,芯片还不像今年被炒得这么火热。2015年我在招团队的时候,一个有15年芯片设计经验的工程师来面试,我问了他的薪水,感觉很辛酸。我说,这个行业工资怎么这么低,还不到我们一个普通安卓开发工程师的水平。今天你看这个行业的待遇翻了四倍五倍。2015年8月,我们组建了第一批芯片团队,2016年开始启动。期间我们花了差不多一个多季度的时间来做芯片的定位。
过了两年,到今年1月15号,芯片正式出来。6月份芯片正式量产,9月份开了发布会。到今天我们已经导入接近十家伙伴,包括像格力、美的这种很大的合作伙伴。
今天很多人开始意识到芯片的重要性,开始找人找团队,用四倍五倍的薪水挖人做芯片的时候,我们的芯片已经出来了,而且不是做demo的芯片,是真正可以量产的芯片。这个芯片是面向AIoT的AI芯片,刚才好未来杨总讨论是往上走还是往下走,我的观点是这两点并不矛盾。
往上走是上九天揽月,往下走是下五洋捉鳖。未来一切东西都是在云端,区别是巨头可能有很多服务,很多技能,而创业公司可以在场景里有独特的技能,但是这个技能一定是在云端的。相比巨头,我们的优势是什么呢?我们对场景的理解更加深入,在场景里能够端到端整合的能力更强,我们有芯片,我们可以在场景里提供更好的服务,这就是我们对整个云+芯的理解。
我们的芯片用很低的成本,将计算能力提升了差不多50倍以上,带宽利用效率提升了20倍以上,所有指标都比以前有很大提高。基于这个芯片,我们的成本是卖给客户模组的几分之一。即使我明年的售价只是之前的几分之一,毛利率依然会大幅提高,这就是芯片给行业带来的巨大变革。
我们很自豪的一点是什么呢?行业里很多人还没意识到时,我们意识到了,而且做了。通过对行业的深刻理解,通过平时养成的深度思考能力,一个团队的CEO必须具备看到未来的能力。看到未来后,接下来你要做什么呢?只有一件事情,就是坚持。当你知道未来在哪里时,选择已然不多。做芯片我们想得很清楚,只能这么做,如果不这么做的话,今天搜狗也做语音,BAT也做语音,我做到99.5%,他们做到99.2%,又如何呢,他们分分钟把我干掉。我只有比巨头对行业的理解更深入,比巨头拿出更完整的解决方案,才有可能在未来生存和发展。
这个芯片的价值大家应该很清楚了,它降低了客户对这个行业、对这个产品的基础调研成本。9月份我们的芯片刚出来,现在导入的客户就接近十家。这放在过去不可想象。因为我们使用一个高度标准化的产品,降低了客户的调研成本,降低了决策周期,缩短了产品投向市场的周期。而且我们用更低的成本、更好的性能,减少了人力资源的投入,客户不需要投入很多人。今天把这些高度标准化在一个芯片里面,客户拿芯片做就可以了,而且原代码都开源。
我们的芯片能应用在不同的场景中,包括智能音箱、家电。智能音箱和家电的控制技术指标要求完全不一样。比方说,用户在家聊天时,音箱可能响了,把大家逗笑了,但格力、美的不允许空调被误唤醒了,把客户冻感冒了。我不知道现在BAT哪家音箱耐得住85度高温,耐得住85%的湿度,耐得住高压静电,但是在家电行业必须满足。
回顾一下我们云端芯的产业化落地过程。公司到今天为止六年,每个阶段很清晰,但是你要说2012年规划好了公司,我不知道,我只知道大概的方向。过去六年唯一做的是每年离那个目标更近一步。我们回头看的话,可以分为三个阶段:第一个阶段做了技术团队最擅长的事情,我们2012年做了深度学习;在没有云计算的时候,我们把AI作为云服务能力开放出来;上完天了,我们要落地,接着我们用云端芯去落地。
我们相信未来真正的云交互不应该再拿着麦克风,不应该拿着一个手机,我一直觉得回到家通过手机开灯是很愚蠢的行为,能不能一边脱鞋子一边说把卧室灯打开,主卧空调升到26度,干嘛拿手机。那个时候,我就认为真正的云交互应该给用户便捷,这种便捷应该摆脱距离控制。
因为我们相信,所以我们就坚持。在所有人还没有反应过来的时候,我们开始做芯片模组,我相信这是未来。因为AIoT既有PC、Mobile,又有智能音箱这种新的品类,它依然有巨大的存量市场,空调每年有一亿多台的出货量。我们相信,即使是这些存量设备的改革升级,市场也是很大的。包括今天新能源很火,我们发明汽车了吗?没有,汽车还是四个轮子,上面两排沙发,把发动机换成一个电池组而已,难道这不是信息化、智能化吗?很多时候,我们看行业不要看表面,要看更本质的东西。
在家居行业,截止到今年,我们的芯片出货量(家电和儿童机器人)超过300万片。在汽车领域,我们在后装市场的激活用户,接近1800万台车。两个月前,我们跟吉利成立了合资公司,我们的芯片会用在吉利的每台车上。同一个月,上汽量产使用了我们卖给格力的芯片模组。大家能想到吗,我这个芯片模组以前是给格力用的,怎么能用在汽车里面?这就是在场景里通过个性找共性。我不可能量产完之后,针对上汽专门做一个芯片模组。
我们就是拿着标准化的产品,在不同场景里切换。包括医疗,我相信AI+医疗是非常性感的业务,但很少有公司现在能在这个领域真正赚到钱。云知声通过医疗语音产品,极大地提升了医生的工作效率,如果大家有兴趣去协和医院,你会看到从门诊大厅到住院部,他们在全系列地使用我们的产品。今天,使用我们产品的医院大约有500家。也包括教育,我们也提供儿童的口语评测,每天日调用量达2.7亿次。家里有孩子的,也许你们的孩子每天都在使用我们的服务,只是你不知道而已。
大概就分享这么多,谢谢大家。
END.