创业六年，声网要为实时音视频服务建一个云市场

我们其实就是把这个通道做好，把音频打开，视频打开，延迟控制好，清晰度控制好，让大家可以交互起来，去创造价值。

作者 | 李威

这是「新商业情报NBT」报道的第528家创业公司

“我们声网虽然已经做了六年了，但是说起来的时候媒体的朋友还要问你们到底做什么的，你们做的东西平常会在哪儿碰到？”声网创始人、CEO赵斌在演讲开场时说道。

声网创始人、CEO赵斌

在声网首席科学家钟声看来，声网正在做并且未来也会专注去做的事情，就是要在虚拟的世界里找到具有真实面对面生活体验的音视频实时传输质量，也就是让实时音视频传输不卡、不糊、不延时。然后将这种技术能力做成简单易用的SDK，开放给开发者和合作公司。

在创立声网之前，赵斌曾经在YY担任CTO。声网成立后，结合客户需求推出了针对各个行业的定制解决方案，以及云存储、RTM、语音识别、鉴黄等功能。2018年11月，声网完成了由科技股对冲基金Coatue Management领投，SIG海纳亚洲、晨兴资本和顺为资本等老股东跟投的7000万美元的C轮融资。

声网的产品演进是一个不断进入各个不同领域，满足合作伙伴和开发者需求的过程。从这个探索过程中，声网得以在实时音视频传输方面建立和完善自己的技术能力，并将这种能力输出到社交直播、教育、游戏、金融、医疗、企业协作等10余个行业，100余种应用场景中。

声网公布的数据显示，目前大多数的社交泛娱乐企业和在线教育企业均采用声网提供的实时音视频解决方案。其中，包括陌陌、斗鱼、虎牙、抖音等社交泛娱乐企业；VIPKID、好未来、火花思维、一起作业、掌门1对1等在线教育企业。

在10月24日的发布会上，声网宣布将在11月上线Agora RTC SDK3.0，Q4季度上线实时音视频质量透明数据产品水晶球2.0版本，并开源了自研的音频编解码器Solo。同时，声网还联合商汤、搜狗、阿里云、金山云、Unity、Cocos、依图等34家合作伙伴共同发布Agora 云市场全球合作伙伴计划。

“声网从创立一开始就是一家专注于在技术能力开放上进行价值创造的公司。”赵斌表示，“经过这么多年，我们确实通过跟这些合作伙伴和开发者的合作，逐渐看到和证明了在RTC（Real-Time Communication）领域丰富的使用场景和使用价值，能给消费者和同行创造更大的价值空间。”

技术与服务是杀手锏

“我们在同一个房间里，人自然就能实时交互，但是如果离得很远的话，必须找一个实时交互的通道。我们其实就是把这个通道做好，把音频打开，视频打开，延迟控制好，清晰度控制好，让大家可以交互起来，去创造价值。”赵斌表示。

成为通道，既离不开技术的不断创新和积累，也需要面向B端用户的服务能力。其中，技术的难度和复杂度决定了企业的价值深度，服务能力影响着技术在不同应用场景的落地情况。

在面对面的交流里面，每一个表情、动作、自然反映，甚至沉默都有着一定的含义。如果技术造成了可以感知的延迟，那参与互动的双方将无从正确解读对方动作中的含义。为了达到真正意义上的实时互动，声网提供的服务必须保持400毫秒以内的延迟。

目前，基于SD-RTN™全球传输网络，结合智能动态路由和Last mile算法，声网能够实现通话互动少于400毫秒延迟，视频直播少于800毫秒延迟。声网目前在60%丢包的情况下能保证音视频的流畅，70%的丢包下面保证音频的流畅，并支持单频道百万人以上的并发。

在视频方面，声网建立了新的神经网络模型和算法，研发了视频超分辨率技术，可以将实时传输中的视频在原有分辨率的基础上实现两个方向的2倍同步放大，并获得比较明显的细节增强。

在音频方面，声网基于人工智能算法开发了降噪和丢包补偿技术。急救场景中，降噪功能可以有效降低救护车上的噪音，保证医务人员能够在救护车上进行实时的急救指导。丢包补偿功能则可以在25%的丢包下，明显提升音频的质量。

在保证一定效果的前提下，声网对人工智能算法模型进行了优化和简化，以适应移动端的使用需求。同时，声网做到了iOS、Android、Web、Windows、macOS、小程序、Linux等全平台覆盖和对6000多款智能终端的支持。

在服务上，声网团队一开始觉得把技术做好，就可以大规模地让客户使用他们的产品，但是在做的过程中，声网团队逐渐意识到做好服务，可以加速让客户应用实时音视频服务，也是核心竞争力的一部分。为了更好的服务于用户，声网员工甚至付出了比用户员工更长的工作时间。

“我们第一位服务的还是开发者，即便服务的是企业，其实最直接使用我们的仍然是这些企业内部的工程师，他们会把我们的概念集成进去。”赵斌说。声网目前在全球的网络覆盖超过200多个国家和地区，保证为客户提供365×24×7天、多语言、多地区的服务。

与开发者共同探索

“最早的时候，这个行业是没有的。”赵斌刚开始进入这个领域的时候，既不知道它会以什么样的方式出现，也不知道可以在哪些领域中创造什么样的价值。

“做2B有一个边界线很难分清楚，多大程度上帮助开发者和用户。”赵斌认为，在技术与服务之外，2B的企业还需要有前瞻的需求洞察能力，“只有把资源投到需求特别旺盛、特别集中的领域，同样的资源才能帮到更多的人。到底哪个场景会长很大、有我们的需求？这个判断很难。”

公司成立的2014年，声网一直在进行产品的研发。直到2015年，声网才正式对外提供音视频服务，当时每天的分钟数在百万量级。2016年，声网推出了基于UDP（用户数据报协议）的连麦互动直播SDK，虽然服务的日分钟数增长了6倍，但仍是在百万量级。

在这个过程中，声网负责将实时音视频技术能力通过自己搭建的基础设施和前端的SDK提供和开放给合作伙伴与开发者。然后由开发者根据自身的业务场景，将这种技术能力转化成服务用户的能力。

但是真正的爆发点还要等到2017年，狼人杀的走红帮助声网一下将服务的日分钟数提升到了1亿分钟量级。然后在2018年，社交和在线教育的发展，帮助声网在当年实现了用户日使用时长3亿分钟的服务量级。2019年，这个数字则达到了6亿。

“在社交和教育场景下，今天的用户已经习惯了实时音视频服务的各种基本用法，下一步实时性提升到一定程度的时候，会创造比以前好很多的体验。”赵斌表示，在音视频服务的基础上，手机上可能会产生互动性、沉浸感更强的新型娱乐节目或娱乐内容。

“技术上已经完全具备了支持百万量级的用户同时进行超低延迟或者实时大屏直播的能力。这百万用户在手机屏幕上，既是亲身参与者，也是见证者，也是观看者，比坐在家里看电视更有意思。”赵斌期待未来的直播中，观众将不止依靠道具和表情进行互动，而是能够直接用尖叫或者动作来表达自己的情绪。

在5G已经开始进行商业化的当下，实时音视频服务会作为基础设施被运用到越来越多的场景和行业中，成为人们生活中不可缺少的一部分。在专注提供实时音视频服务的同时，声网会与多方合作，将不同的能力提供给开发者，满足其在基础服务之外的更多需求。

为此，声网发布了“Agora云市场全球合作伙伴计划”，准备构建一个更为完善的RTC实时互联网生态。这个生态目前可以为开发者提供平台、产品技术、集成开发、渠道销售、技术标准合作等多种服务和能力支持。

“我们希望所有的开发者都能够像玩儿乐高积木一样，在云市场里面找到自己想要的，像云鉴黄、口语测评、手势识别等不同功能的模块，在自己的电脑上几行代码就可以实现一个互动课堂或者语聊房。”声网合伙人兼市场运营副总裁曹璐说道。

以在线教育行业为例，声网的一站式解决方案以SD-RTN™作为底层技术支持，结合第三方合作伙伴的业务能力，提供互动课堂所需要的基础功能，包括口语测评、AI降噪等音频功能；美颜、人脸识别等视频功能；以及白板、内容审核等辅助功能。

在RTC 2019上发表演讲时，赵斌提到了美国互动健身平台Peloton的案例，在他看来实时音视频技术与动感单车结合带来的改变会发生在越来越多的传统行业中，而声网要做一家慢公司和静公司，深耕行业专心研究，寻求长期的机会。

【转载】加微信号：xinshangye233

【商务合作】加微信号：sansheng_kefu

【爆料或寻求报道】加微信号：Hoffman3056

主编正在输入...

你期待哪些互动新玩法？

创业六年，声网要为实时音视频服务建一个云市场｜创公司

相关推荐