声网首席科学家钟声:如何解决 RTE 高质量传输挑战?
3G 到 4G 时代,带宽增大,使得短视频兴起,也使实时互动蓬勃发展;到 5G 时代,大量新的视频应用会如海浪般涌入市场,例如基于 VR、AR、360° 的实时互动会为大众带来极致的体验。关于实时互动技术有哪些机遇与挑战?又有哪些不错的探索与尝试呢?
2020 年 11 月 21 日,在 GTLC 全球技术领导力峰会上海站 & 苏州站,声网 Agora 首席科学家钟声,从 5G 的加速发展入手,深入分享了 RTE 实时互动技术的挑战与解决方案,以下为演讲整理内容,Enjoy~
钟声,声网 Agora 首席科学家,北京大学数学系学士和博士,曾任海信芯片总经理、博通资深主任科学家、华亚微电子技术副总裁。拥有 100 余项技术发明专利。曾是 IEEE 成员,共发表了 30 余篇论文。
很高兴能有机会与大家交流,听完嘉宾关于 5G 的分享,收获颇丰,我今天的分享内容也与 5G 相关,我们都知道,“实时互动”是疫情时期以及后疫情时期的发展趋势。从二月份开始,远程工作、线上教育、游戏、社交娱乐突然变得极其火热。后疫情时期,5G 的建设速度会极大地加快并为实时互动带来新的机遇,也会带来一些问题。
5G 加速发展大概有以下几个原因:
视频流量的激增;
地缘政治的因素。中美之间的竞争、大国之间的竞争,使 5G 建设得以加速,成为制高点;
实时互动驱动的服务会出现很多新型的体验。
我们举例说明一下,视频将会朝向高清、超高清的方向发展,VR、AR、360 转播也会陆续增多,除此之外还有很多新的连接会出现,诸如 RTE + Smart Car,可以使得出行工具成为移动办公和娱乐的场所;RTE + Smart Home,可以让我们与冰箱互动随时补充家庭食物需求;RTE + Smart City,可以让我们与智慧城市的连接更为广泛。
今年 8 月份,美国硅谷发生了好几起火灾,如果可以配备有监控的摄像头进行实时的互动,就可以更早地发现火情,减轻火灾损失。
除去体验与互动连接之外,基于实时互动技术的新应用也会出现。例如,RTE + Health、RTE + Finance 、RTE + Social Care 以及 RTE + Legal 等等。
就 RTE + Legal 来说,目前在美国,法务人员可以通过远程进行取证,合理合法。RTE + Sports 方面,利用实时互动,使得不同地方,爱好运动的伙伴,可以一起虚拟比赛骑自行车,跑步,健身等等。
刚刚谈及到健康领域,再分享一下今年八月初的一篇文章,它介绍了美国的疫情之后,关于医疗健康方面的发展趋势。首先是政策方面的变化。保险公司、政府等机构均开始调整保险政策,允许报销线上问诊的费用,包括健康咨询与诊断等。比如政府的 Medicare,已经新增 135 种基于远程互动的线上服务。
新冠疫情之前,每周只有 13000 人利用远程线上咨询与问诊,7 月份左右,每周增加至 170 万人左右,约 130 倍的增长幅度,截止 7 月底有 1000 万人使用到了远程线上服务。
其次,在私营计划里,50% 的保险已经把基于最新的技术的线上问诊纳入到基本的保险覆盖中,已经有一千 4 百万人参加了这个计划。这篇文章预测疫情结束以后,这种线上问诊趋势不会停止。
就在四月份疫情期间,带宽需求突然增加,美国政府甚至要求流媒体公司下调视频分辨率,以减少卡顿。流量激增对 RTE 技术也提出了很大的挑战,我们测量了美国硅谷出现的拥堵情况,上图是 4 月 17 日的家庭网络拥堵情况,平均丢包率超过 30% 左右,最高丢包率竟达 82%。
除去带宽拥堵的挑战之外,无线信号容易受干扰的特性也为实时互动的体验带来了比较大的挑战。对于远程诊断来说,能够高质量实时互动非常关键,对于社交与娱乐来说,又何尝不是这样呢?
在体验为王的经济时代,延时、清晰度、卡顿等等因素,都直接关系到用户的观看时长以及用户留存等。
另外网络也将更碎片化,5G 网路会带来了一些新的问题。比如 5G 用户身处 5G 网络没有覆盖的地方怎么办?4G 用户和 5G 用户之间的交流怎么办?5G 用户总是试图传送一些更高清、更高分辨率的视频,但是 4G、3G 用户却无法接收它们,我们如何平滑切换?另一方面,由于地缘政治的原因(美国政府限制中国电信、中国移动在美国的运营等),跨洋数据会有更多跨运营商的传输,会导致更多问题。如何改善这些问题?等等。
解决这些问题有以下关键的几点:
首先,最重要的方面是打造敏捷性,当变化出现时候,可以及时做出响应和正确的决策,敏捷性的关键是模块化的系统设计。
其次,在网络条件千变万化的情况下,网络需要有自适应和可伸缩性,才有可能实现比较平滑的转换。
最后,在带宽受到限制的时候,我们收到的信息是有限的,因此具备给予有限的信息计算出更多的有益的信息与知识的智能是很重要的。
在这里,为大家详细讲述一下网络的自适应以及可伸缩性。假设有一个四方会议,其中的三个人都会接收到另外一个人的视频,每位参与者的下行带宽是不同的,比如低档宽带网速是 0.2Mbps、中档的是 1.2Mbps、高档的是 2Mbps,这时候大部分的做法都是以固定的码流发送视频。由于低带宽的人收到高码流会出现卡顿现象,所以他会不停地要求发送端发小一点,直到发送 0.2mbps,他觉得很 OK,但是其余两位高带宽的人收到的视频却不理想。
如何处理这种情况呢?
有的做法是发多条流,每一条流的带宽分别和接收者的带宽是匹配的,但是终究能发的流数有限。而且因为本身网络会拥堵,又同时下发了很多条流,综合来说这种方法不经济,也不合理。
比较理想的办法是「实时探知参会者网络情况,及时了解每位接收者的带宽,并且做可伸缩性的自适应下发」。
这种方式强调的是进行 Scalable coding,并且有足够的颗粒度,使得有更多的机会适应好具有不同带宽的众多观众,并且跟网络的条件进行联合编码 - 传输的优化,这样就有机会在云端做一些智能的下发策略,从一条流中找出最适合某个接收者的视频流,通过智能的决策下发。目前声网最新的方案技术上已经支持这样方式。
在理想的网络条件下,很多方案都可带来接收的体验,但是往往影响体验的是时而出现的弱网高丢包情况或者拥堵情况。例如,对做线上教育的企业来说,上课效果不好,学生的家长不满意,常常会要求退课甚至换到别的平台,企业需要花费较高的成本将家长留下来。这也就是我们提供高质量实时音视频互动服务的价值所在。
针对算法上的阻碍,我们有一些比较创新的东西,「用机器学习的算法来探知带宽的变化,估算网络的拥塞,甚至来识别数据丢包」。
(左边是公开发表的两个算法,右边是强化学习算法做出的结果)
用我们的实战案例为大家做阐述。从图中可以看到,模拟网络带宽变化时高时低,左下角的方波是理想的曲线。公开文论中的两个算法表现如下:左下角蓝色和黄色线跟踪带宽变化的情况都不理想,比如方波中带宽已经开始下降时,蓝色曲线方法才上探不到一半。左上角的带宽也不是很好,黄色这条曲线稍好一些,但是波动特别大,即便是左上图基本到了峰值带宽的时候,也会有很大的波动,这个波动可能意味着你的视频质量会不均匀的波动,不是很好的状态。
右边是强化学习算法做出的结果,相对来讲理想很多,跟踪更及时,波动也很小。这样做之后的结果是「各个链路的观看和自适应性得到了优化,每一个接收端根据自己的带宽,得到了当时可能的最佳体验;另外在 80% 的丢包率下,我们做到了视频仍然比较流畅」。
当遇到带宽不够或丢包率比较高的情况,我们只能接受码率降低,分辨率降低或者帧率降低的情况吗?今天介绍两个方法来弥补这种情况:我们可以用人工智能的算法,将低帧率变成高帧率,还可利用 AI 超分辨率算法增加低分辨率视频的分辨率和细节。
目前,有些技术可以在云端做,不过实时互动可能无法在云端实施,因为比如如果在云端将音视频清晰度提上去,数据量就会相应地增大,压缩起来较为困难,这样会增加本已经拥堵的网络状况,导致更严重的卡顿或延时,“实时”也就失去了意义,因此这些技术需要在移动端进行。
移动端进行的话需要把深度学习算法做到极致小,研发手机可以几毫秒就能处理一帧的深度学习算法,这还是有相当大的挑战。我们往往先把把基本算法做得比较扎实。
我们在生成对抗网络模型上完成了非常有效的创新。采用了 Lipschitz (这里指“ 利普希茨连续条件”)连续条件进行优化,在生成对抗网络上增加了隐空间(隐变量的样本空间),并在隐空间之上进行优化、并且反过来约束生成对抗网络。
采用这个超分辨率算法之后的结果还是比较理想的,其客观数据指标全面优于近两年来“超分在业界被引用最广的文章”(链接:https://arxiv.org/abs/1809.00219) 的超分结果。另外,我们的视觉效果也优于该论文结果。
下面是一些算法优化之后的效果,右下角是大家都希望得到的效果。右上角是 2018 年底欧洲计算机视觉会议超分竞赛第一名的结果,右上角的细节恢复了很多出来,但纹理、走势有些零乱,不是特别理想。中间是我们自研方法的结果,清晰度和纹理有所提升。
这种提升对于某些应用还是比较重要的。例如,当实施教学的时候,老师在黑板上的字迹,如果超分的时候变形,后果可能是学生们认不出字来了,影响教学效果,另外比如在一些医学应用上,如果计算结果将一些病人的纹理改变,这会是比较严重的问题。
另外 5G 时代的来临,有很多机会与挑战,其中增加现场感和临场感的实时互动相当重要。而自适应和可伸缩性对 VR、360° 全景实时互动直播也很关键。
以 360° 的应用做一个简单的说明,首先在 360° 的情况下,视觉关注的地方比较清晰,周围是比较模糊,这意味着可以把视频数据可以两部分进行传输,一部分以高清晰度,另外的以低清晰度传。
另外一点,我们的视点是变化的,关注点可能在不断变化,所以如果眼睛转向的时候,高清晰度的数据还没到来,就不能看到最清晰的图像,这样体验会很受影响,我们需要把视点变化正确地预测出来,把这部分的数据同时提前编码、提前传输,这样需要传送的数据流就更增多了。
这样还会引发更多的新问题,比如当网络不顺畅的时候,要传送很多条数据流,这几条数据流之间很可能出现不匹配的情况,比如收到的数据并不是接收方需要的,再比如其中一条收到了 1、3、5 帧,另外一条收到 2、4、6 帧,很不理想。这种情况下可伸缩和自适应性就显得非常重要。
这个 Demo 是支持全景实时互动的,全景是以 4K 的方式表征的,试点区域是 720P,主要展示的是视点关注的这部分,以及视点变化时事先预测的区域的及时更新。这项 Demo 目前还很初步,等完善后它的应用会非常多,比如旅游、运动、体育、教学,甚至直播带货等。
实时互动场景是与 5G、AI 深度结合的场景, 5G、AI 对实时互动可以有很精准、很深度的帮助。AI 在实时互动场景有很多可应用方向,诸如声音的美化、降噪、人脸的美颜、风格转换,以及上述的视频插帧、超分等等。我们将以进步深化、优化 RTE+AI+5G 的结合。
另外我们将会致力于优化新兴场景的体验,像基于 VR、AR、360°的实时互动等新生事物。谢谢大家!希望有兴趣的同学可以一起来探讨。