云原生时代——华为云音视频质量监控与优化实践

云时代,视频直播、实时音视频通信等在线音视频服务面临各种复杂的网络环境和流量爆发式的增长,对音视频质量监控和成本优化提出新的严峻挑战。本次分享我们邀请到了华为云音视频大数据研发负责人康永红,他详细介绍了基于大数据的音视频全流程质量监控评估体系和各个环节的优化实践,以及面向不同的业务和场景,如何通过不同的关键数据指标改进音视频服务的体验质量和产品成本。

文 / 康永红

整理 / LiveVideoStack

大家好,非常有幸能有这次分享机会,首先感谢LiveVideoStack。我是康永红,来自华为公司,在大数据和音视频业务领域有十多年研发经验,负责直播、视频会议、RTC、VR的QoC、QoE、QoS管理,主要聚焦在基于大数据解决音视频产品体验提升和成本优化的业务领域。我个人认为这也是整个音视频领域的一个难点。

2020年是不平凡的一年,客观来说它促进了我们音视频业务的爆发性增长。华为云基于大容量、低时延、全互联的媒体网络,通过全国的2000多个节点和几百T的宽带,和我们的客户一起服务了亿级在线用户。在这个过程中,通过大数据解决视频体验质量和成本优化显得尤为重要,同时我们也积累了一些经验,今天我将和大家分享云原生时代,华为云在音视频质量监控与优化的实践。

本次分享主要分为四部分:第一部分是云原生时代为什么要做音视频数据服务体系,第二部分是华为云视频直播和RTC音视频直播在体验质量上的实践案例,第三部分会介绍华为在云原生时代是如何快速构建音视频服务全流程质量监控平台,最后将总结和展望音视频业务体验质量的思考和技术规划。

1“ 构建音视频数据服务体系

从音视频体验的发展趋势来看分为直播、RTC和XR三代,可以归纳为两个特点:第一点是用户体验越来越真实,传输分辨率从720P到1080P、再到XR的4K、6K、8K、乃至更大;另一点是业务要求互动性越来越强,迟延方面从30s到XR不超过100ms,对延迟要求更低。

基于以上质量体验的发展趋势,我们需要有一个后台技术支撑。我们在使用大数据解决支撑的过程中也经历了三个阶段:首先是5年前用大数据平台解决技术问题,其次是在3年前用数据中台解决效率问题,第三个阶段是最近两年我们综合1.0、2.0时代的特点,采用“中台+可信数据服务”的数据服务中台模式解决价值问题。我们认为数据服务中台是解决业务差异性和市场不确定性的最佳框架。

在直播中我们经常会碰到卡顿、实时音视频通话延迟等情况,这些问题都会严重影响用户体验。解决这些问题的一般方法是构建音视频质量监控平台,采集数据,用大数据的方法解决监控质量问题。在这过程中,我们又会碰到一些新的问题,比如采集数据延迟很大、丢失很多、数据不准确,此外还包括大数据算力不够、交付时延比较长等等问题。这些体验和技术问题带给我们很多挑战——包括会在什么场景出现这些问题,无法精准确定是网络问题、设备问题还是环境问题,以及这些问题影响了哪些客户等等。

那我们要怎么解决这些问题呢?在端+边缘计算+云计算的云原生时代,技术上已经给了我们一些解决方法。最好的实践是基于“数据湖+数据服务”的云原生数据驱动能力,去解决业务差异性和市场不确定性。这套架构分为六层,我们通过这六层去解决后台系统的相对稳态及前端业务稳态之间的矛盾。

架构落地的具体实践是基于云服务基础设施,首先我们构建了统一的音视频数据湖,同时构建从采集、生产到消费的数据价值链,通过这两者结合,支持所有同时在线的几大类服务接入,和面向内外部七类客户,以及包括运营、运维等客户数据服务的QoS、QoE、QoC等三大类七小类的场景诉求。当然仅仅基于这个架构开展体验质量优化工作是远远不够的,这只是技术上的解决方法。

从在业务角度出发,我们认为QoE体验是一个管理的问题,我们在业务上需要做一些设计,这块我们构建了音视频服务的体验体系,大致分为两个大的阶段和三个小的阶段。两个大阶段是先诊断、再提升,在诊断中分为监控和诊断两个小阶段。

具体展开来看,首先需要构建QoE、QoS的立体实时监控体系以及辅助AI的异常检测方法,做到实时发现问题。第二步在发现问题后用秒级诊断能力,快速诊断体验原因,这个原因可以具体到用户行为级。基于诊断结果,第三步就需要做体验提升,一般有两种方法:第一种是依靠人工经验做优化,另一种方法是智能调度,我们在面向不同行业、不同场景的情况下,基于智能调度策略在成本可控的情况下做到用户体验最优。

基于上述体验质量优化体系,接下来我将具体展开分享华为云在视频直播和RTC实时音视频方面的体验优化实践的案例。

2“ 华为云视频直播体验优化实践

我们首先看一下华为云视频直播体验优化实践案例,我们在做到低时延、不卡顿、高清晰的同时,还实现了成本可控。总体分为三个阶段:第一阶段质量监控,第二阶段问题诊断,第三阶段体验提升。

视频直播的质量监控,我们首先构建了覆盖流质量、体验、规模、网络、成本、设备六个维度的立体质量监控体系,涵盖了QoE、QoS、QoC三十多个指标,其中包括帧率、码率等核心的QoS指标,秒开率、卡顿率等QoE体验指标和带宽、回源率等成本QoC相关的指标。

第二个阶段问题诊断——视频直播的秒级质量诊断,这是基于网络数据+端数据构建的直播流全链路监控体系。诊断流程贯穿了第一公里主播端监控推流帧率等QoS指标,到网络节点间帧率、码率等QoS质量指标监控,带宽回源率、成本指标,以及最后一公里观众端卡顿、秒开、黑屏等QoE指标。这样就实现端到端实时的秒级监控,如果发现异常情况可以及时反馈给顾客和调度系统,比如我们在第一公里发现帧率、码率出现异常,就通知客户在主播端进行策略调整,如果实在网络发现异常,就做一些节点用户数据调动或其他策略的优化,而当观众端出现体验异常时,智能调度系统会做调度策略的调整。以上整个全链路监控系统覆盖了12路直播全场景和全协议监控。

直播流全链路监控系统——从第一公里、到媒体网络、再到最后一公里,整个都是可视化的,这样可以提升问题诊断的效率。

第三步体验提升,视频直播体验提升大致分为两种方法。其一是通过运维同学的经验实施,另一种方法是基于智能调度系统——基于端、边、云数据协同做智能调度体验优化,这种方法利用了统一视频数据湖技术,实现端、边、云的QoS、QoE、QoC数据的协同,通过智能分析引擎生成流、客户、网络链路、节点、观众的实时画像,基于实时画像+调度策略由智能调度系统实施智能调度,在成本可控的情况下做到最佳体验。衡量指标主要选取两类指标,一类指标是成本指标,比如通过回源率来衡量成本是否下降;另一类指标为体验指标,通过卡顿率、秒开率等判断用户体验是否有提升。以上是视频直播在质量监控和体验提升的一些实践案例。

3“ 实时音视频RTC体验优化实践

接下来分享实时音视频RTC的体验优化的实践案例。RTC属于第二代音视频业务,它和第一代直播在业务方面有很多差异,比较关注时延以及行为级的监控,基于这些差异性,我们也采用了三个不同优化体系。

第一点是质量监控,RTC质量监控体系建立了覆盖通话、网络、成本、设备等六个维度的立体质量监控体系,覆盖QoE、QoS、QoC三十多个指标。其中核心指标包括等码率、帧率、丢包率、抖动质量QoS指标和秒开率、时延、卡顿率、入房和选看成功率等用户体验QoE指标,以及带宽等成本QoC指标,与直播监控指标相比,特别是端到端的时延指标,这是基于前面提到的差异性着重关注的。

基于监控体系,第二个工作是问题诊断,我们首先建立了三类体验质量数据服务,第一类是监控指标数据服务,主要覆盖的是服务端、客户端、设备、QoE、QoS、QoC,这些数据放在统计库、时序库中使用。第二类是网络端所有控制面和媒体面的事件数据服务。第三类是终端事件数据服务,包括终端侧用户行为事件,例如加入房间、切换角色、操作麦克风或摄像头等事件,此外还包含了终端设备数据,例如CPU、内存、摄像头等。

基于这三类体验质量数据服务,RTC构建了三层问题诊断体系。

第一层构建是覆盖全链路、全维度的QoE/QoS实时监控体系,可以在分钟级完成体验诊断和快速恢复问题。上图案例中,红色1是十一点时发现成功率告警,我们通过维度下降发现是某一个客户的APP下降很厉害,最后通过节点维度定位到是天津某一个SFU节点服务异常,整个故障恢复时间在分钟级就可以完成。

第二层监控体系是基于网络行为数据和端侧行为数据的一键式用户个例通话QoS调查能力,它可以帮助我们快速解决RTC业务单用户的体验问题和投诉。上图的案例通过房间信息以及用户行为事件信息,快速判断用户听不到声音是因为进行了静音操作导致的,整个过程也是在分钟级完成。

第三层问题诊断能力是在第一层QoE/QoS全局指标监控和第二层QoS行为调查能力基础上的体验问题自动诊断高级能力,它通过监控三十多个指标产生二十多个异常事件,并通过学习模型,给出影响的六类体验场景。这样系统就可以快速自动化地判断出体验发生异常的原因,并且快速传递给客户。

4“ 音视频服务全流程质量监控平台

上述介绍的是华为云RTC业务体验优化的实践案例,做体验质量优化工作是需要平台完成的,我们下面来分享华为是如何构建音视频服务全流程质量监控平台的。首先从数据采集、传输、计算到消费四个环节的亿级规模音视频质量监控大数据平台,包括支持端、边、云全数据采集和传输的数据网络,支持实时计算、离线计算和机器学习的多模数据处理系统,以及支持运维、运营、客户的数据消费服务体系。

在构建平台时,会遇到很多性能、质量、效率以及实时性的问题,如何构建一个大容量、低成本、高效率和可信数据质量的平台?我们采用了批流一体和存算分离的架构。批流一体解决的是开发效率的问题,我们同一个指标可能在批流一体中计算一次就可以对所有服务使用,不需要重复开发,同时我们有一站式数据开发平台可以解决开发效率的提升。成本问题上我们采用的是存算分离——存储和计算是分离的,存储采用的是对象存储,价格相对低廉,计算引擎采用的是前面介绍的批流一体的方式,这样可以做到成本最佳。质量方面是采用了“ODS-DWD-DWS-ADS”四层数据治理平台,保证所有数据可跟踪、可管理,确保任何指标数据都是实时、完整、准确的。

在有了大容量、低成本的平台后,我们还面临断网、设备故障等问题。我们在平台可用性上基于云服务实施,采用跨Region主备容灾和多AZ模式,整体SLA可达99.99%,来自端、边缘、云等全部六类数据不丢失,监控、调度等六类服务不降级。这样我们在整个环境下,任何环节出现异常,在质量和服务提升上都可以正常工作。

5“ 总结与展望

回顾本次分享,音视频体验发展有三个特点:第一,用户对体验的要求是真实感越来越强,直播、RTC等用户要求更高;第二,在用户体验上要求越来越互动;第三,面对各种网络、终端业务环境越来越复杂。

为了保证音视频体验质量,我们有3个利器:第一,针对不同业务场景,构建“先监控再诊断后提升”的体验质量体系;第二,基于“数据湖+数据服务”解决用户差异性和市场不确定性的问题;第三,在实施过程中要平衡成本和体验的关系。

对未来音视频业务体验我们有三点规划方向:一是持续基于端、边、云数据协同来驱动QoE、QoS、QoC优化;二是构建音视频内容质量的智能评估体系;三是建立第三代XR音视频体验质量规范,如沉浸感等。

以上是本次分享的全部内容,谢谢大家。

(0)

相关推荐

  • 假如你学会瞬间移动,一半科技将对你失去意义

    如果有一天,你获得超能力,能瞬间移动到任何一个地方,你很快就会发现,这个世界上的大多科技对你而言将变得毫无意义. 你不再需要网购,因为你能去任何一家商店,亲手触摸,亲身试穿:你不需要快递.外卖.打车软 ...

  • 经此一“疫”直播应用或将再次井喷,RTC技术成关键

    RTC技术将迎来高速普及的拐点. 抗击疫情进入大决战阶段,疫情结束已是指日可待.很多行业在疫情期间都备受打击,接下来将面临着疫后重建的问题.也有一些行业"因祸得福",在疫情期间满足 ...

  • 从 0 到 6 亿:离开“舒适圈”后,我干了一件大事......

    对于很多人来说,只做自己感兴趣的事很难,但是在陶思明看来,只要狠得下心,好像就没这么困难.陶思明早在 2008 年就加入了 YY,时任 YY 技术平台部总经理.YY 技术委员会主席,全面负责整体技术架 ...

  • 互联网通信云崛起的“融云曲线”

    回顾2020年,任何人都无法忘记疫情带给工作和生活的种种改变.   从在线教育.在线办公.在线医疗到直播电商,因为疫情被按下"快进键"的"在线"模式,迎来了爆发 ...

  • UC头条:HaaS RTC(实时音视频通信)总体方案简介

    一.RTC业务简单介绍 RTC(RealTimeCommunication)实时通信业务,目的是在设备端实时的转发音视频多媒体数据,让用户能实时的进行音频和视频的会话.通信业务一般都有如下几个部分组成 ...

  • 通信云江湖里的融云野望

    编辑:阿由 设计:紫菜 从最早的ICQ.MSN,到后来的飞信.微信,即时通讯作为底层技术,为我们提供了以图片.文字为主的沟通交流方式. 随着互联网技术的快速发展,和运营商基础带宽的不断扩增,除了即时通 ...

  • 流媒体云时代的声与色,融云铺就的桥与路

    刚刚过去的半年里,居家上课.远程会议.航班取消.影院关闭--全球人们物理活动半径的急剧缩小,也催生了各种互联网服务的加速线上化. 游戏.直播.在线教育等大量音视频流媒体应用,都开始纷纷被搬上了云端,成 ...

  • 腾讯云音视频再生长

    技术融合下的新产业机会 " 作者 | 杨丽 出品 | 雷锋网产业组 雷锋网按:尽管公共交换电话网从贝尔发明电话起就已经存在了,但利用互联网方式的语音传输却是20年前才开始崛起的事物.如今,短 ...

  • 什么样的抖音视频容易上推荐,抖音什么话题最容易上推荐

    抖音短视频如何非常容易上推荐? 大伙儿在玩抖音短视频的情况下,常常会发觉,自身本来拍的非常好的视频,便是没有办法上推荐,都没有什么人看,这是为什么呢? 下边就要我来给大伙儿共享一下有关抖音上推荐的方式 ...

  • 云原生时代业务架构的变革:从单体迈向Serverless

    作者:杨皓然(不瞋) 阿里云云栖号 如今,各行各业都在谈数字化转型,尤其是新零售.传媒.交通等行业.数字化的商业形态已经成为主流,逐渐替代了传统的商业形态.在另外一些行业里(如工业制造),虽然企业的商 ...

  • 云原生时代消息中间件的演进路线

    Photo @ Julien Riedel 文 | 尘央 引言 本文以一张云进化历史图开场,来谈谈云原生时代消息中间件的演进路线,但本文绝对不是"开局一张图,内容全靠编". 从虚拟 ...

  • 云原生时代需要什么样的存储系统

    本文介绍了目前云原生环境下,支持有状态应用的几种典型存储方案的特点,并对市场主流的云原生存储产品实际测试性能进行对比. 1现状 当前,云原生已经成为应用开发者在选择架构设计时的首选.云原生让应用开发者 ...

  • dubbogo 3.0:牵手 gRPC 走向云原生时代

    自从 2011 年 Dubbo 开源之后,被大量中小公司采用,一直是国内最受欢迎的 RPC 框架.2014年 由于阿里内部组织架构调整,Dubbo 暂停维护了一段时间,之后随着 Spring Clou ...

  • 《云原生开发者洞察白皮书》发布,云原生时代构建适应变化的自己

    未来对所有开发者是天堂可能也是地狱,基于云原生的技术架构逐渐成熟,作为开发者无需掌握大量的冗余知识,只需要专注在业务与对应的核心逻辑上,传统高高在上的IT工作逐渐成为人人皆可快速上手的日常技能. 我是 ...

  • 云原生时代的微服务,适合所有人么?

    微服务是一种优化资源的体系结构方法,这些资源为复杂.快速.分布式基础设施上的大规模服务和软件提供计算.存储和网络.大多数有IT历史的组织,传统上都是在虚拟技术栈上构建软件,这些技术栈由操作团队手动维护 ...

  • 从理念到方案,企业应用架构在云原生时代如何重塑?

    在 11 月 28 日举行的 GTLC 厦门站上,华为云云原生解决方案架构师陈斌带来了主题演讲<云原生基础设施,重塑企业应用架构未来>,他从多个方面入手,全面分析了云原生的一些技术方案和应 ...

  • 框架在左网格在右,云原生时代的微服务路在何方?

    微服务的 2020,有坚守有破局.服务框架依然在持续进化和奔向云原生,Service Mesh 在持续进步的同时依旧疑点重重.总体而言,微服务架构的演进并非一蹴而就,过于保守或激进都不是解决之道.长期 ...

  • 云原生时代,请收下这份大而全的软件架构观察与思考

    前言 在<云原生基础设施>一文中我们谈到了,云原生计算包含三个维度的内容,云原生基础设施,软件架构和交付与运维体系,本文将聚焦于软件架构层面. "Software archite ...