告别视频通话“渣画质”，英伟达新算法最高压缩90%流量

2024-05-08 22:27:40

为了让网速慢的用户用上高清通话，英伟达可谓绞尽脑汁。他们开发的新AI算法，可以将视频通话的流量最高压缩90%以上。

和其他视频相比，通话的场景比较单一，基本上只有人的头部在运动。因此只要能把头像数据大规模压缩，就能大大节约流量。

英伟达的新算法face vid2vid正是从这一点出发。只要一张图片，就能实现重建各种头部姿势图片。

H.264视频所需的带宽是这种新算法的2~12倍，从前面的演示也能看出，如果让二者使用相同比特率，那么H.264视频几乎不可用。

转动面部不扭曲

英伟达提供了一个试用Demo，可以在Pitch（俯仰角）、Yaw（偏航角）、Roll（翻滚角）三个方向上任意旋转。

输入一张人脸，最多可以在每个方向上最多旋转30度。以下是三个方向上旋转到最大角度生成的图片。

与相比之前的方法，英伟达的这种技术即使在面部转动幅度较大时，人脸也不会扭曲变形。

然而，图片终究是不动的，要把生成的人脸放在运动的视频中还要多一个步骤。

合成面部视频

我们把上传的清晰照片作为源图像，从中获取外貌特征。然后把视频中一帧帧画面作为重构视频的依据，从中提取出面部表情和头部姿势等信息。

而表情和姿势这两个数据可以通过关键点进行编码，这样就分离了人物身份信息和运动信息。在传输视频时只要有运动信息即可，从而节约了流量。

从源图像s中，我们得到了两组数据：关键点坐标x和雅可比矩阵J。这两组参数与面部的具体特征无关，只包含人的几何特征。

其中，雅可比矩阵表示如何通过仿射变换将关键点周围的局部补丁转换为另一幅图像中的补丁。如果是恒等雅可比矩阵，则补丁将直接复制并粘贴到新位置。

下图展示了计算前5个关键点的流程。给定源图像以及模型预测的规范关键点。

从运动视频估计的旋转和平移应用于关键点，带动头部姿势的变化。然后可以感知表情的变形将关键点调整为目标表情。

接下来开始合成视频。使用源和运动的关键点与其雅可比矩阵来估计流wk，从生成流组合成掩码m，将这两组进行线性组合即可产生合成流场w。

接着输入人脸面部特征f，即可生成输出图像y。

这种方法不仅能用于视频通话，也有其他“新玩法”。

比如觉得人物头像有点歪，可以手动输入纠正后的数据，从而将面部转正。

又或者是，把一个人的面部特征点和雅可比矩阵用于另一个人，实现面部视频动作的迁移。

团队简介

这篇文章的第一作者是来自英伟达的高级研究员Ting-Chun Wang。

文章的通讯作者是英伟达的著名研究员刘洺堉。

如果你长期关注CV领域，一定对这两位作者非常熟悉。他们在图像风格迁移、GAN等方面做出了大量的工作。

△ GauGAN

两人之前已经有过多次合作。比如。无监督图像迁移网络（NIPS 2017），还有从涂鸦生成照片的GauGAN（CVPR 2019），都是出自这二位之手。

项目页面：https://nvlabs.github.io/face-vid2vid/

论文地址：https://arxiv.org/abs/2011.15126

—完—

为您推荐

一文了解深度推荐算法的演进

13个算法工程师必须掌握的PyTorch Tricks

吴恩达上新：生成对抗网络（GAN）专项课程

图像算法可以稳定处理视频了！| NeurIPS 2020

从SGD到NadaMax，十种优化算法原理及实现

干货｜从0到1做抖音电商，如何借助「流量玩法」破局？

抖音直播带货能卖什么? 如何进场抖音直播带货? 如何借助平台算法起量? 如何搭建抖音直播间? 如何做直播数据分析? 我是 80后,技术出身,2014 年创业,2018 年年利润过亿,没经历过融资,抖查 ...
英伟达发布会“造假”！用3D建模 AI算法做出来的！

来源:CG世界本文已经获得CG世界转载授权今天我们来说说那场在今年4月份举办的NVIDIA GTC 2021大会中,黄仁勋在厨房里做的那一个主题演讲. 相信大家这几天一定发现了微博热搜上有着这样一 ...
抖音涨粉慢怎么做？抖音刷粉丝可行吗？

很多朋友在问小编,抖音应该怎么玩?怎么过做涨粉才快?应该生产什么样的内容才会上热门才会火?我们要回答这些问题,那么就得重头说起走. 抖音是不是风口?我们一切以数据说话小编在网上看到一篇鸡汤文,大致意 ...
抖音如何引流私域流量的11种方法，最后两条一定要看

编辑导语:虽然抖音相对而言更注重公域流量,但是有效利用抖音,也可以实现私域流量的沉淀,进而推动内容变现.本篇文章里,作者针对抖音的算法推荐逻辑进行了一定分析,并总结了抖音引流私域的方法策略,一起来看一 ...
20万粉视频号矩阵操盘手解密：如何在视频号做爆款、造IP？

王智涛是@整理师Anne 的操盘手,现拥有视频号矩阵粉丝20万+,代表账号包括@整理师Anne(粉丝13万),@整理师安安(粉丝3万),@涛哥陪你瘦(粉丝3万)等. 王智涛认为,对于普通人,首先要明确 ...
苹果手机facetime用的是话费还是流量

FaceTime是苹果公司iOS和Mac OS X内置的一款视频通话软件,在两个装有FaceTime的设备之间实现视频通话.那facetime用的是话费还是流量. 苹果的facetime用的是流量,连 ...
那种片里的马赛克，终于可以一键去除了。

前段时间,跟大家说过几款可以一键去除图片or视频中马赛克的小软件. 用了之后,高清无码的葫芦娃,也生动了许多. 但是,总有LSP跟小编反映,效果还不是很理想 . 虽然"心中无码,自然高清&q ...
英伟达新显卡太香？AMD：不等等我吗？

将「雷科技Lite」收藏为我的小程序,不再错过精彩内容雷科技数码3C组编辑 | 定西 5499元的RTX 3080显卡让多少消费者大呼NVIDIA真香,但NVIDIA为何会在这个特殊的时间段将售价 ...
英伟达新研究：不用动捕，直接通过视频就能捕获3D人体动作

不靠昂贵的动捕,直接通过视频也能提取3D人体模型然后进行生成训练: 英伟达这项最新研究不仅省钱,效果也不错-- 其合成的样本完全可以用在以往只在动捕数据集上训练的运动合成模型,且在合成动作的多样性上还 ...
这并不是英伟达初创时唯一的败绩。作为一家创新公司，英伟达从创立之初到如今至少有5次几乎告别行业。但黄仁勋从没有因此怀疑过自己，相反，他认为 “如果失败没有击倒你，就能让你成长”。

文 | 华商韬略成舟在很长一段时间里,英特尔始终占据着处理器霸主的位置,但今天,人们有理由怀疑,属于英特尔的时代正在被终结...... 4月12日,英伟达宣布推出首款基于Arm技术制造的数据中心C ...
英伟达正式官宣RTX3080Ti/3070Ti，性能新突破

2021年6月1日,英特尔以"释放创新"主题演讲的形式拉开了COMPUTEX 2021的序幕.并在发布会上公布了GeForce RTX 30系显卡的最新产品 -- RTX 3080 ...
Jetson Nano 2GB Developer Kit 英伟达Jetson Nano系列新成员，...

Jetson Nano 是一款功能强大的人工智能 (AI) 开发板,可助你快速入门学习 AI 技术,并将其应用到各种智能设备上.恰逢国家在推广人工智能相关的发展,2019年上线以来得到广泛的开发者青睐 ...
【长期主义】第91期：英伟达CEO黄仁勋：新时代到来，软件即将重新定义汽车

"长期主义"栏目每周六更新,整理洛克菲勒.巴菲特.芒格.霍华德·马克斯.段永平.稻盛和夫.任正非.比尔·盖茨.贝索斯.拉里佩奇/谢尔盖.马斯克.孙正义.黄仁勋.马化腾.张小龙.张一 ...
初创公司推出新算法！让通用CPU深度学习速度比英伟达GPU V100还要快！

来源:EETOP编译整理当谈到人工智能/机器学习(AI/ML)时,开发人员通常会求助于基于 GPU 的加速器,而不是通用处理器 (CPU).这些开发人员必须在专用硬件上进行大量投资,而当下一代算法出 ...
英伟达收购ARM，芯片新王者，产业新机会

⬆︎ 点蓝字关注全球风口丨你的全球科技前哨侦察兵你好,我是王煜全,这里是王煜全要闻评论. 9月13日周日,Nvidia和ARM公司的控股方软银联合发布声明,宣布Nvidia将以400亿美金的价 ...
英伟达与奔驰联手，宣布一个新时代的开启!

⬆︎ 点蓝字关注全球风口丨你的全球科技前哨侦察兵你好,我是王煜全,这里是王煜全要闻评论! 昨天6月24日北京时间凌晨一点半,英伟达和奔驰公司联合召开了一个新闻发布会. 虽然发布会前,英伟达声称 ...

告别视频通话“渣画质”，英伟达新算法最高压缩90%流量

转动面部不扭曲

合成面部视频

团队简介

△ GauGAN

相关推荐