开启生成式视频压缩：谷歌基于GAN来实现，性能与HEVC相当

2024-06-25 11:15:03

选自arXiv

机器之心编译

编辑：陈萍

来自谷歌的研究者提出了一种基于生成对抗网络 (GAN) 的神经视频压缩方法，该方法优于以前的神经视频压缩方法，并且在用户研究中与 HEVC 性能相当。

通常，视频压缩的目标是通过利用时间和空间冗余来降低存储视频所需的比特率，同时保留视觉内容，目前广泛使用的方法是非神经标准编解码器（例如 H.264/AVC 、H.265/HEVC）。一些研究表明，神经网络在学习视频压缩方面取得了更好的进展，最新的方法在峰值信噪比（PSNR）方面可以与 HEVC 相媲美，或者在 MS-SSIM 方面优于 HEVC。然而，因为很少有研究者发布重制后的视频，这些方法尚未在主观视觉质量方面进行评估。

来自谷歌的研究者提出了一种基于生成对抗网络 (GAN) 的神经视频压缩方法，该方法优于以前的神经视频压缩方法，并且在用户研究中与 HEVC 性能相当。研究者提出了减少时间累积误差的方法，该累积误差由递归帧压缩引起，该方法使用随机移位和非移位，由频谱分析驱动。论文详细介绍了网络设计的选择以及重要性，并阐述了在用户研究中评估视频压缩方法的挑战。

论文地址：https://arxiv.org/pdf/2107.12038.pdf

本文主要贡献包括：

该研究提出了首个在视觉质量方面与 HEVC 具有竞争性的神经压缩方法，这是在用户研究中衡量的。研究表明，在 PSNR 方面具有竞争力的方法在视觉质量方面的表现要差得多；
该研究提出了一种减少展开时时间误差累积的技术，该技术通过随机移动残差输入，然后保持输出不变，激励频谱分析，研究表明该技术在系统和 toy 线性 CNN 模型中具备有效性；
该研究探索了由用户研究测量的视觉质量与可用视频质量指标之间的相关性。为了促进未来的研究，研究者发布了对 MCL-JCV 视频数据集的重建以及从用户研究中获得的所有数据（附录 B 中的链接）。

研究方法

下图为该研究使用的网络架构，其中 x = {x_1, x_2, . . . } 为帧序列，x_1 为初始帧 (I)。该研究在低延迟模式下操作，因此可以从先前的帧中预测后续 (P) 帧，设

是重建视频。

灰色框是中间张量的可视化结果。灰线左侧是 I-frame 分支（蓝色代表用 CNN 学习），右侧是 P-frame 分支（绿色代表用 CNN 学习）。虚线在解码期间没有被激活，判别器 D_I、D_P 仅在训练期间激活。CNN 的大小粗略地表明了它们的容量。SG 是停止梯度操作，Blur 是尺度空间模糊，Warp 是双三次扭曲， UFlow 是冻结光流模型。

研究者采用以下策略来获得高保真重建视频：

在 I-frame 中合成可信的细节；
尽可能清晰地传递这些可信细节；
对于出现在 P-frame 中的新内容，研究者希望能够合成可信细节。

论文中的公式是基于 HiFiC 的。使用条件 GAN，其中生成器和判别器都可以访问额外的标签：公式假设数据点 x 和标签 s 遵循联合分布 p(x, s)。生成器将样本 y ∼ p(y) 映射到分布 p(x|y)，而判别器用来预测给定对 (x, s) 是否来自 p(x|s) 而不是来自生成器。

在设置中需要处理帧序列和重建。在 HiFiC 之后，研究者在潜在 y 上调节生成器和判别器，对于 I-frame，y = yI，对于 P-frame，y = y_t,r。为了简化问题，该研究的目标是对每帧分布进行匹配，即对于 T 长度的视频序列，目标是获得一个模型 s.t.：

通过随机移位展开时防止错误累积

正如文中所提到的，「低延迟」设置的循环性质在时域中的泛化具有挑战性，这可能会发生错误传播。理想情况下，只要研究评估的内容至少 T = 60 帧，就可以使用序列进行训练，但实际上由于内存限制，这在当前硬件上是不可行的。虽然我们最多可以将 T = 12 放入加速器中，但这样会使训练模型会变得非常慢。

为了加速原型设计和训练新模型，以及防止展开（unrolling）问题，该研究采用以下训练方案。

1) 仅在随机选择的帧上训练 E_I 、 G_I 、 D_I ，1 000000 step。

2) 冻结 E_I、G_I、D_I ，并从 E_I 、G_I 初始化 E_res、G_res 权重。使用分阶段展开（ staged unrolling ）训练 E_flow、G_flow、E_res、G_res、D_P 450000step，即使用 T = 2 直到 80k step，T = 3 直到 300step，T = 4 直到 350step，T = 6 直到 400k，T = 9 直到 450k。

该研究将其分为步骤 1) 和 2)，因为经过训练的 E_I、 G_I 可以重新用于 P-frame 分支的许多变体，并且跨运行共享 E_I、 G_I 使其更具可比性。

使用比例控制器在训练期间控制速率：超参数 λ_R 用来控制比特率和其他损失项（例如 GAN 损失等）之间的权衡。

实验结果

数据集：训练数据包括大约 992000 个时间 - 空间裁剪视频集，每个视频集长度 T 为 12 帧，每帧画面大小为 256×256，从 YouTube 的公开视频中获取。这些视频的分辨率至少为 1080p，长宽比至少为 16:9，帧率至少为 30 fps。

模型和基准：基线称为「MSE-only」，并且该基准使用了与研究所用一样的架构和训练过程，但没有使用 GAN 损失。实验还与尺度空间流（Scale-Space Flow，SSF）进行了比较，这是最近的神经压缩方法，在 PSNR 方面与 HEVC 相当。最后，该研究与无学习的 HEVC 进行了比较。

研究者在图 1 中总结了评分者偏好，并在图 7 中展示了性能指标。该研究与三种比特率下的 HEVC 进行了比较，结果证明该研究所用方法与 HEVC 在 0.064 bpp 下具有可比性 (14vs12)，在 0.13bpp 下效果更佳（18vs9），在 0.22bpp 下性能也不错（16vs9）。

为了评估 GAN 损失对视觉质量的影响，研究者在低速率 (≈ 0.064 bpp) 下将 GAN 损失与 MSE-only 和 SSF 进行了比较。如图 1 所示，在 MSE-only 下，在 30 次结果中只有 4 次结果较好，4 次平局，结果表明了 GAN 损失的重要性，并且 SSF 没有一次是首选、没有平局。研究者强调 MSE-only 仅在 PSNR 方面与 HEVC 相当（图 7），但在视觉质量方面明显更差。

研究发现，下列组件对性能的提升至关重要：不使用「free latent」会引起模糊的重建效果，这类似于 MSE-only 基线产生的效果，如图 3 顶部所示。研究发现，使用「free latent」而不使用条件判别器也会导致模糊的重建效果。当信息不传递给 UFlow 时，实验结果会得到前后不一致的流，当信息传递给 UFlow 时，但没有使用流损失正则化（即公式 6），实验结果也不理想。因此，删除任何一个组件都会损害时间一致性，参见图 3 底部。

总体来说，没有一个指标能够预测图 1 中的结果，但是 PIM 和 LPIPS 对一些比较进行了正确的排序。在神经图像压缩领域已经观察到了这种结果，其中最好的方法是由人类来排序的，因为目前还没有一种度量标准能够根据主观质量来准确地对这些方法进行排序。

NVIDIA对话式AI开发工具NeMo的应用

开源工具包 NeMo 是一个集成自动语音识别（ASR）、自然语言处理（NLP）和语音合成（TTS）的对话式 AI 工具包，便于开发者开箱即用，仅用几行代码便可以方便快速的完成对话式 AI 场景中的相关任务。

8月12日开始，英伟达专家将带来三期直播分享，通过理论解读和实战演示，展示如何使用 NeMo 快速完成文本分类任务、快速构建智能问答系统、构建智能对话机器人。

必读论文 | 生成对抗网络经典论文推荐10篇

生成式对抗网络(Generative adversarial networks, GAN)是当前人工智能学界最为重要的研究热点之一.其突出的生成能力不仅可用于生成各类图像和自然语言数据,还启发和推动了 ...
Transformer也能生成图像

Transformer 已经为多种自然语言任务带来了突飞猛进的进步,并且最近也已经开始向计算机视觉领域渗透,开始在一些之前由 CNN 主导的任务上暂露头角.近日,加州大学圣迭戈分校与 Google R ...
GANs是如何创造出高分辨率的图像的

本文主要介绍DCGAN适应渐进式增长创建高分辨率图像的思路深度卷积生成对抗网络是2020年最精致的神经网络体系结构.生成模型可以追溯到60年代,但是Ian Goodfellow在2014年创造的GA ...
模型压缩经典解读：解决训练数据问题，无需数据的神经网络压缩技术

作者丨科技猛兽来源丨极市平台编辑丨极市平台极市导读目前很少有工作关注在无数据情况下的网络压缩,然而,这些方法得到的压缩后的网络准确率下降很多,这是因为这些方法没有利用待压缩网络的信息.为了解决 ...
如何迈向高效深度神经网络模型架构？

最近几年,随着公共领域中的数据规模和计算机的运算能力的大幅提升,神经网络模型在视觉,自然语言处理等领域取得了飞速的发展,各种任务的性能指标被不断刷新.人们为了追求更高的性能,提升模型的学习能力,设计了 ...
【阿里云课程】如何基于GAN完成人脸图像超分辨任务

大家好,继续更新有三AI与阿里天池联合推出的深度学习系列课程,本次更新内容为实践课中的一节,这也是本课程系列最后的一个实践课,介绍如下: GAN超分辨实践本次课程是阿里天池联合有三AI推出的深度学习 ...
基于GAN的自动驾驶汽车语义分割

重磅干货,第一时间送达语义分割是计算机视觉中的关键概念之一,语义分割允许计算机通过按类型对图像中的对象进行颜色编码.GAN建立在基于真实内容的基础上复制和生成原始内容的概念上,这使它们适合于在街景图 ...
CVPR2021 基于GAN的模糊图像复原

文章新智元 CVPR2021 编辑:LRS [新智元导读]马赛克的图像还能被修复?只要给深度学习模型足够的想象能力就能做到!CVPR2021上一篇论文能够相当逼真地修复低清晰度的人像照片,但网友却表 ...
揭秘腾讯微视人脸技术「黑科技」，基于GAN的人脸魔法特效 – 我爱计算机视觉

作者:微视团队随着小视频越来越流行,兼具趣味与人物个性的人脸特效成为小视频软件的标配,美颜自不必说,现在的人脸特效可谓"千变万化",人脸年轻化.变欧美范儿.发型改变.各种表情.胖 ...
基于GaN器件的双Buck逆变器共模与损耗

北京交通大学电气工程学院的研究人员闫琪.李艳.王路,在2017年第20期<电工技术学报>上撰文指出,目前市场上的光伏并网逆变器结构按隔离方式来分,可分为隔离型和非隔离型,而抑制或消除共模电 ...
基于GAN提高非平衡COVID-19死亡率预测模型准确性

介绍本文介绍了生成性对抗网络(Generative attersarial Networks,GAN)的使用,这是一种对真实的Covid-19数据进行过采样的技术,用于预测死亡率.这个故事让我们更好 ...
基于GaN HEMT宽带低噪声放大器设计

摘要: 为了满足不同通信标准的要求,利用氮化镓高电子迁移率晶体管器件设计了一个高线性度宽频带低噪声放大器.低噪声放大器采用两级电阻负反馈结构,利用集总参数元件和微带线对低噪声放大器的输入和输出匹配网络 ...
基于browsermob-proxy的自动化性能监控

在做自动化的时候,当遇到某些性能问题导致的超时情况就会出现对象访问超时的问题,遇到这种问题想回溯跟踪问题就比较困难了,如果能有个Fiddler这样的代理服务器来监控多好啊! browsermob-pr ...
丁国良理事长制冷学术年会PPT：基于仿真的空调器性能显示与监控的定量表征技术

11月14日-17日,2017中国制冷学会学术年会在西安隆重举行,本届年会汇集了国内外专家.高校.厂商代表等1300余人.联盟理事长丁国良教授应邀参加,并分别在主会场和分会场做主题发言报告.今天我们就 ...

开启生成式视频压缩：谷歌基于GAN来实现，性能与HEVC相当

相关推荐