ICCV2021 |上交、北理、百度联合研究视频缩放任务中的自条件概率学习

详细信息如下:
  • 作者单位:上交、北理、百度

  • 论文链接:https://arxiv.org/pdf/2107.11639.pdf

      01      

看点
本文提出了一个视频缩放的自条件概率框架(SelfC),以同时学习成对缩放过程。在训练时,在LR视频中有强时空先验信息的条件下,通过最大化降采样丢失信息的概率来减少丢失的信息熵。该方法利用LR视频中丰富的时间信息,通过引入指定的局部和全局时间聚合模块,精确估计分布参数。此外,本文进一步将该框架扩展到有损视频压缩系统,提出了一种基于控制变量法和Monte Carlo采样技术的非微分有损编解码器的梯度估计方法,用于整个系统的端到端训练。

      02      

方法
SelfC框架的如下图(a)所示,其中使用取整运算作为量化模块,并以H.265无损格式存储输出的LR视频。量化模块的梯度由直通估计器(STE)计算。
在降采样过程中,频率分析器(FA)首先将HR视频转换为视频特征,其中前3个通道为低频分量,后个通道为高频分量,为采样系数。然后,被量化为LR视频进行存储,在这个过程中被丢弃。在上采样过程中,时空先验网络(STP-Net)预测高频分量的概率密度函数:
将建模为连续高斯分布的参数矩阵,然后从分布中提取高频分量。最后利用频率合成器(FS)将级联的和重构出HR视频。

频率分析器和合成器

如上图(b)所示,首先将HR视频分解为低频组件和高频残差组件,然后用一个可学习的操作将级联的和转换为输出特征。的网络架构是非常灵活的,在此使用多个堆叠的Dense2D-T块实现它,Dense2D-T的结构在上图右侧。Dense2D-T块由Dense2D块修改而来,用时间卷积替换最后的空间卷积。频率合成器的结构与分析器是对称的,如上图所示。

自条件概率模型

由于量化模块使用取整运算,导致其梯度不平滑,直接使用梯度下降优化是不稳定的。为此选择优化。具体的说,将高频分量表示为基于低频分量的连续多模态概率分布,公式为:
其中表示时空位置。使用组件数量K=5的连续高斯混合模型(GMM)来近似,其分布由可学习的混合权重,平均值和对数方差定义。分布可以精确的定义为:
其中

STP-Net

如(d)所示,为了估计上述分布的参数,提出STP-Net来对缩小后的视频中的局部和全局时间信息进行建模。首先利用Dense2D-T块提取每个输入帧的短期时空特征。在这一阶段,只将前一帧或下一帧的信息聚合到当前帧中,而忽略视频中的长时间依赖关系。因此进一步引入了全局时间信息建模的注意机制。
具体地说,首先利用空间聚合器(一个平均池化+FC)降低了短期时空特征的空间维度,然后使用点乘来生成注意力图,它代表每两帧之间的相似度。最后基于相似度对局部时空特征进行优化。重复以上步骤六次,以提取更好的视频特征。最后,利用三层多层感知器(MLP)估计GMM分布的参数。

损失

为了确保STP-Net能够对高频分量得到准确的估计,损失中直接最小化的负对数似然值:
缩小后的视频最好与原始视频相似。因此在量化之前对缩小的视频进行正则化:
为了避免繁琐的解,为频率分析器和合成器的CNN部分添加如下惩罚项:
最小化重构损失,其中为损失,(c)为concat,从由STP-Net输出的参数构造的分布中采样,为了实现端到端的优化,本文采用了“重参数技巧”,使采样过程可微:
总的损失为:
值得一提的是,SelfC框架的性能对这些超参数并不敏感,直接将所有参数设置为1已经达到了合理的性能。

      03      

实验 
视频压缩中的应用 
本节将提出的SelfC框架扩展到有损视频压缩系统,目的是演示本方法在减少视频存储空间方面的有效性。整个系统下图所示:
首先使用SelfC生成缩小的视频,它将通过使用现成的工业视频编解码器进行压缩。然后在解码器端,压缩视频将被解压缩并上采样为全分辨率视频。考虑到传统的视频编解码器是非差分的,本文为此提出了一种新的优化策略:引入了可微代理视频扰动器φ,由6个Dense2D-T块的深度神经网络(DNN)组成。
在反向传播阶段,编解码器的梯度可以近似为φ的梯度。在测试阶段,我们去掉代理DNN,直接使用H.265编解码器进行压缩和解压。根据控制变量理论,φ可以作为视频编解码器的低方差梯度估计器(η)当(1)两个函数的输出差异最小化(2)两个输出分布的相关系数ρ最大。将这两个约束引入到视频压缩系统的优化过程中,φ的损失函数为:
其中ρ被每批次的Monte Carlo采样估算:
其中
总损失为
视频动作识别任务相关应用与实验详见原文。

视频压缩任务中的实验

视频压缩任务上的定量实验:
Bjøntegaard Delta Bit-Rate(BDBR)结果,数值越低表示降低的比特成本越高。
视频缩放+编解码器与梯度估计方法的实验,值得注意使用Bicubic作为视频缩放方法的结果远不如基线。

消融实验

SelfC-small和SelfC-large分别由2个和8个可逆的Dense2D-T块组成。

定量评估

在VID4上的定量评估:

定性评估

在VID4上的定性评估:

END

(0)

相关推荐

  • 神经网络可以像经典主成分分析一样执行降维吗?

    介绍 主成分分析(PCA)是最流行的降维算法之一.PCA的工作原理是找出在数据中相互正交的方差很大的轴.在我ᵗʰ轴被称为我ᵗʰ主成分(PC).执行PCA的步骤是: 标准化数据. 从协方差矩阵或相关矩阵 ...

  • 梯度消失和梯度爆炸问题的最完整解析

    作者丨奥雷利安 · 杰龙 来源丨机械工业出版社<机器学习实战:基于Scikit-Learn.Keras和TensorFlow> 编辑丨极市平台 极市导读 机器学习"四大名著&qu ...

  • 使用自动编码器进行图像去噪 - 深度学习项目的初学者指南

    介绍 让我们从理解术语**"图像去噪"**的含义来开始我们的讨论,这也是我们的文章标题-- 图像去噪是从图像中去除噪声的过程 图像中存在的噪声可能是由实际上难以处理的各种内在或外在 ...

  • 看片提示“解码失败”,不存在的!而且无广告!

    搜罗君,每日优质搜罗 今天搜罗君要为大家推荐的是一款收集播放器,这款播放器的强大之处就在于他的超强解码能力和无广告特性,而且软件本身还可以进行上百项的自定义设置,保证让你看到第一眼就觉得他真的很强大~ ...

  • 德勤&百度联合发布《知识中台白皮书》附下载

    日前,德勤管理咨询与百度集团联合发布了<知识中台白皮书>,深入解析"知识中台"在智能时代的核心商业价值,以及如何建设知识中台.加快企业数字化转型,实现科学决策.智慧运营 ...

  • 边看电视边玩手机:具体表现和背后的原因探究 | Facebook与Tobii Pro联合研究

    为了解人们边看电视边玩手机的具体表现及背后的原因,Facebook IQ 在分析 Facebook 数据之余,还开展了一项眼动追踪研究.以下就是我们关于"多屏同用"情况的一些发现. ...

  • 男士广告也可以勇敢一点,理然这支视频有态度

    如果说一支广告,有可能改变社会对一个群体形象的审美,您信吗?70年代万宝路广告为我们塑造了经典的男子汉形象,就是粗狂的西部牛仔:80年代大宝广告,让中国人第一次认识到男士也可以脸上抹油.40年过去了, ...

  • 命理格局规律研究

    四柱命理之中,格局可谓意味深长.命理研判之中,看格局为第一要务.严格意义来讲,格与局是两个不同的概念.子平正理之中,格,有三个部分,就是如<渊海子平>中的八正格,五行专旺,加上一些显而易见 ...

  • 初天麟:命理格局规律研究

    四柱命理之中,格局可谓意味深长.命理研判之中,看格局为第一要务.严格意义来讲,格与局是两个不同的概念.子平正理之中,格,有三个部分,就是如<渊海子平>中的八正格,五行专旺,加上一些显而易见 ...

  • 百度直播短视频如何拍摄?用什么设备拍摄短视频最好?

    Hello大家好,我是狂潮老师. 本期视频的话跟大家来分享一下,作为新手前期拍摄视频用什么样的设备才是最好的.之前我的一个个人的一个经验,我觉得一台手机就可以解决,因为现在的手机功能还是比较强大的,但 ...

  • 免费资源 | Cyriax(希理氏)脊柱视频课程

    小燕子 运动系统肌肉骨胳慢性疼痛的诊疗在中国缺乏完善的理论体系,Cyriax骨内科医学正是我们所需,弥补了目前多采取外科手术治疗肌肉骨胳疾病的现状,给骨科医生.康复科医生.康复科治疗师提供新的治疗方法 ...

  • 日本核废水入海影响到底有多大?多国联合研究团队这样评估……

    ◎ 科技日报记者 陈瑜 4月13日,日本政府宣布,将于两年后开始把处理福岛核事故所累积的废水逐步排入海洋.这一决定立即引起国际社会的强烈关注,各国民众亟需科学界对其影响进行定量评估. 受<海洋污 ...

  • 多国联合研究团队:日本排放核废水后,4

    多国联合研究团队:日本排放核废水后,4-5年抵达北美 2021-05-26 22:15 鱼与"渔":日本倾倒核废水危害有多大? 鱼与"渔":日本倾倒核废水危害有 ...