计算高效，时序一致，超清还原！清华&NYU 提出 RRN：视频超分新型递归网络

2024-06-03 20:16:44

极市导读

本文为大家介绍一个视频超分方向的最新工作：新颖的递归网络RRN。文章将残差学习思想引入到RNN中，在保持长周期纹理信息的同时降低了训练过程中的梯度消失的风险。该工作在Vid4数据集上超越了EDVR的PSNR指标。同时，文章还对常用的三种时序建模方案进行了系统的对比分析。>>>极市七夕粉丝福利活动：炼丹师们，七夕这道算法题，你会解吗？

paper: https://arxiv.org/2008.05765

code: https://github.com/junpan19/RRN（即将开源）

Abstract

视频超分在监控视频分析与超高清视频显示中扮演着非常重要的作用，它在工业界与学术界获得了非常多的关注。尽管有许多基于深度学习的视频超分方法已被提出，但是往往难以直接对这些方法进行对比，这是因为(1) 不同的损失函数；(2) 不同的训练数据等因素对于超分结果影响非常大。

该文仔细研究并对了视频超分中的三种时序建模方案(2D-CNN, 3D-CNN, RNN)，同时还提出了一种新颖的递归残差模块用于高效视频超分，其中残差学习用于稳定训练并提升超分性能。

作者通过充分的实验表明：所提RRN计算高效同时可以生成时序一致的超分结果，且具有更好的纹理细节。除此之外，所提方法在公开基准数据集取得了SOTA性能。

该文的贡献主要包含两方面：

精心研究并对比了视频超分中常用的三种时序建模方法；
提出了一种新颖的隐状态用于递归网络，它在所有时序建模方法中取得最佳性能，并在三个公开数据集取得了SOTA性能。

Method

接下来，我们将重点介绍一下该文所提整理系统方案以及时序建模方法的细节。整个视频超分系统包含两个部分：(1) 时序建模网络；(2) 图像/视频重建网络；(3) 损失函数。该文的重点是1与3两个部分。在时序建模网络方面，作者重点研究了2DCNN快融合(见下图A)、3DCNN慢融合(见下图B)以及RNN(见下图C)三种时序建模方案。基于不同建模方案的分析而提出了该文的RRN建模方案(见下图D)。

如前所述，该文考虑了三种形式的时序建模方案。接下来，我们就针对这三种方案进行介绍与分析。

2DCNN快融合

该方案以多帧作为输入，直接通过concat方式进行融合，然后采用堆叠2D卷积提取特征。受EDSR启发，作者了采用改进2D残差模块设计了2DCNN快融合模块。该融合过程可以描述为：

的输入维度为，其中。表示2D卷积的权值。该2DCNN的输出残差特征的维度为，然后通过depth-to-space方式进行上采样，最后将所得残差图与原始输入中间帧的bicubic结果相加得到最终的超分结果。

3DCNN慢融合

该方案以视频序列作为输入，然后采用堆叠3D卷积提取空-时信息。类似2DCNN，作者采用了相似的方式进行空-时信息提取，区别在于卷积由2D编程了3D。相比2DCNN，3DCNN中的时序信息融合更慢，该过程可以描述为：

其他的处理过程与2DCNN的过程基本相似，这里滤过不计。

RNN融合

相比CNN时序建模方法，RNN采用更少的帧与隐状态作为输入，并采用递归方式处理长视频序列。一般而言，时序t的隐状态包含三部分：(1) 前一帧的超分结果；(2) 前一帧的隐状态特征；(3) 两个相邻帧。直观上讲，前后帧的像素往往具有非常强的相似性，t时刻的高频纹理可以通过前一帧的补充信息进行进一步精炼调整。类似其他视频处理任务，VSR中的RNN往往存在梯度消失问题。

为解决上述问题，作者提出了一种新颖的递归网络RRN(Residual Recurrent Network)，它将残差学习思想引入到RNN中。这种设计确保了流畅的信息流，有助于保持长周期的纹理信息，进而使得RNN可以处理更长序列，同时降低了训练过程中的梯度消失风险。在t时刻，RNN采用如下方式生成隐状态与输出：

其中表示ReLU激活函数，表示恒等映射，即，而表示学习到的残差特征图。

Experiments

之前的方法往往采用不同的训练数据集(比如有的采用Vimeo90K，有的采用REDS，有的采用自己制作的数据)、不同的下采样核(有的采用bicubic，有的采用blur-down)，这就导致了不同方法无法公平对比。在该文中，作者采用Vimeo90K作为训练数据集，其中的LR采用blur-down方式制作。作者选用的测试数据集为Vid4、SPMCS以及UDM10三个公开数据集。

对于2DCNN时序建模方案，作者设计了2DCNN-S与2DCNN-L两种，分别采用5和10个2D残差模块，通道数为128；对于3DCNN时序建模方案，作者的设计类似2DCNN，故略过；为公平对比，对于RNN时序建模，作者也分别采用5和10个残差模块作为隐状态，即RNN-S与RNN-L，通道数同样为128，时刻的隐状态初始化为0。

在训练过程中，2DCNN的学习率为0.0001，3DCNN的学习率为0.001，每10epoch衰减0.1，总计训练30epoch；RNN的学习率为0.0001，每60epoch衰减0.1，总计训练70epoch。所有模型均采用损失函数、Adam优化器。CNN建模方案的Batch=64，RNN建模方案的Batch=4

下表给出了不同建模方案在公开数据集上的性能以及耗时对比。很明显，(1) 3DCNN时序建模方案以极大优势优于2DCNN，然而它非常耗时。(2) 相比3DCNN时序建模方案，RNN计算高效，参数量更少，同时具有更好的性能指标。(3)RRN-S能够以33fps生成720p视频，RRN-L能够以22fps生成720p视频。

作者同时还对比了不同建模方案的时序一致性，见下图。RRN方案可以生成时序一致的结果同时具有更少的伪影问题。

为更好说明RRN的有效性，作者还对比了不带残差学习时的性能对比，见下表。可以看到不添加残差学习存在严重的梯度消失问题。

最后，作者给出了所提方法与其他视频超分方案的性能与效果对比。

全文到此结束，对该文感兴趣的同学可以去看一下原文。最后，期待作者能尽快开源TGA、RSDN以及RRN的代码以及预训练模型，期待ing！

◎作者档案

Happy，一个爱“胡思乱想”的AI行者

个人公众号：AIWalker

欢迎大家联系极市小编（微信ID:fengcall19）加入极市原创作者行列

Hulu：视频广告系统中的算法实践

出品社区:DataFunTalk 导读:Hulu 是一家美国领先的互联网专业视频服务平台,商业广告是 Hulu 的重要变现手段之一.视频网站中的广告以担保合约式品牌广告为主,本次演讲分享了机器学习.人 ...
长文解读|深度学习+EEG时频空特征用于跨任务的心理负荷量评估

<本文同步发布于"脑之说"微信公众号,欢迎搜索关注~~> 心理负荷量显著影响特定任务中的人员绩效.适当的心理负荷量可以提高工作效率.但是,沉重的脑力劳动会降低人类的记忆 ...
简洁的架构还能高效和准确？清华&华为提出新型残差循环超分模型：RRN！

作者单位:清华大学.纽约大学.华为诺亚方舟实验室 1 看点本文提出了一种简洁而又高效的超分架构,在测试集上一帧只需45ms PSNR就可以达到27.69,具有很大的实用价值,亮点如下: 以往已经提出 ...
深度学习视频理解之图像分类 | 文末送书

根据中国互联网络信息中心(CNNIC)第47次<中国互联网络发展状况统计报告>,截至2020年12月,中国网民规模达到9.89亿人,其中网络视频(含短视频)用户规模达到9.27亿人,占网民 ...
CVPR 2021 前景背景分开建模，UCLA 视觉研究组提出用于视频预测的动态语义模型

详细信息如下: 论文题目:Learning Semantic-Aware Dynamics for Video Prediction 论文链接:https://arxiv.org/abs/2104.0 ...
复旦提出GaitSet算法，步态识别的重大突破！

这两天专注介绍计算机视觉黑科技的52CV君发现一篇被AAAI2019录用的非常棒的复旦大学的文章!性能强悍到爆! 而且,论文作者经把代码也开源了!(文末附下载) 文章的题目是<GaitSet: ...
匠人匠心，高超技艺，高清还原故宫传世名画凤凰网凰家尚品

故宫作为世界五大宫之首,公认的全球最顶级文化艺术殿堂,书画藏品超过15万件. 十大传世名画,则是万里挑一的珍品,极品中的极品,作为镇院之宝,被珍藏密敛. 众所周知,古画修复没有重大技术突破,每一次开卷 ...
南师大“神仙女寝”火了！全员升学清华等名校，奖学金超15000元！

大学应当如何度过才算不辜负?在南京师范大学,有四位优秀的女孩用实际行动,给出了一致的答案.她们是同班同学,是同寝室友,也是成长路上并肩同行的好伙伴.四年以来,她用心播种,含笑收获,所得荣誉奖项累计30 ...
《魂斗罗》低画质让我们误解三十年，BOSS高清还原之后尽显霸气

不知道当年的你,最初接触到的<魂斗罗>是在街机平台还是在红白机平台呢? <魂斗罗1>在街机厅流行的时间是在八十年代末期,能够在这个时间段接触到的玩家,应该都是70后,即使是80 ...
《圣教序》超清原碑图，见过没？

<圣教序>超清原碑图(部分)
超燃！清华推出励志短片《破壁少年》：未到终点，焉知输赢！

短片改编自2015年清华学生在美国SC超算比赛夺冠的真实故事. 超算团队准备三年,48小时决胜负.在比赛的最后关头,他们遭遇了前所未有的困境,但依然拼尽全力,努力奔跑. 目前,由清华大学运营的超级计算 ...
高玩出手打造乐高版兰博基尼超跑原尺寸大小重达2吨多

尽管之前已经有过乐高版汽车,不过闲不住的高玩们总会推陈出新,6月8日兰博基尼官网公开了最新版乐高版兰博基尼超跑,由15位高玩联手打造,1:1尺寸比例,重达2200公斤. ·这个独一无二的乐高版兰博基尼 ...
2020年安徽中考数学原题详解第二部分超有方向教育

中考在即,基本上已经进入最后的倒计时了,其实有些地区已经开考了.和高考时间全国统一不同的是,全国的中考时间基本都是各省市区自行安排时间,满分分值以及难以程度也有所差异. 台上三分钟,台下十年功,我们为 ...
2020年安徽中考数学原题详解第一部分超有方向教育

中考在即,基本上已经进入最后的倒计时了,其实有些地区已经开考了.和高考时间全国统一不同的是,全国的中考时间基本都是各省市区自行安排时间,满分分值以及难以程度也有所差异. 台上三分钟,台下十年功,我们为 ...