一个不限制插值个数和上采样倍数的视频增强方法

2024-04-27 18:46:01

作者单位：麦克马斯特大学

论文：https://arxiv.org/pdf/2102.13011.pdf

看点

近年来，大量的视频增强研究致力于同时提高时间帧速率和空间分辨率，这些方法要么不能揭示时空信息之间的内在联系，要么在最终的时空分辨率的选择上缺乏灵活性。本文主要贡献如下：

提出了一种无约束的时空视频超分网络（USTVSRNet），该网络综合了SOTA单阶段和两阶段方法的优点，同时避免了它们的缺点。
介绍了几种新的机制，包括整合图像级和特征级信息以提高中间帧的质量、推广pixelshuffle layer以增加上采样因子的自由度、生成规模感知特征以使网络更具适应性。

USTVSRNet能够在单个模型上按任意因子进行上采样。实验结果表明，该方法优于两阶段的SOTA方法，且计算量显著降低。

方法

overview

USTVSRNet的总体结构如下图所示，它主要由4个子网络组成：帧内插网络（FINet）、特征提取网络、增强网络（EnhanceNet）和重构网络。

首先，由FINet基于相邻帧（和）和双向光流（和）构造LR中间帧。然后通过特征提取器分别从、和生成特征、和。接下来，通过增强网络将特征增强到，最后，馈入重建网络产生超分辨率帧。

帧内插网络和特征提取器

首先，利用轻型光流估计网络PWCNet估计双向流和，然后它们传递到反向流动层，以预测反向流和。具体的说：

式中，，FR表示反向流操作；可按类似方式计算，然后合成为：

其中B是由CNN生成的混合掩模，g(·)表示翘曲函数。特征提取器由若干个卷积层和残差块组成。

增强网络

如下图所示，增强网络的目标有三：

1）利用源帧特征和以及双向光流和去预测中间帧特征；

2）在特征级对生成的参考帧进行细化以减轻误差积累问题，因为第一阶段得到的预测往往会有很多伪影；

3）在和的指导下，将源帧融合到中间帧，以便更好地重建。

其中M表示通过从和提取的运动特征。

重建网络

重建网络是以残差密集网络为主干设计的。本文提出GPL来替换SPL，以使得用任意比例因子s向上采样低分辨率特征成为可能。

此外，本文使用提出的SARDB替换每K个RDB中的一个，它能够生成比例自适应特征并对整体性能作出积极贡献。

GPL：提出GPL来解决SPL缺乏灵活性的问题。SPL和GPL的目标是将大小为的输入特征转换成大小为的输出特征，但是在SPL中s不允许为分数，且必须等于，但在GPL中可以是任意正整数。对于SPL，特征映射如下：

对于GPL，特征映射为：

其中，是预先确定的通道位置，表示由一个小型的全连接网络预测的自适应偏移量，该网络以作为输入。每个3D输出位置都与一个相关联，从而总共生成个偏移量。在不是整数的情况下，可以使用线性插值函数来计算采样值：

通过这样的设计，中间特征映射上的采样位置（）能够沿通道方向移动，从而对所需的特征进行采样,下图为例：

提出的GPL不仅实现了特征映射的无约束上采样，而且能够自由指定中间特征映射的通道维数；如果令，，，GPL则退化为SPL。

综上可以得出本文提出的GPL是SPL的一个推广版本，具有更多的自由度，可以进行有益的探索。在本文的实现中，，初始化为0，并设置全连接层的学习速率为与全局学习速率相同。

尺度注意剩余稠密块：Learning for scale-arbitrary...一文中提出SR网络生成的特征可分为尺度无关特征和尺度相关特征，后者应适应不同的尺度。

然而尺度感知模块仅仅建立在空间注意机制上，没有使用通道注意。基于这一观察，本文提出的SARDB更彻底地利用可用的自由度，如下图所示：

LFF输出的特征F被馈入到几个卷积层中，分别生成空间注意图和通道注意图。然后使用尺度感知卷积将特征F转换为尺度相关特征。最后，将上、下两个分支的结果进行融合，得到尺度自适应特征。

无约束STVSR实验

本文探讨了在不同目标时间t和上采样倍数s下的性能，设置t在0到1之间变化，步长为0.125，s在1到4之间变化，步长为0.5。在实现过程中，分别设置K=4，。

损失函数

使用损失和感知损失来训练网络。对于损失，采用Charbonnier函数来优化损失函数并设置。感知损失通常利用从预先训练的网络中提取的多尺度特征图来量化差异。本文采用VGG-16作为预训练网络，并使用前三个阶段中每个阶段最后一层的特征图来测量差异（即Conv1_ 2、Conv2_2和Conv3_3），公式如下：

其中是上述三个特征映射对应，对应于。总损失如下：

λ为平衡因子，实验得出 λ=0.04时效果最佳。

数据集

Adobe-240数据集由133个手持录制视频组成，每个视频的帧速率为240fps，空间分辨率为720×1280。从这个集合中，随机选取103个视频来构建训练数据集。该集合是通过连续地将每9个连续帧分组，并将它们调整为360×640以形成训练序列。

由此，总共获得了10895个序列。LR帧是从HR帧通过双三次下采样生成的。从LR帧中随机裁剪大小为56×56的图像块进行训练。水平/垂直翻转以及时间顺序反转用于数据扩充。

训练策略

在训练阶段，随机选择t和s构建每个训练批。单个批次内的图像块共享相同的t和s。采用Adam优化器，批次大小为18，其中β和β分别设置为默认值0.9和0.999。总共训练30个epochs，初始学习率设置为，第20个epoch时学习率减少了10倍。

量化评估

下图为不同s和t值时的PSNR量化图，红线为STVSR。

下图为模型大小和运行时间方面的方法比较。

消融实验

有无FINet或者EnhanceNet。

在不同的尺度上对比SPL和GPL。

强制，命名为FG-RDN，对于通道注意力的消融实验如下。

固定时空实验

在这个部分中，t只能在{0,0.5,1}之间变化，s被设置为4，这意味着网络只能对视频分别进行×2和×4倍的时间和空间分辨率的上采样。采用Vimeo90K作为数据集，其他设置与上节相同，量化评估如下。

END

备注：超分辨率

超分辨率交流群

图像视频超分辨率，可见光、红外、遥感超分辨率等技术，

若已为CV君其他账号好友请直接私信。

在看，让更多人看到

最新综述丨视频超分辨率研究方法

作者丨Wangsy 编辑丨极市平台极市导读本文是第一个也是唯一一个视频超分方向的综述,回顾了基于深度学习的视频超分技术的研究进展,提出了一种基于深度学习的视频超分分类方法,并总结了SOTA方法在一 ...
字节跳动因代码抄袭被告，视频剪辑工具也内卷

不久前,谷歌与甲骨文之间旷日持久的版权之争终于告一段落,谷歌在安卓系统中对甲骨文Java API的有限复制构成合理使用.毫无疑问,这一次判决将深刻影响软件业的未来.而在大洋彼岸,关于代码抄袭的争执也同 ...
HOG和SIFT图像特征提取简述

前言如今,计算机视觉的应用在生活中已随处可见,如人脸识别考勤门禁.全态识别过闸乘地铁等.之所以能大量应用,是因为能解决问题,其本质原理是在数学上找到了一种从具体图像转换到特定数学空间的方法.这里的特 ...
还原百年前的世界，AI 大牛将 1895 年老电影转换为 4K 高清！

<火车到站>是电影史上最著名的电影之一.该片由法国导演奥古斯特和路易·卢米埃拍摄,在当时达到了前所未有的质量水平. 今天,卢米埃尔兄弟的杰作看起来充满颗粒状,浑浊,破旧.但一个名叫 Den ...
2020 图像超分最新综述及上采样技术一览

作者丨科技猛兽编辑丨极市平台极市导读本文对超分网络的数据集,常用的4种框架,上采样的方法,训练策略等进行了综述,同时详细解读了如何在多个金字塔级别上逐步重建高分辨率图像以及如何同时设计渐进式的超 ...
既然作画只有720p，为啥日本动画还要用1080分辨率来观看？

一个悲惨的事实就是,至今2020年,日本的电视动画,很多的制作的原生分辨率,都是只有高清标准的720p.随着2020年,油管将720p,也就是1280×720的分辨率视频从HD的标签中去除,如果按美国 ...
pytorch torch.nn.functional实现插值和上采样

interpolate torch.nn.functional.interpolate(input, size=None, scale_factor=None, mode='nearest', ali ...
是切线还是渐近线？一个函数的零点个数问题

[前言]:已经从教高中数学十余载,回头看看,每天忙忙碌碌,感觉做了很多事,但再细看细想,又似乎什么都没做,因为当一切结束后就像船过水面,一切又恢复了平静,没有留下一点点痕迹.其实在教学过程中,与学生. ...
473.Office技巧：如何统计比当前日期大于一个月日期的个数？

如何统计比当前日期大于一个月日期的个数? 这是今天微信小伙伴询问的一个问题,牛闪闪研究一下,发现也有挺有代表性的,也算是2017年的第一个Office技巧发布,大家必须抓住鸡会,继续学起来! 具体操作 ...
下面哪三个数之间有倍数关系。2、3、4、6、9、12、8、18、24、27、48（）是（）的（）倍。（）是（）的（）倍。（）

下面哪三个数之间有倍数关系.2.3.4.6.9.12.8.18.24.27.48( )是( )的( )倍.( )是( )的( )倍.( )是( )的( )倍.( ...
路由器上贴一个创可贴，太厉害了，网速马上增强一倍，再不卡顿

路由器上贴一个创可贴，太厉害了，网速马上增强一倍，再不卡顿
确定一个住宅、工厂、商铺、办公等用此方法...

确定一个住宅.工厂.商铺.办公等用此方法比较简单.首先确定宅位的坐向.用罗盘从宅门度量一下,大门出口的地方所向的防线向就是坐向.利用八卦的方位分出是什么宅位,可以分成八个方位.八宅法一般以生气.天医. ...
韶羞法师和荷兰玫瑰是一个品种吗？法师又如何爆多头，常见方法

韶羞法师和荷兰玫瑰是一个品种吗？法师又如何爆多头，常见方法
一个故事告诉你：在股市中长久赢利的方法，看懂的没一个穷人

把自己变成一个高财商者犹太商人非常重视培养自己的财商.他们认为,拥有高财商,不仅可以让你懂得如何更多更好地创造财富,同时还能够让你知道在获得财富的机遇面前,应该如何去抓住这个机遇. 很多犹太商人都非 ...
找到了一个，下笔如神，才思泉涌，写文章的好方法

一冲动,报了个每天打卡写作的训练班,算是把自己彻底"坑"了. 本来,还是信心满满的,提前准备好了文章,第一天发到平台,就被告知审核不通过.打击非常沉重. 就想要打退堂鼓了,算了,别 ...