ICCV2021—工业界中的神经网络视频传输超分算法
论文链接:https://arxiv.org/abs/2108.08202
代码链接:https://github.com/Neural-video-delivery/CaFM-Pytorch-ICCV2021
看点
本文首先研究了在神经视频传输中不同块的模型之间的关系,然后设计了一个拥有内容感知特征调制层(CaFM)的联合训练框架来压缩这些模型。
方法
神经视频传输
在服务器上对视频块进行模型训练
将LR块与同内容感知模型从服务器传输到客户端 在客户端上解析LR块
在该过程中每个块都需要一个模型,这带来了额外的带宽成本。
动机实验
CaFM
CaFM表示为一个通道线性函数:
联合训练框架
与单独训练的模型相比,添加微调过的CaFM的模块并不能获得有竞争力的结果。因此,本文进一步提出了一个联合训练框架来同时训练视频块模型。给定LR帧,表示该块中的第s个样本,SR帧的生成表示为:
实验
VSD4K数据集
公共数据集如Vimeo-90K和REDS只包含相邻帧序列,不适合视频传输。因此,本文从YouTube上收集了一些4K视频来模拟实际的视频传输场景,命名为VSD4K。
内容感知学习
在大规模数据集上训练网络模型,并使用训练后的模型对LR进行超分辨,本文定义这种训练为外部学习。然而,在神经视频传输任务中,视频是事先知道的。
因此,我们可以训练模型对每个视频都进行拟合,从而获得更好的SR性能。这种训练定义为内容感知学习。除此之外,还可以将视频进一步划分为多个视频块,并针对每个视频块进行分别训练,用'*’表示。实验结果如下:
CaFM中不同核大小的影响
联合训练的消融实验
在一个特定的视频上从零开始训练的网络表示M0。然后我们冻结参数并为每个块添加CaFM,对CaFM的参数进行微调以拟合每个块,这表示为FT。对每个chunk单独训练网络表示为,消融实验如下图:
与H.264/H.265的对比实验
在Vimeo-90K上的定量评估
VSD4K上的评估
定性评估如下:
END
赞 (0)