CVPR2021 最佳论文候选—提高图像风格迁移的鲁棒性

1
前言
该论文出自于加州大学圣地亚哥分校并收录于CVPR2021,主要是对图像风格迁移的研究。传统的方法是由预先训练的网络提取的特征之间的相关性从而捕捉图像的视觉风格,但这种风格化质量并不稳定,当应用于来自更高级和轻量级网络(如)的特征时,这种风格化质量会显著降低。
通过对不同的网络体系结构进行实验,作者发现的残差块并不适用于风格迁移。为了提高ResNet架构的鲁棒性,作者提出了一个简单而有效的解决方案,该方案基于特征激活的变换。这种小技巧可以大大提高风格化结果的质量。
论文:https://arxiv.org/abs/2104.05623
2

图像风格化鲁棒性

2.1 预备知识

考虑一个彩色图像,其中和分别表示图像的宽和长。卷积神经网络将映射成一组特征映射
表示从图像到层激活张量的映射,其中个通道具有空间尺寸为。激活张量的形状还可以被重新整理为,其中。图像风格通常被表示为矩阵的集合,其中为激活第层通道之间的相关性,具体的计算公式为
其中
其中是各层对总损失贡献的加权因子。

2.2 残差块降低风格化质量

作者给出了和预训练模型和用随机权重初始化的网络的结果,其中前缀和分别用于指示模型是在ImageNet上是随机初始化还是预训练。下图到展示了、、和图像风格化的两个例子,可以发现其性能随着网络体系结构的不同而显著变化。
与相比,产生更模糊的风格化图像。这种差异对于随机模型来说更加明显,因为根本无法将内容图像风格化。从网络结构开始,作者通过移除所有残差块连接来构建一个“无残差块网络”。从图中可以看出非常明显提高了风格迁移的性能。
与相比,与的性能更接近。下图所示,删除残差块的修改使风格化性能更接近。很明显,大部分风格化性能的增益主要是由于删除了残差块。作者在伪网络中重新引入了残差块,以创建一个伪的。
下图显示了再次产生了不可复制的风格。可以证明的风格化性能下降主要是因为残差块。

2.3 残差连接降低性能的分析

为了理解残差块连接对于图像风格化的效果为什么是不好的。作者从可视化网络激活以及矩阵的统计为切入点进行分析,下图分别显示了最大值,, 激活值的归一化熵和矩阵的归一化熵,其相应公式如下所示,并且下图显示了激活值和矩阵值具有相似的现象。
在这两种情况下,对于具有残差块的体系结构(和),最大值随着层深度而增加,熵逐渐减小。残差块的引入使得激活最大值变大和激活熵接近于0。
以上图像风格迁移性性能不佳原因作者总结为两种:
第一种解释是源于距离的敏感性。由于这种敏感性使得矩阵在通道维度上高度相关的激活值显得更为突出,优化过度集中在少数样式的模式上,而忽略了其余的大部分。
第二种解释是关于神经网络的知识蒸馏。对于分类问题,神经网络通常被训练成最小化后验分布和目标分布之间的交叉熵损失,使用预先训练的较大网络的软概率输出作为目标可以提高训练速度,并有较好的收敛性。
这是因为高熵的分布在训练过程中产生的梯度方差要小得多。同样的原理图像风格化迁移是最小化和的矩阵之间的距离。在蒸馏的观点下,更高的熵学习起来相对更容易。

2.4 打地鼠效应

作者从网络结构出发进行剖析,如下图所示为三种的网络结构,第层的输出可以表示为:
其中表示为一系列的卷积,运算,经激活函数之后则有
这种网络结构的设计选择有助于更深层的更大激活值的存在。一旦中间层出现大的激活值,网络可能会被迫进入“打地鼠”游戏,为后续层产生更大的振幅。
为了研究这个“打地鼠”假设,作者通过网络跟踪了激活的演变。对于随机选择的样式图像,随机采样图像位置,并使用最近邻插值跟踪网络层上相应的激活值。下图显示了10个激活轨迹的典型随机样本。“打地鼠”效应甚至在这个有限的范围内也是可见的。

2.5 激活函数的平滑改进(SWAG)

作者提出了一个非常简单的解决方案,灵感来自于将图像风格化解释为为知识蒸馏,作者通过使用基于的平滑变换来平滑所有激活,从而避免低熵的峰值激活,具体公式如下所示:
其中内容损失和风格损失函数表示为:
转换减少了大峰值并增加了小的激活值,从而创建了更均匀的分布。
3
实验评估
3.1定性评估 
作者在两个非网络结构中评估了SWAG的想果,将,,和等网络结构表示为,,和.。下图显示了四种不同图像的风格迁移结果,标准模型和模型的性能的比较。和传输更高级的样式功能,如笔画和纹理。这些结果表明,通常有利于图像风格化算法的。

3.2 定量估计 

图像风格化质量很难定量评估,因为它是主观的。在该论文中,作者采用用户选择作为定量评估的标准,即人类从一组候选图像中选择一个首选图像。实验结果如下表所示,可以发现无论是预先训练的还是随机的网络,有模型总是比没有的模型获得更多的风格化效果,并且所有采用的模型都显著优于标准网络结构。

备注:GAN

GAN

生成对抗网络、GAN等技术,

若已为CV君其他账号好友请直接私信。

在看,让更多人看到

(0)

相关推荐