对视觉任务更友好的Transformer,北航团队开源Visformer!

 写在前面

目前,将基于视觉任务的Transformer结构正在快速发展。虽然一些研究人员已经证明了基于Transformer的模型具有良好的数据拟合能力,但仍有越来越多的证据表明这些模型存在过拟合,特别是在训练数据有限的情况下。

本文通过逐步改变模型结构,将基于Transformer的模型逐步过渡到基于卷积的模型。在过渡过程中获得的结果,为提高视觉识别能力提供了有用的信息。
基于这些观察结果,作者提出了一种名为Visformer(Vision-friendly Transformer)的新架构 。在相同的计算复杂度下,Visformer在ImageNet分类精度方面,优于基于Transformer和基于卷积的模型,当模型复杂度较低或训练集较小时,优势变得更加显著。

 1. 论文和代码地址

Visformer: The Vision-friendly Transformer

论文:https://arxiv.org/abs/2104.12533v4

代码:https://github.com/danczs/Visformer

 2. Motivation

在过去的十年里,卷积在视觉识别的深度学习模型中起着核心作用。当源自自然语言处理的Transformer被应用到视觉场景中时,这种情况就开始发生改变。ViT模型表明,一张图像可以被分割成多个patch网格,Transformer直接应用在网格上,每个patch都可以看做是一个视觉单词。

ViT需要大量的训练数据(ImageNet-21K或JFT-300M数据集),因为Transformer建模了长距离的注意和交互,因此容易发生过拟合。后面也有一些工作基于ViT继续做改进,但是效果依旧不佳,特别是在训练数据有限的情况下。
另一方面,在大量数据训练下,视觉Transformer可以获得比基于卷积的模型更好的性能。也就是说,视觉Transformer具有更高的性能“上限”,而基于卷积的模型性能“下界”更好。上界和下界都是神经网络的重要特性。上界是实现更高性能的潜力,下界使网络在有限数据训练或扩展到不同复杂性时表现更好。
基于对Transformer-based和基于卷积的网络的下界和上界的观察,本文的主要目的是探究差异背后的原因,从而设计出具有较高下界和上界的网络。基于Transformer的网络和基于卷积的网络之间的差距可以在ImageNet上通过两种不同的训练设置来揭示。
第一个是基本设置(base setting) 。它是基于卷积的模型的标准设置,即训练周期更短,数据增强只包含基本的操作,如random-size cropping、 flipping。将此设置下的性能称为基本性能(base performance)
另一个设置是精英设置(elite setting) ,它对基于Transformer的模型进行了专门的调整,即训练周期更长,数据增强更强( RandAugment、CutMix等)。将此设置下的性能称为精英性能(elite performance)
在本文中,作者以DeiT-S和ResNet-50作为基于Transformer和基于卷积的模型的代表。在不同数量训练数据和训练设置下的两个模型结果如上表所示。可以看出,Deit-S和ResNet-50采用了相近的FLOPs和参数。
然而,在这两种设置下,它们在完整数据上的表现非常不同。Deit-S具有更高的精英性能,但从精英到基础会导致DeiT-S的精度下降10%以上。ResNet-50在基础设置下表现得要好得多,但对精英设置的提升仅为1.3%。这促使作者去研究这些模型之间的区别。
在这两种设置下,可以大致估计模型的下界和上界。作者使用的方法是执行一步一步的过渡操作,以逐步将一个模型变成另一个模型,这样就可以进一步认知这两个网络中的模块和设计的特性。作者将转换的过程分为8个步骤。
具体来说,从DeiT-S到ResNet-50,应

(i)使用全局平均池化 (非分类token)

(ii)引入逐步的patch embedding

(iii)采用多阶段 的主干网络设计

(iv)使用Batch Norm (非Layer Norm)

(v)利用3×3卷积

(vi)放弃position encoding 方案

(vii)用卷积替换Self-Attention

(viii)调整网络形状 (如深度、宽度等)

在深入分析了结果背后的原因后,作者采用了所有有助于视觉识别的因素,并提出Visformer(Vision-friendly Transformer)。
如上表所示,在ImageNet分类评估上,Visformer比DeiT和ResNet的性能更好。在精英设置下,在类似的模型复杂度下,Visformer-S模型分别比DeiT-S和ResNet-50高出2.12%和3.46%。
当使用10%的类和数据训练时,Visformer-S甚至表现优于ResNet-50,这揭示了Visformer-S的高性能下界。此外,对于tiny模型,Visformer-ti的性能超过Deit-Ti 6%以上。

 3. 方法

3.1.  基于Transformer和基于卷积的视觉识别模型

识别是计算机视觉中的基本任务。本文主要考虑图像分类,其中输入图像通过深度网络传播,得到输出类标签。大多数深度网络都是以分层的方式设计的。

在本文中,作者考虑了两种结构:Transformer和卷积。卷积用于捕获可重复的局部特征,它使用许多可学习的卷积核来计算输入对不同模式的响应。在本文中,作者将研究限制在残差块(卷积+残差)内,并在相邻的卷积层之间插入非线函数(激活函数、normalization)。
另一方面,Transformer起源于自然语言处理,其目的是捕获任何两个token之间的关系,即使它们彼此相距很远。这是通过为每个token生成三个特征来实现的,分别称为query、key和value。
然后,将每个token的响应计算为所有value的加权和,其中权重由其query与相应key之间的相似性决定。这个操作被称为多头自注意(MHSA)。Transformer Block中还包含其他操作,包括归一化和线性映射。
在本文中,作者考虑DeiT-S和ResNet-50分别作为基于Transformer和基于卷积的模型的代表。除了基础架构之外,这两个网络在设计上也有一些不同,比如ResNet-50有一些向下采样层,将模型划分为多个阶段,但在整个DeiT-S中,token的数量保持不变。

3.2.基础(base)和精英(elite)设置

虽然DeiT-S的准确率为80.1%,高于ResNet-50的78.7%,但我们可以注意到DeiT-S显著改变了训练策略,例如,训练周期的数量增加了3×以上,数据增强变得更强。

有趣的是,DeiT-S似乎严重依赖于精心调整的训练策略,其他基于Transformer的模型,包括ViT和PIT,也说明了它们对其他因素的依赖性,例如,大规模的训练集。接下来,作者对这一现象进行了全面的研究。
作者在ImageNet数据集上评估了所有的分类模型,该数据集有1K类、1.28万训练图像和50K测试图像。每个类的训练图像的数量大致相同。
对每个识别模型的优化都有两个设置。
第一个为基础设置 ,并被基于卷积的网络广泛采用。使用SGD优化器进行90个epoch的训练。batch大小为512的学习速率从0.2开始,然后随着余弦退火函数逐渐衰减到0.00001。采用随机裁剪和翻转等简单的数据增强策略。
第二种为精英设置 ,它已被验证可以有效地改进基于Transformer的模型。batch大小为512,优化器为初始学习率为0.0005的Adamw优化器。为了避免过拟合,采用了更强的数据增强策略:Mixup、Mixup、 Random Erasing、Repeated Augmentation等等。相应地,训练持续300个epoch,比基础设置的时间要长得多。
模型在这两个设置下得到的分类精度分别称为基础性能精英性能

3.3.从DeiT-S到ResNet-50的过渡

本节显示了从DeiT-S到ResNet-50转换的分解过程,共有八个步骤。关键步骤如上图所示。
分解过程中得到的网络性能如上表所示。

3.3.1使用全局平均池化来替换分类token

转换的第一步是删除分类token,并向基于Transformer的模型添加全局平均池化。与基于卷积的模型不同,Transformer通常会在输入中添加一个分类token,并利用相应的输出token来执行分类。相比之下,基于卷积的模型通过空间维度的全局平均池化获得分类特征。

通过删除分类token,Transformer可以等价地转换为卷积版本。patch embedding操作等价于其卷积核大小和步长是patch大小的卷积。MHSA和MLP块中的线性层等价于1×1卷积。(如上图所示)
通过这些操作得到Net1,这个结构的performance如上表所示。可以看出,这种转变可以极大地提高基础性能。作者进一步的实验表明,添加全局池化本身可以将基础性能从64.17%提高到69.44%。此外,这种转变可以略微提高精英性能。

3.3.2用 step-wise patch embedding替换patch flattening

DeiT和ViT模型直接用patch embedding层对图像进行编码,这相当于核大小和步幅等于patch size的卷积。然而,patch flatten操作会损害每个patch内的位置信息,使得提取patch内的信息变得更加困难。为了解决这一问题,现有的方法通常在patch embedding之前附加一个预处理模块。这个预处理模块可以使用卷积网络或者Transformer。

作者采用有一个相当简单的解决方案,即将大patch embedding分解为逐步的小patch embedding。具体来说,作者首先将ResNet中的stem层添加到Transformer上,这是一个7×7的卷积层,步幅为2。
由于原始DeiT模型中的patch大小为16,所以还需要在stem层后embed 8×8的patch。作者将8 × 8 patch embedding分成了4 × 4 embedding和 2 × 2 embedding,由4×4和2×2的卷积层实现。
此外,作者还添加了一个额外的2×2卷积,以便在分类前进一步将patch大小从16×16进一步升级到32×32。这些patch embedding层也可以看作是下采样层,在每次下采样的时候,作者将通道数增加了一倍。
通过利用step-wise patch embedding,patch内的先验位置被编码到特征中。从上表可以看出,Net2可以显著提高网络的基础性能和精英性能。这表明,在基于Transformer的模型中,step-wise patch embedding是比更大的patch embedding更好的选择。此外,这种转换具有计算效率,只引入了大约4%的额外FLOPs。

3.3.3多阶段设计

在本节中,作者将网络分成了多阶段。同一阶段的block具有相同的特征分辨率。由于step-wise patch embedding已经在embedding的时候将网络分成了不同的阶段,因此本节中的转换是将Transformer Block重新分配到不同的阶段,如上图所示(中)。

在这种转变下,基础性能得到了进一步的提高。这种设计利用了图像局部先验,因此在轻量的数据增强下模型能表现得更好。然而,该网络的精英性能明显下降。为了研究原因,作者进行了消融实验,发现 self-attention在很大的分辨率下不能很好地工作。作者推测大分辨率特征包含太多的token,而self-attention很难学习它们之间的关系。

3.3.4用LayerNorm替换BatchNorm

与BatchNorm相比,LayerNorm与Batch大小无关,对特定任务更友好,而BatchNorm在适当的Batch大小下通常可以获得更好的性能。作者用BatchNorm替换所有的LayerNorm,结果表明BatchNorm的性能优于LayerNorm。它可以提高网络的基础性能和精英性能。

此外,作者还尝试在Net2中添加BatchNorm,以进一步提高精英性能。然而,该Net2-BN网络存在收敛性问题。这就解释了为什么BatchNorm在纯Self-Attention模型中没有得到广泛的应用。但对于本文的混合模型,BatchNorm是提高性能的可靠方法。

3.3.5引入3×3卷积

由于网络的token以特征图的形式存在,因此引入核大小大于1×1的卷积是很自然的。大核卷积的具体含义如上图的右下角所示。全局 self-attention试图建立所有token之间的关系时,而卷积将局部邻域内的token联系起来。

因此,作者选择在feed-forward中的1×1卷积之间插入3×3卷积,从而将MLP块转换为bottleneck块,如上图的右上角所示。所获得的bottleneck块与ResNet-50中的bottleneck块相似,但它们的bottleneck比例不同。作者在所有三个阶段中都用bottleneck块替换MLP块。
3×3卷积可以利用图像中的局部先验,进一步提高了网络的基础性能。基础性能(77.37%)与ResNet-50(77.43%)相当。但精英性能下降了0.82%。作者进行了更多的实验来研究其原因——没有向所有阶段添加3×3卷积,而是分别向不同阶段插入3×3卷积。
作者观察到3×3卷积只在高分辨率特征上有效。作者推测,利用局部关系对于自然图像中的高分辨率特征是很重要的。然而,对于低分辨率的特征,在配备了全局self-attention时,局部卷积是不重要。

3.3.6移除position embedding

在基于Transformer的模型中,position embedding对token间的位置信息进行了编码。在本节的过渡网络中,作者删除了position embedding。

结果如上表所示,基础性能几乎没有变化,精英性能略有下降(0.29%)。作为比较,作者测试删除了DeiT-S的position embedding,精英性能显著下降了3.95%。
结果表明,position embedding在过渡模型中的作用不如基于纯Transformer的模型重要。因为过渡模型中的卷积操作已经利用了位置信息,这也解释了为什么基于卷积的模型不需要position embedding。

3.3.7用feed-forward来代替self-attention

在本节中,作者删除每个阶段的self-attention,而使用feed-forward层,使网络成为一个纯基于卷积的网络。所得网络(Net7)的性能如上表所示。基于纯卷积的网络在基础性能和精英性能都要差得多。

这表明,self-attention能够驱动神经网络获得更高的精英性能,并且不是导致ViT或DeiT的基础性能差的原因。因此可以设计一个具有高基础性能和精英性能的self-attention网络。

3.3.8调整网络的形状

Net7和ResNet-50之间仍有许多区别。但是,这两个网络都是基于卷积的网络。这两种网络之间的性能差距可以归因于网络架构设计策略。

上表的结果表明,ResNet-50具有更好的网络架构,并且可以在更少的FLOPs下表现得更好。然而,ResNet-50的精英表现更差。这表明,基本性能和精英性能之间的不一致性不仅存在于self-attention模型中,而且也存在于基于纯卷积的网络中。

3.4. Visformer

作者的目标是建立一个具有高基础性能和精英性能的网络。过渡研究表明,基础性能和精英性能之间存在一定的不一致性。
第一个问题是阶段性设计,它提高了基本性能,但降低了精英性能 。为了研究其原因,作者将Net5的每个阶段的bottleneck块分别替换为Self-Attention块,从而估计不同阶段的Self-Attention的重要性。
结果如上表所示,在所有三个阶段中,Self-Attention的取代都降低了基础性能和精英性能。此外,取代第一阶段的Self-Attention几乎对网络性能没有影响。更大的分辨率包含更多的token,作者推测Self-Attention要学习它们之间的关系更困难,因此低分辨率的Self-Attention比高分辨率的Self-Attention发挥着更重要的作用。
第二个问题是在前馈块中添加3×3卷积,这使精英性能降低了0.82% 。基于Net4,作者在每个阶段分别用bottleneck块替换MLP块。如上表所示,尽管所有阶段都在基础性能上得到了改进,但只有第一阶段精英性能得到提升。
当Self-Attention在这些位置上已经有了一个全局视图时,3×3卷积对于其他两个低分辨率的阶段是不必要的。在高分辨率阶段,Self-Attention难以处理所有的token,3×3卷积可以提供改进。
结合上述观察结果,作者提出了Visformer,结构如上表所示。

 4.实验

4.1. Comparison to the state-of-the-arts

上表比较了Visformer和DeiT的性能,在基础设置和精英设置下,Visformer都优于DeiT,并且在基础设置下优势更显著。
上表比较了Visformer和其他Transformer-based模型性能。
上表比较了Visformer和CNN模型性能。

4.2. Training with limited data

上表比较了在有限数据集下,三种模型的对比,可以看出Visformer都取得了不错的结果。

 5. 总结

本文提出了一种的有利于视觉识别Transformer模型——Visformer。作者使用两个设置,基础和精英设置,来评估每个模型的性能。为了研究基于Transformer的模型和基于卷积的模型表现不同的原因,作者分解了这些模型之间的差距,并设计了一个八步过渡步骤,以研究DeiT-S和ResNet-50之间的差距。

通过吸收优点并丢弃缺点,作者得到了同时优于DeiT-S和ResNet-50的Visformer-S模型。当被转移到一个紧凑的模型和在小数据集上进行评估时,Visformer也展现出了不错的性能。

▊ 作者简介

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END,入群👇备注:Transformer

(0)

相关推荐