Swin Transformer的继任者（下）

2024-05-22 16:26:53

设为星标，干货直达！

GG-Transformer

上海交大提出的GG Transformer其主要思路是改变window的划分方式，window不再局限于一个local region，而是来自全局。这里提出的一个操作是AdaptivelyDilatedSplitting，即window的token是通过以一定的adaptive dilation rate 来采样获得，下面是一个实例（2x2个windows）：

如果这样划分window，那么window attention将具有全局视野，但是相邻的patchs之间缺乏交互，所以GG Transformer又增加了一个额外的Gaze分支：先将attention中的values进行Merging操作，其实就是AdaptivelyDilatedSplitting的逆变换，那么将得到正常的tokens排列，然后通过一个depth-wise conv来提取局部信息，再通过AdaptivelyDilatedSplitting操作得到和attention一样的windows，再加上attention后的特征即可：

论文里将这种结构分成Glance和Gaze两个分支，分别用来提取全局和局部信息，类比人类的Glance and Gaze行为。这里的AdaptivelyDilatedSplitting其实可以通过前面说的shuffle操作来实现，后面要讲的Shuffle Transformer也是一样的原理。论文中也没有提到位置编码，估计Gaze分支的卷积可以隐式地编码位置信息。

在ImageNet上，GG-Transformer在同样的参数和算力下，其模型效果要优于Swin模型：

在COCO数据集上，基于Mask R-CNN，其模型效果也要优于Swin：

Shuffle Transformer

腾讯提出的Shuffle Transformer其核心思路是通过spatial shuffle来建立cross-window之间联系。这里的spatial shuffle和ShuffleNet中的channel shuffle类似，通过spatial shuffle可以将来自不同windows的token组成新的window：

这个实现上应该是和AdaptivelyDilatedSplitting等价的，另外MSG Transfomer也是通过MSG tokens的channel shuffle来建立不同windows间的联系。它们的实现都是类似的：reshape->transpose->reshape。开源代码也给出了具体实现：

       if self.shuffle:

            q, k, v = rearrange(qkv, 'b (qkv h d) (ws1 hh) (ws2 ww) -> qkv (b hh ww) h (ws1 ws2) d', h=self.num_heads, qkv=3, ws1=self.ws, ws2=self.ws)

            # 这里其实是三种操作

            # reshape: qkv = qkv.reshape(b, 3, h, d, ws1, hh, ws2, ww)

            # transpose：qkv = qkv.transpose(1, 0, 5, 7, 2, 4, 6, 3)

            # reshape: q, k, v = qkv.reshape(3, b*hh*ww, h, ws1*ws2, d)

        else:

            q, k, v = rearrange(qkv, 'b (qkv h d) (hh ws1) (ww ws2) -> qkv (b hh ww) h (ws1 ws2) d', h=self.num_heads, qkv=3, ws1=self.ws, ws2=self.ws)

            # 注意正常window split与shuffle版本的区别，第一步reshape有区别

与Swin Transformer模型类似，Shuffle Transformer交替地采用标准的WMSA和shuffle SWMSA：

可以看到，Shuffle Transformer在WMSA操作后增加了一个NWC操作，这个其实是一个depthwise conv，其kernel size和window size一样，用于增强Neighbor-Window Connection。

class Block(nn.Module):    def __init__(self, dim, out_dim, num_heads, window_size=1, shuffle=False, mlp_ratio=4., qkv_bias=False, qk_scale=None, drop=0., attn_drop=0.,                 drop_path=0., act_layer=nn.ReLU6, norm_layer=nn.BatchNorm2d, stride=False, relative_pos_embedding=False):        super().__init__()        self.norm1 = norm_layer(dim)        self.attn = Attention(            dim, num_heads=num_heads, window_size=window_size, shuffle=shuffle, qkv_bias=qkv_bias, qk_scale=qk_scale,             attn_drop=attn_drop, proj_drop=drop, relative_pos_embedding=relative_pos_embedding)

        # NWC        self.local = nn.Conv2d(dim, dim, window_size, 1, window_size//2, groups=dim, bias=qkv_bias)        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()        self.norm2 = norm_layer(dim)        mlp_hidden_dim = int(dim * mlp_ratio)        self.mlp = Mlp(in_features=dim, hidden_features=mlp_hidden_dim, out_features=out_dim, act_layer=act_layer, drop=drop, stride=stride)        self.norm3 = norm_layer(dim)        print('input dim={}, output dim={}, stride={}, expand={}, num_heads={}'.format(dim, out_dim, stride, shuffle, num_heads))

    def forward(self, x):        x = x + self.drop_path(self.attn(self.norm1(x)))        x = x + self.local(self.norm2(x)) # local connection        x = x + self.drop_path(self.mlp(self.norm3(x)))        return x

从结构上看，Shuffle Transformer几乎和Swin Transformer一样。在ImageNet数据集上，同等条件上Shuffle Transformer相比Swin提升明显：

在COCO数据集上，基于Mask R-CNN，Shuffle Transformer和Swin性能不相上下：

后话

可以看到，这四个模型和Swin Transformer本质上都是一种local attention，只不过它们从不同地方式来增强local attention的全局建模能力。而且，在相似的参数和计算量的条件下，5种模型在分类任务和dense任务上表现都是类似的。近期，微软在论文Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight上系统地总结了Local Vision Transformer的三大特性：

Sparse connectivity：每个token的输出只依赖于其所在local window上tokens，而且各个channel之间是无联系的；（这里忽略了attention中query，key和valude的linear projections，那么attention就其实可以看成在计算好的权重下对tokens的特征进行加权求和，而且是channel-wise的）
Weight sharing：权重对于各个channel是共享的；
Dynamic weight：权重不是固定的，而是基于各个tokens动态生成的。

那么local attention就和Depth-Wise Convolution就很相似，首先后者也具有Sparse connectivity：只在kernel size范围内，而且各个channel之间无连接。而Depth-Wise Convolution也具有weight sharing，但是卷积核是在所有的空间位置上共享的，但不同channle采用不同的卷积核。另外depth-wise convolution的卷积核是训练参数，一旦完成训练就是固定的，而不是固定的。另外local attention丢失了位置信息，需要位置编码，但是depth-wise convolution不需要。下图是不同操作的区别：

论文中也设计了基于depth-wise convolution的模型，和Swin模型结构类似：

在ImageNet数据集上，DW-Conv模型效果和Swin模型相当（这里D-DW-Conv增加了动态权重的特性，类似SE模块来动态生成kernel weights）：

从这项研究来看，设计好的Conv模型在性能上也是可以和local attention模型匹敌的，也许local attention模型反而退化到了CNN模型。一点体外话是之前的CNN模型一般常采用3x3和1x1比较小的卷积核，但是这里采用7x7的卷积核反而大幅度提升模型效果（相比ResNet50），这里也值得深思。

参考

Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer
Twins: Revisiting the Design of Spatial Attention in Vision Transformers
Glance-and-Gaze Vision Transformer
MSG-Transformer: Exchanging Local Spatial Information by Manipulating Messenger Tokens
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight.

继 Swin Transformer 之后，MSRA 开源 Video Swin Transformer，在视频数据集上SOTA

详细信息如下: 论文链接:https://arxiv.org/abs/2106.13230 项目链接:https://github.com/SwinTransformer/Video-Swin-Tra ...
登上更高峰！颜水成、程明明团队开源ViP，引入三维信息编码机制，无需卷积与注意力

作者丨Happy 审稿丨邓富城编辑丨极市平台极市导读本文从位置信息编码出发,引入了高-宽-通道三维信息编码机制.为进一步校正不同分支的作用,提出了加权融合方式.ViP在ImageNet上取得了8 ...
搞懂Vision Transformer 原理和代码，看这篇技术综述就够了(三)

作者丨科技猛兽来源丨极市平台审核丨邓富城极市导读本文为详细解读Vision Transformer的第三篇,主要解读了两篇关于Transformer在识别任务上的演进的文章:DeiT与VT.它 ...
Transformer拿下CV顶会大奖，微软亚研获ICCV 2021最佳论文

机器之心报道机器之心编辑部 ICCV 2021 全部奖项已经公布,来自微软亚洲研究院的研究者获得 ICCV 2021 马尔奖(最佳论文):最佳学生论文奖由苏黎世联邦理工学院.微软研究者获得. 10 ...
超越Swin Transformer！谷歌提出了收敛更快、鲁棒性更强、性能更强的NesT

作者丨happy 审稿丨邓富城编辑丨极市平台极市导读谷歌&罗格斯大学的研究员对ViT领域的分层结构设计进行了反思与探索,提出了一种简单的结构NesT,方法凭借68M参数取得了超越Swin ...
GPT Plus Money！B O O M

连接图像和文本,更多的多模态文章可以看博主整理过的系列(跨界出圈 | 谈谈BERT跨模态预训练),本篇文章主要整理一下OpenAI发表的2篇文章.其中CLIP 能够完成图像与文本类别的匹配,DALL· ...
搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（八）

作者丨科技猛兽审稿丨邓富城编辑丨极市平台极市导读本文为详细解读Vision Transformer的第八篇,本文主要介绍了两个用以加深Transformer模型的工作:DeepViT.CaiT ...
LG-Transformer：全局和局部建模Transformer结构新作

写在前面近段时间,基于Transformer的结构在CV领域展现出了很大的应用潜力,已经逐渐掩盖了CNN的光芒.Transformer的缺点也很明显:计算复杂度和输入的特征大小呈平方的关系.因此直接 ...
超越Swin，Transformer屠榜三大视觉任务！微软推出新作：Focal Self-Attention

作者丨小马编辑丨极市平台极市导读本文提出了Focal Self-Attention,对当前token周围的区域进行细粒度的关注,对离当前token较远的区域进行粗粒度的关注,用这样的方式来更加有 ...
ICCV 2021 | 最快视觉Transformer！Facebook提出LeViT：快速推理的视...

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 204篇原创内容公众号本文转载自: ...
MLP再添新砖，Facebook入局！ResMLP:完全建立在MLP上的图像分类架构

作者丨happy 审稿丨邓富城编辑丨极市平台极市导读继谷歌MLP-Mixer引爆CV圈后,各高校也纷纷入场,facebook也不例外,在今天提出一种完全建立在MLP上的架构ResMLP用于图像分 ...
NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率...

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 219篇原创内容公众号本文转载自: ...
剑桥三星AI中心提出“X-ViT”：基于时空混合attention的视频Transformer，大幅度降低计算复杂度

▊ 写在前面本文介绍了利用Transformer进行的视频识别问题.最近Transformer在视频识别领域的尝试在识别精度方面展现出了非常不错的结果,但在许多情况下,由于时间维度的额外建模,会导致 ...
实践教程 | PyTorch 中相对位置编码的理解

作者丨有为少年编辑丨极市平台本文重点讨论BotNet中的2D相对位置编码的实现中的一些细节.注意,这里的相对位置编码方式和Swin Transformer中的不太一样,读者可以自行比较. 前言这 ...
最强辅助Visualizer：简化你的Vision Transformer可视化！

Visualizer 是一个辅助深度学习模型中 Attention 模块可视化的小工具,主要功能是帮助取出嵌套在模型深处的 Attention Map. Vision Transformer 如今已经 ...
CV领域，Transformer在未来有可能替代CNN吗？

在这个大火的阶段,确实值得我们反思一下,self-attention和CNN结构相比,到底有什么联系与区别,两者在相同配置下有什么样的差距? 尤其近期一些工作在Transformer结构中引入loca ...
高通人工智能应用创新大赛冠军方案解读

作者丨宁欣编辑丨极市平台高通人工智能应用创新大赛介绍 2021高通人工智能应用创新大赛由高通技术公司.高通创投主办,极视角.小米.中科创达.CSDN共同协办,TensorFlow Lite作为开源 ...
搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（五）

作者丨科技猛兽审稿丨邓富城编辑丨极市平台极市导读本文为详细解读Vision Transformer的第五篇,主要介绍了MIT HAN LAB 提出的2种构建轻量级Transformer的方法: ...
用Pytorch轻松实现28个视觉Transformer，开源库 timm 了解一下！（附代码解读）

作者丨科技猛兽审稿丨邓富城编辑丨极市平台极市导读本文将介绍一个优秀的PyTorch开源库--timm库,并对其中的vision transformer.py代码进行了详细解读.>> ...

Swin Transformer的继任者（下）

GG-Transformer

Shuffle Transformer

后话

参考

相关推荐