Attention增强的卷积网络

2024-04-28 05:44:33

最近要开始使用Transformer去做一些事情了，特地把与此相关的知识点记录下来，构建相关的、完整的知识结构体系。

以下是要写的文章，本文是这个系列的第二十三篇，内容较为深入，需要学习基础的同学点击链接进入文章列表查看基础知识相关文章。

Overall

在Conformer: 卷积增强的Transformer中，我们介绍了如何在Transformer中应用卷积，在本文中，则介绍如何将Transformer中的attention机制应用到卷积神经网络中。

参考文献[1]提出了一种基于二维相对位置的注意力机制，只用这种机制可以达到与卷积类似的效果，与卷积混用则能达到更好的效果。

图像上的自注意力

对于一张图像来说，它的shape一般是[H, W, F_in]，一个暴力的方法就是将H和W展平，变成[H * W, F_in]，然后在这个矩阵上直接运行attention，得到：

其中，X就是H和W展平后的矩阵。多头注意力的结果要拼接起来。

位置编码

但上面的计算方式完全忽略了位置信息，就导致如果对图像上的各个像素的位置做一个混排，再进行attention也能得到一样的结果，即：

其中，π就是一种排列方法。

而我们知道，卷积之所以能在图像上大获成功，跟它能捕捉结构信息有很强的关系。所以位置信息无法丢弃。因此，和Transformer中相对位置编码中描述的1维相对位置类似，这里，我们使用2维的相对位置编码。

更具体的，位置(i_x, i_y)和位置(j_x, j_y)之间计算注意力的logits的时候，公式如下:

注意到，这里分别为x维和y维定义了一个相对位置编码。因而，计算attention的公式就变成了

其中，S_H^rel[i, j] = q_ir_{j_x-i_x}^H，S_W^rel同理。

跟一维相对位置类似，相对位置的embedding只看相对位置差，和绝对位置无关。

卷积和自注意力的拼接

为了同时利用卷积和自注意力，这里将它们的输出拼接在一起。如下图：

公式如下：

假设原来的卷积层的参数为 kernel_size = k, 输入通道 = F_in, 输出通道 = F_out。这里再定义两个参数：

v = d_v / F_out, 其中d_v是attention计算中value的维度。这个参数控制着拼接结果中attention和卷积结果的比例，这个比例越大，卷积的比例就越低。

k = d_k / F_out, 其中d_k是attention计算中key的维度，这个参数控制着注意力权重的计算。

参数量

更进一步的，attention引入的参数为W_q, W_k和W_v，所以相当于做了一个1x1的卷积，输入通道为F_in, 输出通道数目为2d_k+v_v = F_out(2k+v)

实验

使用ResNets、MNasNet在Cifar100， ImageNet和COCO数据集上分别做了实验验证。

其中在Cifar100上，对Wide-ResNet-28-10结构进行了增强，在每个残差块的第一个卷积层用了注意力增强。

注意力使用8个头，k=2v=0.2，每个头的embedding至少20。同时，还将Squeeze-and-Excitation(SE)和Gather-Excite也进行了实现，结果如下，可以看到注意力增强效果比Excitation方法要好。

类似的，在ImageNet上，结果如下:

如果完全使用attention，也可以达到卷积类似的效果。如下图, k=v=1.0时效果和ResNet-34类似。

在消融实验中，发现相对位置编码非常重要，如下图，在完全使用注意力的时候，可以提升效果2.8%。

和其他网络的比较如下：

更多实验结果可以参考论文。

CVPR 2021 比CNN和Transformer更好的Backbone？伯克利&谷歌提出BoTNet，精度达84.7%

详细信息如下: 论文链接:https://arxiv.org/abs/2101.11605 项目链接:https://github.com/lucidrains/bottleneck-transfor ...
Transformer一作又出新作！HaloNet：用Self-Attention的方式进行卷积

作者丨小马编辑丨极市平台极市导读本文是谷歌团队Transformer的一作Ashish Vaswani 又一篇以一作身份发表的论文,也是今年CVPR的Oral文章.作者提出了HaloNet,并在 ...
CV圈杀疯了！继谷歌之后，清华、牛津等学者又发表三篇MLP相关论文，LeCun也在发声

来源:AI科技评论本文介绍了来自牛津.清华的多位学者关于MLP的多篇论文. 5月4日,谷歌团队在arXiv上提交了一篇论文<MLP-Mixer: An all-MLP Architecture ...
一年六篇顶会的清华大神提出Fastformer：史上最快、效果最好的Transformer

新智元报道来源:arXiv 编辑:LRS [新智元导读]Transformer模型好是好,可惜太慢了!最近一位清华大神在arxiv上传了一篇论文,提出新模型Fastformer,线性时间复杂度,训练 ...
比CNN更强有力，港中文贾佳亚团队提出两类新型自注意力网络｜CVPR2020

加入极市专业CV交流群,与 10000+来自港科大.北大.清华.中科院.CMU.腾讯.百度等名校名企视觉开发者互动交流! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总,行业技术交流.关注 ...
【NLP】聊聊NLP中的attention机制

本篇介绍在NLP中各项任务及模型中引入相当广泛的Attention机制.在Transformer中,最重要的特点也是Attention.首先详细介绍其由来,然后具体介绍了其编解码结构的引入和原理,最后 ...
打破Transformer宿命，新秀VOLO开源！横扫CV多项记录，首个超越87%的模型

作者丨Happy 审稿|邓富城编辑丨极市平台极市导读一直以来,Transformer的性能距离最佳的CNN仍存在差距,而今天由颜水成团队开源的新秀VOLO打破了这一宿命,成为了ImageNet数 ...
计算机视觉中的自注意力

自从引入网络以来,深度学习中的注意力机制在机器翻译和社区中广受欢迎.然而,在计算机视觉中,卷积神经网络 (CNN) 仍然是常态,自注意力才刚刚开始慢慢渗透到研究的主体中,要么补充现有的架构,要么完全 ...
清华大学提出点云Transformer！在3D点云分类、分割上表现优秀，核心代码已开源！

阅读大概需要5分钟 Follow小博主,每天更新前沿干货转载自:量子位当Transformer遇上3D点云,效果会怎么样? 一个是当下最热门的模型(NLP.图像领域表现都不错),另一个是自动驾驶领 ...
重庆大学徐奇伟、黄宏等：基于改进区域全卷积网络的高压引线接头红外图像特征分析的在线故障诊断方法

EVS34圆桌论坛议程:动力电池技术 EVS34圆桌论坛议程:燃料电池商用车发展趋势 EVS34主题论坛议程:智能充换电.充换电基础设施及车网互动 EVS34圆桌论坛议程:下一代电力电子(SiC) E ...
用于图像识别的方向卷积网络

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
EDPN：用于模糊图像恢复的增强深度金字塔网络

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
论文推荐｜【KSII TIIS 2021】DP-LinkNet：一种用于古籍文档图像二值化的卷积网络(有源码)

详情信息如下: 作者信息:Wei Xiong, Xiuhong Jia, Dichun Yang, Meihui Ai, Lirong Li, Song Wang 单位信息:湖北工业大学电气与电子工程 ...
应用于流形的卷积网络

几何深度学习是一个非常令人兴奋的新领域,但它的数学正在慢慢地进入代数拓扑和理论物理领域. 本文使用规范理论的语言,它处于物理学中任何喜欢同时使用'量子'和'场'这两个词的中心.它有望直观地理解规范理论 ...
T-MGCN时间多图卷积网络用于交通流预测

T-MGCN时间多图卷积网络用于交通流预测 1.文章信息 <Temporal Multi-Graph Convolutional Network for Traffic Flow Predict ...
用聚类方法结合卷积网络，实现无监督端到端图像分类

图像分类是根据图像的语义信息将不同类别图像区分开来,是计算机视觉中重要的基本问题,也是图像检测.图像分割.物体跟踪.行为分析等其他高层视觉任务的基础.图像分类在很多领域有广泛应用,包括安防领域的人脸识 ...
用预训练卷积网络提取图像重要 so easy ！

" 横看成岭侧成峰,远近高低各不同. 不识庐山真面目,只缘身在此山中." 开头一首诗,很装啊!老铁我们都知道各种卷积网络提取特征什么鬼的,好像很吊的样子. 那到底提取处理的会 ...
【模型压缩】深度卷积网络的剪枝和加速（含完整代码）

" 记录一下去年12月份实验室的一个工作:模型的剪枝压缩,虽然模型是基于yolov3的魔改,但是剪枝的对象还是CBL层(即Conv Layer + BN Layer + LeakyReLU ...

Attention增强的卷积网络

Overall

图像上的自注意力

位置编码

卷积和自注意力的拼接

参数量

实验

相关推荐