各种注意力机制，MLP，Re-Parameter系列的PyTorch实现

2024-06-24 07:56:58

作者：xmu-xiaoma666

编译：ronghuaiyang

导读

给出了整个系列的PyTorch的代码实现，以及使用方法。

各种注意力机制

Pytorch implementation of 'Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks---arXiv 2020.05.05'
Pytorch implementation of 'Attention Is All You Need---NIPS2017'
Pytorch implementation of 'Squeeze-and-Excitation Networks---CVPR2018'
Pytorch implementation of 'Selective Kernel Networks---CVPR2019'
Pytorch implementation of 'CBAM: Convolutional Block Attention Module---ECCV2018'
Pytorch implementation of 'BAM: Bottleneck Attention Module---BMCV2018'
Pytorch implementation of 'ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks---CVPR2020'
Pytorch implementation of 'Dual Attention Network for Scene Segmentation---CVPR2019'
Pytorch implementation of 'EPSANet: An Efficient Pyramid Split Attention Block on Convolutional Neural Network---arXiv 2020.05.30'
Pytorch implementation of 'ResT: An Efficient Transformer for Visual Recognition---arXiv 2020.05.28'

1. 外部注意力

1.1. 论文

'Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks'

1.2. 概要

1.3. 代码

from attention.ExternalAttention import ExternalAttentionimport torch

input=torch.randn(50,49,512)ea = ExternalAttention(d_model=512,S=8)output=ea(input)print(output.shape)

2. 自注意力

2.1. 论文

'Attention Is All You Need'

1.2. 概要

1.3. 代码

from attention.SelfAttention import ScaledDotProductAttention

import torch

input=torch.randn(50,49,512) sa = ScaledDotProductAttention(d_model=512, d_k=512, d_v=512, h=8) output=sa(input,input,input) print(output.shape)

3. 简化的自注意力

3.1. 论文

None

3.2. 概要

3.3. 代码

from attention.SimplifiedSelfAttention import SimplifiedScaledDotProductAttentionimport torch

input=torch.randn(50,49,512)ssa = SimplifiedScaledDotProductAttention(d_model=512, h=8)output=ssa(input,input,input)print(output.shape)

4. Squeeze-and-Excitation 注意力

4.1. 论文

'Squeeze-and-Excitation Networks'

4.2. 概要

4.3. 代码

from attention.SEAttention import SEAttention

import torch

input=torch.randn(50,512,7,7) se = SEAttention(channel=512,reduction=8) output=se(input) print(output.shape)

5. SK 注意力

5.1. 论文

'Selective Kernel Networks'

5.2. 概要

5.3. 代码

from attention.SKAttention import SKAttentionimport torch

input=torch.randn(50,512,7,7)se = SKAttention(channel=512,reduction=8)output=se(input)print(output.shape)

6. CBAM 注意力

6.1. 论文

'CBAM: Convolutional Block Attention Module'

6.2. 概要

6.3. 代码

from attention.CBAM import CBAMBlock

import torch
input=torch.randn(50,512,7,7)

kernel_size=input.shape[2]

cbam = CBAMBlock(channel=512,reduction=16,kernel_size=kernel_size)

output=cbam(input)

print(output.shape)

7. BAM 注意力

7.1. 论文

'BAM: Bottleneck Attention Module'

7.2. 概要

7.3. 代码

from attention.BAM import BAMBlockimport torch

input=torch.randn(50,512,7,7)bam = BAMBlock(channel=512,reduction=16,dia_val=2)output=bam(input)print(output.shape)

8. ECA 注意力

8.1. 论文

'ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks'

8.2. 概要

8.3. Code

from attention.ECAAttention import ECAAttention

import torch
input=torch.randn(50,512,7,7)

eca = ECAAttention(kernel_size=3)

output=eca(input)

print(output.shape)

9. DANet 注意力

9.1. 论文

'Dual Attention Network for Scene Segmentation'

9.2. 概要

9.3. 代码

from attention.DANet import DAModuleimport torch

if __name__ == '__main__':    input=torch.randn(50,512,7,7)    danet=DAModule(d_model=512,kernel_size=3,H=7,W=7)    print(danet(input).shape)

10. 金字塔拆分注意力

10.1. 论文

'EPSANet: An Efficient Pyramid Split Attention Block on Convolutional Neural Network'

10.2. 概要

10.3. 代码

from attention.PSA import PSA

import torch
if __name__ == '__main__':

    input=torch.randn(50,512,7,7)

    psa = PSA(channel=512,reduction=8)

    output=psa(input)

    print(output.shape)

11. 高效多头自注意力

11.1. 论文

'ResT: An Efficient Transformer for Visual Recognition'

11.2. 概要

11.3. 代码

from attention.EMSA import EMSAimport torchfrom torch import nnfrom torch.nn import functional as F

if __name__ == '__main__':    input=torch.randn(50,64,512)    emsa = EMSA(d_model=512, d_k=512, d_v=512, h=8,H=8,W=8,ratio=2,apply_transform=True)    output=emsa(input,input,input)    print(output.shape)

MLP 系列

Pytorch implementation of 'RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition---arXiv 2020.05.05'
Pytorch implementation of 'MLP-Mixer: An all-MLP Architecture for Vision---arXiv 2020.05.17'
Pytorch implementation of 'ResMLP: Feedforward networks for image classification with data-efficient training---arXiv 2020.05.07'
Pytorch implementation of 'Pay Attention to MLPs---arXiv 2020.05.17'

1. RepMLP

1.1. 论文

'RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition'

1.2. 概要

1.3. 代码

from mlp.repmlp import RepMLP

import torch

from torch import nn
N=4 #batch size

C=512 #input dim

O=1024 #output dim

H=14 #image height

W=14 #image width

h=7 #patch height

w=7 #patch width

fc1_fc2_reduction=1 #reduction ratio

fc3_groups=8 # groups

repconv_kernels=[1,3,5,7] #kernel list

repmlp=RepMLP(C,O,H,W,h,w,fc1_fc2_reduction,fc3_groups,repconv_kernels=repconv_kernels)

x=torch.randn(N,C,H,W)

repmlp.eval()

for module in repmlp.modules():

    if isinstance(module, nn.BatchNorm2d) or isinstance(module, nn.BatchNorm1d):

        nn.init.uniform_(module.running_mean, 0, 0.1)

        nn.init.uniform_(module.running_var, 0, 0.1)

        nn.init.uniform_(module.weight, 0, 0.1)

        nn.init.uniform_(module.bias, 0, 0.1)
#training result

out=repmlp(x)

#inference result

repmlp.switch_to_deploy()

deployout = repmlp(x)

print(((deployout-out)**2).sum())

2. MLP-Mixer

2.1. 论文

'MLP-Mixer: An all-MLP Architecture for Vision'

2.2. 概要

2.3. 代码

from mlp.mlp_mixer import MlpMixerimport torchmlp_mixer=MlpMixer(num_classes=1000,num_blocks=10,patch_size=10,tokens_hidden_dim=32,channels_hidden_dim=1024,tokens_mlp_dim=16,channels_mlp_dim=1024)input=torch.randn(50,3,40,40)output=mlp_mixer(input)print(output.shape)

3. ResMLP

3.1. 论文

'ResMLP: Feedforward networks for image classification with data-efficient training'

3.2. 概要

3.3. 代码

from mlp.resmlp import ResMLP

import torch

input=torch.randn(50,3,14,14) resmlp=ResMLP(dim=128,image_size=14,patch_size=7,class_num=1000) out=resmlp(input) print(out.shape) #the last dimention is class_num

4. gMLP

4.1. 论文

'Pay Attention to MLPs'

4.2. 概要

4.3. 代码

from mlp.g_mlp import gMLPimport torch

num_tokens=10000bs=50len_sen=49num_layers=6input=torch.randint(num_tokens,(bs,len_sen)) #bs,len_sengmlp = gMLP(num_tokens=num_tokens,len_sen=len_sen,dim=512,d_ff=1024)output=gmlp(input)print(output.shape)

Re-Parameter 系列

Pytorch implementation of 'RepVGG: Making VGG-style ConvNets Great Again---CVPR2021'
Pytorch implementation of 'ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks---ICCV2019'

1. RepVGG

1.1. 论文

'RepVGG: Making VGG-style ConvNets Great Again'

1.2. 概要

1.3. 代码

from rep.repvgg import RepBlock

import torch

input=torch.randn(50,512,49,49) repblock=RepBlock(512,512) repblock.eval() out=repblock(input) repblock._switch_to_deploy() out2=repblock(input) print('difference between vgg and repvgg') print(((out2-out)**2).sum())

2. ACNet

2.1. 论文

'ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks'

2.2. 概要

2.3. 代码

from rep.acnet import ACNetimport torchfrom torch import nn

input=torch.randn(50,512,49,49)acnet=ACNet(512,512)acnet.eval()out=acnet(input)acnet._switch_to_deploy()out2=acnet(input)print('difference:')print(((out2-out)**2).sum())

—END—

英文原文：https://github.com/xmu-xiaoma666/External-Attention-pytorch

PyTorch 源码解读之 torch.autograd

磐创AI分享来源 | GiantPandaCV 作者 | OpenMMLab 来源 | https://zhuanlan.zhihu.com/p/321449610 前言本篇笔记以介绍 p ...
深度学习之PyTorch实战（2）——神经网络模型搭建和参数优化

如果需要小编其他论文翻译,请移步小编的GitHub地址传送门:请点击我如果点击有误:https://github.com/LeBron-Jian/DeepLearningNote 上一篇博客先搭建 ...
万字长文，60分钟闪电战

大家好,我是 Jack. 本文是翻译自官方版教程:DEEP LEARNING WITH PYTORCH: A 60 MINUTE BLITZ,一份 60 分钟带你快速入门 PyTorch 的官方教程. ...
损失函数技术总结及Pytorch使用示例

作者丨仿佛若有光来源丨CV技术指南编辑丨极市平台极市导读本文对损失函数的类别和应用场景,常见的损失函数,常见损失函数的表达式,特性,应用场景和使用示例作了详细的总结. 前言一直想写损失函数的 ...
Pytorch实战：使用RNN网络对姓名进行分类

项目地址:https://github.com/spro/practical-pytorch 项目作者: spro 翻译: 大邓注意:文章末尾有jupyter notebook获取方式本文我们构建 ...
计算机视觉中自注意力构建块的PyTorch实现

作者:AI Summer 编译:ronghuaiyang(AI公园) 导读一个非常好用的git仓库,封装了非常全面的计算机视觉中的自注意力构建块,直接调用,无需重复造轮子了. git仓库地址:htt ...
PyTorch 学习笔记（六）：PyTorch的十七个损失函数

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
Tensorflow中卷积的padding操作

目录 Tensorflow中padding为valid的情况 Tensorflow中padding为same的情况和Pytorch的padding简单对比实验对比实验1 实验2 实验3 实验4 ...
【pytorch速成】Pytorch图像分类从模型自定义到测试

言有三毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人作者 | 言有三(微信号Longlongtogo) 编辑 | 言有三前面已跟大家介绍了Caffe和TensorFlow,链接如下. ...
各种注意力机制，MLP，Re-Parameter系列的PyTorch实现代码总结！

导读给出了整个系列的PyTorch的代码实现,以及使用方法. 各种注意力机制 Pytorch implementation of 'Beyond Self-attention: External A ...
夯实基础制度畅通体制机制——“建设高标准市场体系”系列评论之三

我们欣喜地看到,加快构建以国内大循环为主体.国内国际双循环相互促进的新发展格局的战略任务稳步推进.成效初显,各地都要找准在其中的定位.同时,也要清醒地看到,阻碍国内经济顺畅发展的堵点断点仍然存在,全国 ...
Twins：重新思考视觉Transformer中的空间注意力机制

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 198篇原创内容公众号 Twins: ...
3D目标检测上运用三重注意力机制的先驱——TANet(2020AAAI)

0 基本信息论文来源:2020 AAAI 1 Abstract 本文关注的是点云3D目标检测中鲁棒性的问题.我们关注到2个问题: 对行人等 hard目标的检测精度不高: 增加额外的噪声时,现有方法的 ...
超越卷积、自注意力机制：强大的神经网络新算子involution

AI蜗牛车 151篇原创内容公众号来自:机器之心这篇工作主要是由我和SENet的作者胡杰一起完成的,也非常感谢HKUST的两位导师陈启峰和张潼老师的讨论和建议. 本文是对我们CVPR 2021 ...
CVPR 2021 ｜针对强时序依赖，即插即用、混合注意力机制的 ACTION 模块

本文是对我们 CVPR 2021 接收的工作 "ACTION-Net: Multipath Excitation for Action Recognition" 的介绍.主要针对强 ...
以自注意力机制破局Transformer

各位好久不见,这段时间因工作项目加上家中大事,停更一段时间,细节略过不表. 本文针对Transformer进行重新梳理,针对其中要点附图详细讲解,按需取用! 1. Transformer架构解析首先 ...
最新「注意力机制Attention」大综述论文，66页pdf569篇文献

几十年来,哲学.心理学.神经科学和计算机科学都在研究注意力的概念和功能.在过去的六年中,这一特性在深度神经网络中得到了广泛的研究.目前,深度学习的研究进展主要体现在几个应用领域的神经注意力模型上. 本 ...
苹果让Transformer抛弃注意力机制，一切只为效率，项目已开源丨华人一作

来源:量子位(QbitAI) 2017年,一句Attention Is All You Need引爆了整个NLP圈,甚至在近些年还有踢馆计算机视觉领域的趋势. 所有的这一切,都来源于这篇论文中的Tra ...

各种注意力机制，MLP，Re-Parameter系列的PyTorch实现

各种注意力机制

1. 外部注意力

1.1. 论文

1.2. 概要

1.3. 代码

2. 自注意力

2.1. 论文

1.2. 概要

1.3. 代码

3. 简化的自注意力

3.1. 论文

3.2. 概要

3.3. 代码

4. Squeeze-and-Excitation 注意力

4.1. 论文

4.2. 概要

4.3. 代码

5. SK 注意力

5.1. 论文

5.2. 概要

5.3. 代码

6. CBAM 注意力

6.1. 论文

6.2. 概要

6.3. 代码

7. BAM 注意力

7.1. 论文

7.2. 概要

7.3. 代码

8. ECA 注意力

8.1. 论文

8.2. 概要

8.3. Code

9. DANet 注意力

9.1. 论文

9.2. 概要

9.3. 代码

10. 金字塔拆分注意力

10.1. 论文

10.2. 概要

10.3. 代码

11. 高效多头自注意力

11.1. 论文

11.2. 概要

11.3. 代码

MLP 系列

1. RepMLP

1.1. 论文

1.2. 概要

1.3. 代码

2. MLP-Mixer

2.1. 论文

2.2. 概要

3. ResMLP

3.1. 论文

3.2. 概要

3.3. 代码

4. gMLP

4.1. 论文

4.2. 概要

4.3. 代码

Re-Parameter 系列

1. RepVGG

1.1. 论文

1.2. 概要

1.3. 代码

2. ACNet

2.1. 论文

2.2. 概要

2.3. 代码

相关推荐