DeiT：使用Attention蒸馏Transformer

2024-06-24 17:53:51

题目：Training data-efficient image transformers & distillation through attention

【GiantPandaCV导语】Deit是一个全Transformer的架构，没有使用任何的卷积操作。其核心是将蒸馏方法引入VIT的训练，引入了一种教师-学生的训练策略，提出了token-based distillation。有趣的是，这种训练策略使用卷积网络作为教师网络进行蒸馏，能够比使用transformer架构的网络作为教师取得更好的效果。

1简介

之前的ViT需要现在JFT-300M大型数据集上预训练，然后在ImageNet-1K上训练才能得到出色的结果，但这借助了额外的数据。

ViT文中也表示：“do not generalize well when trained on insufficient amounts of data”数据量不足会导致ViT效果变差。

针对以上问题，Deit核心共享是使用了蒸馏策略，能够仅使用ImageNet-1K数据集就就可以达到83.1%的Top1。

文章贡献如下：

仅使用Transformer，不引入Conv的情况下也能达到SOTA效果。
提出了基于token蒸馏的策略，这种针对transformer的蒸馏方法可以超越原始的蒸馏方法。
Deit发现使用Convnet作为教师网络能够比使用Transformer架构取得更好的效果。

2知识蒸馏

Knowledge Distillation（KD）最初被Hinton提出，与Label smoothing动机类似，但是KD生成soft label的方式是通过教师网络得到的。

KD可以视为将教师网络学到的信息压缩到学生网络中。还有一些工作“Circumventing outlier of autoaugment with knowledge distillation”则将KD视为数据增强方法的一种。

KD能够以soft的方式将归纳偏置传递给学生模型，Deit中使用Conv-Based架构作为教师网络，将局部性的假设通过蒸馏方式引入Transformer中，取得了不错的效果。

本文提出了两种KD:

Soft Distillation: 使用KL散度衡量教师网络和学生网络的输出，即Hinton提出的方法。

其中分别代表学生网络的logits输出和教师网络的logits输出。

Hard-label Distillation: 本文提出的一个KD变体，将教师网络得到的hard输出作为label，即，该方法是无需调参的。

3Deit蒸馏过程

在ViT架构基础上引入了Distillation token，其地位与Class token相等，并且参与了整体信息的交互过程。

Distillation token让模型从教师模型输出中学习，文章发现：

最初class token和distillation token区别很大，余弦相似度为0.06
随着class 和 distillation embedding互相传播和学习，通过网络逐渐变得相似，到最后一层，余弦相似度为0.93

4实验

Deit模型follow了Vision Transformer的设置，训练策略有所不同，仅使用Linear classifier，而不是用MLP head。

本文提出了Deit的系列模型：

Deit-B：代表与ViT-B有相同架构的模型
Deit-B|384 : 代表对Deit-B进行finetune，分辨率提升到384
Deit-S/Deit-Ti：更小的模型，修改了head数量。

实验1： 选取不同教师网络的效果

可以发现使用RegNet作为教师网络可以取得更好的性能表现，Transformer可以通过蒸馏来继承归纳偏差。

同时还可以发现，学生网络可以取得超越老师的性能，能够在准确率和吞吐量权衡方面做的更好。

PS:不太明白这里对比的时候为何不选取ViT-H(88.5%top1)作为教师模型？

实验2： 测试不同蒸馏方法

实验证明：hard-label distillation能够取得更好的结果。

实验3： 与SOTA模型进行比较

5训练细节

使用truncated normal distribution来进行初始化
soft蒸馏参数：
数据增强：Autoaugment,Rand-augment,random erasing,Cutmix,Mixup,Label Smoothing等
训练300个epoch需要花费37个小时，使用两个GPU

6回顾

问: 为什么不同架构之间也可以蒸馏？蒸馏能够将局部性引入transformer架构吗？

答：教师模型能够将归纳偏置以soft的方式传递给学生模型。

问: 性能增强归功于蒸馏 or 复杂度数据增强方法？

答：蒸馏策略是有效的，但是相比ViT，Deit确实引入了非常多的数据增强方法，直接与ViT比较还是不够公平的。Deit测试了多种数据增强方法，发现大部分数据增强方法能够提高性能，这还是可以理解为Transformer缺少归纳偏置，所以需要大量数据+数据增强。

END

搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（八）

作者丨科技猛兽审稿丨邓富城编辑丨极市平台极市导读本文为详细解读Vision Transformer的第八篇,本文主要介绍了两个用以加深Transformer模型的工作:DeepViT.CaiT ...
用Pytorch轻松实现28个视觉Transformer，开源库 timm 了解一下！（附代码解读）

作者丨科技猛兽审稿丨邓富城编辑丨极市平台极市导读本文将介绍一个优秀的PyTorch开源库--timm库,并对其中的vision transformer.py代码进行了详细解读.>> ...
搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（四）

作者丨科技猛兽审稿|邓富城编辑丨极市平台极市导读本文为详细解读Vision Transformer的第四篇,主要包括2种vision Transformer的内部机制,即:1. 如何更好地利用 ...
ICCV2021-PiT-池化操作不是CNN的专属，ViT说：“我也可以”；南大提出池化视觉Transformer（PiT）

详细信息如下: 论文链接:https://arxiv.org/abs/2103.16302 项目链接:https://github.com/naver-ai/pit 导言: Vision Transf ...
NeurIPS2021 MBT：多模态数据怎么融合？谷歌提出基于注意力瓶颈的方法，简单高效还省计算量

详细信息如下: 论文链接:https://arxiv.org/abs/2107.00135 项目链接:未开源导言: 人类通过同时处理和融合多种模态(如视觉和音频)的高维输入来感知世界.然而,机器感知 ...
谷歌最新提出无需卷积、注意力，纯MLP构成的视觉架构！网友：MLP is All You Need...

当前,卷积神经网络(CNN)和基于自注意力的网络(如近来大火的 ViT)是计算机视觉领域的主流选择,但研究人员没有停止探索视觉网络架构的脚步.近日,来自谷歌大脑的研究团队(原 ViT 团队)提出了一种 ...
对视觉任务更友好的Transformer，北航团队开源Visformer！

▊ 写在前面目前,将基于视觉任务的Transformer结构正在快速发展.虽然一些研究人员已经证明了基于Transformer的模型具有良好的数据拟合能力,但仍有越来越多的证据表明这些模型存在过拟合 ...
各类Transformer都得稍逊一筹，LV-ViT：探索多个用于提升ViT性能的高效Trick

作者丨happy 审稿丨邓富城编辑丨极市平台极市导读本文探索了用于提升ViT性能的各种训练技巧.通过一系列实验对比.改进与组合,本文所提方案取得了SOTA方案,超越了EfficientNet.T ...
搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（六）

作者丨科技猛兽编辑丨极市平台极市导读本文为详细解读Vision Transformer的第六篇,主要介绍了2种将卷积引入Transformer模型的方法:CvT和CeiT.>>加入极 ...
NeurIPS2021-《YOLOS》-ViT现在可以做目标检测任务啦！华科提出目标检测新方法YOLOS

NeurIPS2021-《YOLOS》-ViT现在可以做目标检测任务啦！华科提出目标检测新方法YOLOS
NAS+CNN+Transformer=ViT-Res！MIT团队重磅开源ViT-Res，精度高于DeiT-Ti8.6%

本文分享论文『Searching for Efficient Multi-Stage Vision Transformers』,由 MIT 团队重磅开源 ViT-Res,Tiny 模型精度比 DeiT ...
重大里程碑！VOLO屠榜CV任务，无需额外数据，首次在ImageNet 上达到87.1%

深度学习技术前沿 126篇原创内容 Official Account 链接:https://arxiv.org/abs/2106.13112 代码:https://github.com/sail-sg ...
2021机器学习研究风向是啥？MLP→CNN→Transformer→MLP！

设为 "星标",重磅干货,第一时间送达! 转载自专知就在2月份,Transformer还横扫CV和NLP各种task.但到了5月份,似乎一切变了.近来,谷歌.清华.Facebo ...
ICCV2021 MIT-IBM沃森开源CrossViT：Transformer走向多分支、多尺度

详细信息如下: 论文链接:https://arxiv.org/abs/2103.14899 项目链接:https://github.com/IBM/CrossViT 导言: 与卷积神经网络相比,最近出 ...
搞懂Vision Transformer 原理和代码，看这篇技术综述就够了(三)

作者丨科技猛兽来源丨极市平台审核丨邓富城极市导读本文为详细解读Vision Transformer的第三篇,主要解读了两篇关于Transformer在识别任务上的演进的文章:DeiT与VT.它 ...
ResNet被全面超越了，是Transformer干的：依图科技开源“可大可小”T2T-ViT，轻量版优于MobileNet

作者丨Happy 审稿|邓富城编辑丨极市平台极市导读又一篇Transformer来了!本文在ViT方面进行了一次突破性探索,提出了首次全面超越ResNet,甚至轻量化版本优于MobileNet系 ...
patch成为了ALL You Need？挑战ViT、MLP-Mixer的简单模型来了

来源丨机器之心编辑丨极市平台导读 ViT等视觉模型的强大性能,是来自于 Transformer,还是被忽略的 patch?有研究者提出了简单 ConvMixer 模型进行证明,直接将 patch ...
Self-Attention真的是必要的吗？微软&中科大提出Sparse MLP，降低计算量的同时提升性能！

▊ 写在前面 Transformer由于其强大的建模能力,目前在计算机视觉领域占据了重要的地位.在这项工作中,作者探究了Transformer的自注意(Self-Attention)模块是否是其实现图 ...
还在用全部token训练ViT？清华&UCLA提出token的动态稀疏化采样，降低inference时的计算量

详细信息如下: 论文链接:https://arxiv.org/abs/2106.02034 项目链接:https://github.com/raoyongming/DynamicViT 导言: 在Vi ...

DeiT：使用Attention蒸馏Transformer

1简介

2知识蒸馏

3Deit蒸馏过程

4实验

5训练细节

6回顾

相关推荐