NeurIPS2021-《YOLOS》-ViT现在可以做目标检测任务啦!华科提出目标检测新方法YOLOS
写在前面
Transformer能在对2D空间结构了解最少的情况下,从序列到序列的角度执行2D对象级别识别吗? 为了回答这个问题,作者提出了You Only Look at One Sequence(YOLOS) ,这是一个基于原始视觉Transformer的目标检测模型,尽可能少的进行模型修改和加入归纳偏置。
论文和代码地址
论文地址:https://www.arxiv-vanity.com/papers/2106.00666/
代码地址:https://github.com/hustvl/YOLOS
Motivation
在自然语言处理 (NLP) 中,目前主流的方法是先在大型通用语料库上进行预训练Transformer以进行通用语言表示学习,然后在特定目标任务上对模型进行优化。最近,视觉Transformer (ViT) 证明了直接从NLP继承的Transformer编码器结构可以在大规模图像识别中表现出非常好的性能。
方法
在模型设计上,YOLOS遵循了ViT的结构,并且用DETR的方式来进行学习优化。YOLOS可以很容易地采用NLP和CV中的各种Transformer变体。这种简单的设置并不是为了获得更好的检测性能,而是为了尽可能准确的显示Transformer系列在目标检测中的特性。
4.1. Architecture
4.2. Detection Token
作者用随机初始化的 [DET] token作为对象表示的代理,以避免2D结构的归纳偏置和标签分配过程中注入任务的先验知识。在COCO数据集上进行微调时,对于每个向前传播,由[DET] token生成的预测和Ground Truth对象之间的最佳二分匹配被建立,从而执行目标检测任务。
4.3. Fine-tuning at Higher Resolution
在COCO上进行微调时,Transformer所有参数均根据ImageNet-1k预训练的权重进行初始化,但用于分类和边界框回归的MLP头以及100个[DET] token是随机初始化的。分类和边界框回归头均由MLP实现,具有两个参数不共享的隐藏层。
4.4. Inductive Bias
作者设计的YOLOS最大限度地减少了额外的假设偏置注入。ViT固有的假设偏置来源于网络主干部分的patch提取和位置嵌入的分辨率调整。除此之外,YOLOS没有添加其他额外的卷积操作。从表征学习的角度来看,作者选择使用[DET] token作为最终预测对象的代理,以避免额外的2D归纳偏置。
4.5. Comparisons with DETR
YOLOS的设计灵感来自于DETR:YOLOS使用[DET] token作为对象表示的代理,以避免关于二维结构的归纳偏置和标签分配期间注入任务的先验知识,并且YOLOS用类似于DETR的方式进行优化。然而,两者之间也有一些关键的区别:
实验
5.1. Model Variants
5.2. The Effects of Pre-training
5.3. Pre-training and Transfer Learning Performance of Different Scaled Models
5.4. Comparisons with CNN-based Object Detectors
Comparisons with Tiny-sized CNN Detectors
Comparisons with DETR
Inspecting Detection Tokens
总结
在本文中,作者探索了在ImageNet-1k数据集上预训练的标准ViT到COCO目标检测任务上的可迁移性。作者证明了2D目标检测可以以纯序列到序列的方式完成,具有最少的额外归纳偏置。并且YOLOS在COCO上的目标检测性能也是不错的,这表明纯Transformer结构对各种下游任务的泛化性和通用性。
▊ 作者简介
知乎/公众号:FightingCV
END