TransReID:基于变压器的物体再识别
重磅干货,第一时间送达
小白导读
论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
在本文中,作者探讨了视觉变压器(ViT),一个纯粹的基于变压器的模型,为目标再识别(ReID)任务。通过一些调整,一个强大的基线vitt - bot被构建为以ViT为骨干,这可以在几个ReID基准上获得与卷积神经网络(CNN)框架类似的结果。针对ReID数据的特点,设计了两个模块:(1)将摄像机、视点等非视觉信息编码为向量嵌入表示的方法非常自然和简单。(2)作者设计了一个平行于全局分支的Jigsaw分支,以方便在一个双分支学习框架中对模型进行训练。在Jigsaw分支中,设计了一个Jigsaw patch模块来学习鲁棒特征表示,并通过对patches进行变换来帮助训练变压器。利用这些新颖的模块,作者提出了一种称为TransReID的纯变压器框架,这是作者所知的第一个在ReID研究中使用纯变压器的工作。TransReID的实验结果是非常有前途的,它在人和车辆ReID基准上都实现了最先进的性能。
本文的贡献如下:
首次提出了一个用于ReID任务的纯transformer框架,并构建了一个具有多种适应性的强基线vita - bot。vitt - bot通过最先进的基于cnn的框架实现了相当的性能。
引入边信息嵌入(SIE)作为一个统一的框架,对对象ReID中的各种边信息进行编码。实验结果表明,该方法能有效地消除由于不同摄像机或物体视点所引起的特征偏差。
利用基于条纹的思想,提出了Jigsaw Patches模块(JPM)。通过shuffle操作,JPM在两分支学习框架中便于训练更好、更健壮的特征表示。
TransReID实现了最先进的性能在人和车辆的ReID基准,包括MSMT17, Market-1501, DukeMTMC-reID, OccludedDuke, VeRi-776和VehicleID。
框架结构
提出的TransReID框架
边信息嵌入(淡蓝色)编码非视觉信息,如摄像机或视角嵌入表示。与贴片嵌入和位置嵌入一起输入变压器编码器。最后一层包括两个独立的变压器层。一个是编码全局特征的标准。另一个包含了Jigsaw补丁模块(JPM),它将所有补丁进行洗牌,并将它们重新组合成几个组。所有这些组都输入到一个共享的transformer层,以学习本地特性。全局特征和局部特征都会导致ReID损失。
作者在VeRi-776上可视化相机间、相机内、视点间和视点内距离的分布。(a)和(c)显示相机间和相机内的相似性。(b)和(d)显示视角间和视角内的相似性。
结论
在本文中,作者研究了一个用于对象ReID任务的纯变压器框架。基于cnn的基线机器人扩展为vitt -BoT,并进行了多种适配。ViTBoT在person和vehicle ReID基准测试中都取得了相当的成绩。在vitt - bot的基础上,作者提出了两个新的模块,即边信息嵌入(SIE)和拼图补丁模块(JPM)。在MSMT17、Market1501、DukeMTMC-reID、occlued - duke、VeRi-776和VehicleID上进行的各种设置的实验验证了作者的TransReID框架的有效性。拟议的TransReID在以上六个标准上都达到了最先进的水平。
尽管ViT仅仅打开了基于图像分类的纯变压器模型的大门,但TransReID取得的令人振奋的成果让作者相信,该变压器对于ReID来说有着巨大的潜力。预计vitt - bot或TransReID可以作为更多致力于基于transformer的ReID框架的研究工作的起点。在未来,作者计划为视觉任务探索一个更有效的基于transformer的框架,特别是在表示能力和计算成本的权衡上。
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。深度学习爱好者 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
深度学习爱好者 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
· 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
· 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
· 深度学习爱好者 默认每篇文章都是首发,均会添加“原创”标志