TransReID：基于变压器的物体再识别

2024-06-09 22:03:53

重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

在本文中，作者探讨了视觉变压器(ViT)，一个纯粹的基于变压器的模型，为目标再识别(ReID)任务。通过一些调整，一个强大的基线vitt - bot被构建为以ViT为骨干，这可以在几个ReID基准上获得与卷积神经网络(CNN)框架类似的结果。针对ReID数据的特点，设计了两个模块:(1)将摄像机、视点等非视觉信息编码为向量嵌入表示的方法非常自然和简单。(2)作者设计了一个平行于全局分支的Jigsaw分支，以方便在一个双分支学习框架中对模型进行训练。在Jigsaw分支中，设计了一个Jigsaw patch模块来学习鲁棒特征表示，并通过对patches进行变换来帮助训练变压器。利用这些新颖的模块，作者提出了一种称为TransReID的纯变压器框架，这是作者所知的第一个在ReID研究中使用纯变压器的工作。TransReID的实验结果是非常有前途的，它在人和车辆ReID基准上都实现了最先进的性能。

论文创新点

本文的贡献如下：

首次提出了一个用于ReID任务的纯transformer框架，并构建了一个具有多种适应性的强基线vita - bot。vitt - bot通过最先进的基于cnn的框架实现了相当的性能。
引入边信息嵌入(SIE)作为一个统一的框架，对对象ReID中的各种边信息进行编码。实验结果表明，该方法能有效地消除由于不同摄像机或物体视点所引起的特征偏差。
利用基于条纹的思想，提出了Jigsaw Patches模块(JPM)。通过shuffle操作，JPM在两分支学习框架中便于训练更好、更健壮的特征表示。
TransReID实现了最先进的性能在人和车辆的ReID基准，包括MSMT17, Market-1501, DukeMTMC-reID, OccludedDuke, VeRi-776和VehicleID。

框架结构

提出的TransReID框架

边信息嵌入(淡蓝色)编码非视觉信息，如摄像机或视角嵌入表示。与贴片嵌入和位置嵌入一起输入变压器编码器。最后一层包括两个独立的变压器层。一个是编码全局特征的标准。另一个包含了Jigsaw补丁模块(JPM)，它将所有补丁进行洗牌，并将它们重新组合成几个组。所有这些组都输入到一个共享的transformer层，以学习本地特性。全局特征和局部特征都会导致ReID损失。

实验结果

作者在VeRi-776上可视化相机间、相机内、视点间和视点内距离的分布。(a)和(c)显示相机间和相机内的相似性。(b)和(d)显示视角间和视角内的相似性。

结论

在本文中，作者研究了一个用于对象ReID任务的纯变压器框架。基于cnn的基线机器人扩展为vitt -BoT，并进行了多种适配。ViTBoT在person和vehicle ReID基准测试中都取得了相当的成绩。在vitt - bot的基础上，作者提出了两个新的模块，即边信息嵌入(SIE)和拼图补丁模块(JPM)。在MSMT17、Market1501、DukeMTMC-reID、occlued - duke、VeRi-776和VehicleID上进行的各种设置的实验验证了作者的TransReID框架的有效性。拟议的TransReID在以上六个标准上都达到了最先进的水平。

尽管ViT仅仅打开了基于图像分类的纯变压器模型的大门，但TransReID取得的令人振奋的成果让作者相信，该变压器对于ReID来说有着巨大的潜力。预计vitt - bot或TransReID可以作为更多致力于基于transformer的ReID框架的研究工作的起点。在未来，作者计划为视觉任务探索一个更有效的基于transformer的框架，特别是在表示能力和计算成本的权衡上。

论文链接：https://arxiv.org/pdf/2102.04378.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

- END -

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。深度学习爱好者或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

深度学习爱好者鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

· 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

· 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

· 深度学习爱好者默认每篇文章都是首发，均会添加“原创”标志

旷视开源了一套图像检索和ReID的PyTorch库

旷视开源了一套图像检索和 ReID 的 PyTorch 库,论文"PyRetri: A PyTorch-based Library for Unsupervised ImageRetriev ...
行人重识别算法优化技巧：Bags of Tricks and A Strong Baseline

本周四(3月28日)晚,澳大利亚阿德莱德大学博士生王鑫龙,将为我们分享联合点云分割中的实例和语义(CVPR2019),公众号回复"39"即可获取直播详情. 作者简介 TeddyZh ...
来自Transformer的降维打击：ReID各项任务全面领先，阿里&浙大提出TransReID

作者丨Happy 审稿丨邓富城编辑丨极市平台极市导读 Transformer在ReID领域的第一次全面探索!为更好的利用ReID的数据特性与Transformer的信息嵌入特征,本文提出了两种模块 ...
深度学习行人重识别ReID最新综述与展望

今天 arXiv 新出论文 Deep Learning for Person Re-identification: A Survey and Outlook,作者调查了245篇近两三年的行人重识别(P ...
京东发布FastReID：目前最强悍的目标重识别开源库！

京东AI研究院近日发布了基于PyTorch的目标重识别(ReID)开源库 FastReID ,其不仅对相关领域的研究有帮助,而且对工程部署有优化,在各大数据集上的评测结果惊人,其今天公布的论文 Fas ...
TPAMI 2021 ：基于 event stream 的步态识别，准确率高达90%！

作者丨张贤同学审稿丨邓富城编辑丨极市平台极市导读本文介绍了作者被TPAMI接收的工作,基于 event stream 的两种不同表示形式,提出了一种新的基于 event stream 的步态识 ...
基于三维变形模型的可识别三维人脸形状重构

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为 ...
怀念 · 追思丨【苏国勋】马克斯·韦伯：基于中国语境的再研究

中国著名社会学家.社会理论家.中国社会科学院社会学研究所社会理论研究室原主任.研究员.博士生导师.中国社会学会理论社会学专业委员会首任理事长.哈尔滨工程大学人文社会科学学院特聘教授苏国勋先生因病抢救无 ...
科研 | Front. Microbiol.：基于宏基因组溯源耐药性-识别抗性基因组特征

编译:小白同学,编辑:小菌菌.江舜尧. 原创微文,欢迎转发转载. 导读宏基因组学可以揭示食品.肠道等不同环境中微生物组的遗传信息,可用于分析食源性有害物质的传播,如抗生素耐药性(AMR)等.本研究中 ...
基于EEG信号的情绪识别

情感在日常生活中有着重要的作用,不仅在人类互动中,而且在决策过程中,以及在对我们周围世界的感知中.由于最近研究界对建立人和计算机之间的情感互动表现出兴趣,因此需要识别前者的情感状态.这可以 ...
Flipreid：缩小人员再识别训练和推理之间的差距

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
【OCR技术系列之四】基于深度学习的文字识别（3755个汉字）

上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN ...
基于EEG信号的生物识别系统影响因素分析

摘要:由于指纹.语音或面部等传统特征极易被伪造,因此寻找新的生物特征成为当务之急.对生物电信号的研究也因此具有了开发新的生物识别系统的潜力.使用脑电信号是因为其因人而异,并且相比传统的生物识别技术更难 ...
SeqNet：学习基于序列的层级位置识别的描述符

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...

TransReID：基于变压器的物体再识别

相关推荐