HOTR:基于Transformer的端到端人机交互检测
重磅干货,第一时间送达
小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
人-物交互(Human-Object Interaction, HOI)检测是一种识别图像中一组交互的任务,包括i)交互主体(即人)和交互目标(即对象)的定位,ii)交互标签的分类。大多数现有方法通过检测人员和对象实例,并分别推断每一对检测到的实例,间接地解决了这个任务。在本文中,作者提出了一个新的框架,简称HOTR,它直接从一个图像中预测一组人,对象,交互三组,基于变压器编码器-解码器结构。通过集合预测,作者的方法有效地利用了图像中固有的语义关系,并且不需要耗时的后处理,这是现有方法的主要瓶颈。作者提出的算法在两个HOI检测基准中实现了最先进的性能,在目标检测后的推理时间不到1毫秒。
这项工作的贡献总结如下:
作者提出了HOI检测中第一个基于变压器的集预测方法HOTR。HOTR消除了之前HOI探测器手工制作的后处理阶段,同时能够对相互作用之间的相关性进行建模。
作者提出了HOTR: HO指针的各种训练和推理技术来关联两个并行解码器的输出,一个重组步骤来预测最终的HOI三联体集,以及一个新的损失函数来实现端到端训练。
HOTR在两个基准数据集上实现了最先进的HOI检测性能,推理时间在1毫秒以下,显著快于以前的并行HOI检测器(5 9毫秒)。
框架结构
作者提议的模型的整体管道
实例解码器和交互解码器并行运行,并共享编码器。在作者的重组中,交互解码器预测的交互表示与实例表示相关联,以预测一组固定的HOI三连体(见上图)。位置编码与[2]相同。
HO指针如何将交互表示与实例表示相关联的概念性说明
由于实例表示被预先训练以执行标准对象检测,交互表示通过预测每个人和对象框的实例表示索引的指针来学习定位。注意,索引指针预测是与实例表示并行获得的。
实验结果
V-COCO数据集上HOI检测器的时间与性能分析
HOI识别推理时间由端到端推理时间减去目标检测时间来度量。蓝色圆圈代表连续HOI探测器,橙色圆圈代表平行HOI探测器,红色星星代表作者的探测器。作者的方法实现了0.9ms的HOI识别推理时间,明显快于并行HOI探测器如IPNet[30]或UnionDet[12](并行HOI探测器的比较用蓝色突出显示)。
结论
在本文中,作者提出了第一个基于变换的集预测方法,用于人机交互问题。HOTR的集合预测方法消除了之前HOI探测器手工制作的后处理步骤,同时能够对相互作用之间的相关性进行建模。作者提出了多种用于HOTR的训练和推理技术:使用并行解码器进行HOI分解训练,基于相似性的重组层进行推理,以及交互活性抑制。作者开发了一种新的基于集合的匹配HOI检测,将交互表示关联到实例表示。作者的模型在HOI检测的两个基准数据集(V-COCO和HICO-DET)中实现了最先进的性能,与以前的并行HOI检测器相比有很大的优势。HOTR在两个基准数据集上实现了最先进的HOI检测性能,推理时间在1毫秒以下,显著快于以前的并行HOI检测器(5 9毫秒)。
论文链接:https://arxiv.org/pdf/2104.13682.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。