用于目标检测的半自动视频标注

重磅干货,第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要
大多数现有的基于点云的3D对象检测器使用类似卷积的操作符在一个固定权重的核中处理信息,并分层聚合全局上下文。然而,最近关于2D视觉的非局部神经网络和自我注意的研究表明,明确地建模全局环境和位置之间的远程交互可以导致更稳健和更具竞争力的模型。在本文中,我们通过使用自我注意特征增强卷积特征,探索了两种自我注意变量用于3D物体检测中的上下文建模。我们首先将成对自我注意机制整合到目前最先进的BEV、体素和基于点的检测器中,并显示出与强基线模型相比的一致改进,同时显著减少了它们的参数足迹和计算成本。我们还提出了一种自我注意变量,它通过学习变形在随机抽样的位置上抽样最具代表性的特征子集。这不仅允许我们将显式的全局上下文建模扩展到更大的点云,而且还导致更有区别性和更有信息的特征描述符。我们的方法可以灵活地应用于大多数最先进的探测器,提高了精度、参数和计算效率。我们在KITTI和nuScenes数据集上实现了新的最先进的检测性能。
论文代码:https://github.com/AutoVision-cloud/SA-Det3D
论文创新点
我们在KITTI[9]和大规模nuScenes[5]数据集上测试了我们的方法,跨越了不同计算预算下的广泛架构。我们展示在图2中,减少的总数卷积过滤器和添加FSA和DSA模块导致参数和计算效率模型,不断超越他们的基线用类似的参数来实现,同时也优于原来的表现实现。在下图中,我们提供了定性的例子显示上下文建模的好处。最后,我们还展示了KITTI和nuScenes测试集上最先进的结果。
我们提出了第一个基于自我注意的3D对象检测器的上下文聚合模块,该模块可应用于一系列现代体系结构,包括BEV[18]、voxel[48]、point[35]和pointvoxel[34]基于检测器。我们证明,我们可以用更少的参数和KITTI验证集上的计算成本来优于强大的基线实现。
我们设计了一个可扩展的自我注意变量,它学习变形随机抽样的位置,以覆盖最具代表性和信息最丰富的部分,并在这个子集上聚合上下文。这允许我们在像nuScenes[5]这样的大型点云中聚合全局上下文。
大量的实验证明了使用我们提出的三维目标检测方法进行上下文信息聚合的好处。我们的网络在KITTI[9]和nuScenes[5]数据集上都优于最先进的方法。
KITTI数据集表现结果。红色包围框代表地面真理;绿色表示检测器输出。从左到右:(a)挑战性场景的RGB图像。(b)最新方法的结果:PointPillars [18],SECOND [48],Point-RCNN [35],PV-RCNN[34]。(c)我们完全自我注意(FSA)增强基线的结果,它使用的参数和失败显著减少。FSA处理整个点云,以产生全局上下文感知的特征表示。我们的方法识别漏检并消除假阳性。
框架结构

建议的FSA和DSA模块的架构

针对不同骨干网提出的FSA/DSA模块增强网络架构

中等难度汽车类的性能比较

结论
在本文中,我们提出了一个简单灵活的基于自我注意的框架,以增强卷积特征与全局上下文信息的三维目标检测。我们提出的模块是通用的,参数和计算效率,并可以集成到一系列的3D探测器。我们的工作探讨了两种形式的自我注意:完全(FSA)和可变形(DSA)。FSA模块对所有3D实体之间的成对关系进行编码,而DSA操作一个具有代表性的子集,为全局上下文建模提供一个可伸缩的替代方案。定量和定性实验表明,该体系结构系统地提高了三维物体检测器的性能。

论文链接:https://arxiv.org/pdf/2101.02672.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

- END -

(0)

相关推荐