3D目标检测上运用三重注意力机制的先驱——TANet(2020AAAI)

0 基本信息

论文来源:2020 AAAI

1 Abstract

本文关注的是点云3D目标检测中鲁棒性的问题。我们关注到2个问题:

  1. 对行人等 hard目标的检测精度不高;
  2. 增加额外的噪声时,现有方法的性能迅速下降。

本文提出TANet,包含三重注意力(TA)模块coarse-to-fine(CFR)模块。通过联合考虑channel-wise、point-wise和voxel-wise的注意,TA模块在增强目标的关键信息的同时,也能抑制了不稳定的点云;此外堆积TA模块可以探索多尺度特征注意力。CFR模块可以在不增加额外计算的情况下,提高定位精度。

2 introduction

尽管之前的工作已经取得了很好的结果(PointPillars 、SECOND、voxelnet等),但在行人等hard 目标的性能依然欠缺。如下图所示:PointPillars 漏检了一个行人,还将一个对象的预测为假正例。预测错误的本质原因:1)行人的体积小于汽车,因此LIDAR扫描到的有效点云较少;2)行人频繁出现在大量场景中,背景物体很多(如树、灌木丛、电线杆等),可能与行人很接近,这给准确识别行人带来极大难度。因而,在复杂点云中执行目标检测仍然极具挑战。

本文提出的TANet,如下图所示。在出现严重噪声时,一些信息丰富的点可以提供足够的信息用于后续检测。为了获取有用信息,提出TA模块来增强有用特征点,同时抑制不稳定的点。具体来说,分别学习channel-wise、point-wise,并通过元素乘法结合他们。此外,我们还考虑了voxel-wise的注意力,它代表了voxel的全局注意力。

在噪声环境下,仅应用单个回归器模块(如一阶 RPN)做 定位3D 边界框效果不尽如人意。因此提出一种端到端、可训练的 coarse-to-fine regression (CFR) 模块。其中,coarse按照 voxelnet、PointPillars 对对象进行粗略估计。然后,利用Pyramid Sampling Aggregation (PSA) 融合方法得到跨层特征图。Refinement基于融合后的跨层特征图实现,从而得到更精细的结果。

TA 模块和 CFR 模块对于3D检测器的鲁棒性很关键,而 3D 检测器的鲁棒性对自动驾驶真实场景非常重要。由于 KITTI 数据集中并非所有数据都受噪声所扰,因此在实验评估过程中,通过在每个目标周围添加随机噪声点来模拟噪声环境

TANet贡献如下:

1. 提出TA模块,该模块联合考虑channel-wise、point-wise和voxel-wise注意力,并执行堆叠操作获得多级特征注意力,进而得到对象的判别表示;

2. 提出CFR模块,基于粗糙回归结果,在利用有用信息的融合跨层特征图上执行refinement;

3. 在噪声环境中取得了不错的实验结果,在 KITTI数据集上性能达到SOTA 。

3 Related Work

略。

4 3D Object Detection with TANet

TANet基于voxels进行3D目标检测,可端到端训练,主要包括2个部分:堆叠TA模块和CFR模块。

4.1 堆叠TA模块

Point-wise attention

描述每个体素内的点之间的空间相关性。输入体素Vk,经过max-pooling层后,再经过2个FC层后,得到Sk。

Channel-wise attention

描述每个体素特征通道的重要性。输入体素Vk,经过max-pooling层后,再经过2个FC层后,得到Tk。

通过element-wise相乘结合Point-wise attention和Channel-wise attention后,再经过 sigmoid 函数,得到注意力矩阵Mk,

Voxel-wise attention

判断每个体素的重要性。先计算每个体素的中心坐标,再经过FC层转化为高维特征表示,再与F1k concate,具体操作见图3.

堆叠TA

堆叠两个TA模块,利用multi-level上的特征注意力。

4.2 Coarse-to-Fine Regression

包括Coarse Regression (CR) 模块和Fine Regression (FR) 模块。

PSA模块提供cross-layer特征图,用来结合low-level和high-level的特征。

4.3 损失函数

损失函数论文进行了详细叙述,不再赘述。

5 Experiment

实验表明,TANet算法对于噪音的鲁棒性更好,且对于hard 样本的检测效果更好。

(0)

相关推荐