3D目标检测上运用三重注意力机制的先驱——TANet(2020AAAI)
0 基本信息
论文来源:2020 AAAI
1 Abstract
本文关注的是点云3D目标检测中鲁棒性的问题。我们关注到2个问题:
- 对行人等 hard目标的检测精度不高;
- 增加额外的噪声时,现有方法的性能迅速下降。
本文提出TANet,包含三重注意力(TA)模块和coarse-to-fine(CFR)模块。通过联合考虑channel-wise、point-wise和voxel-wise的注意,TA模块在增强目标的关键信息的同时,也能抑制了不稳定的点云;此外堆积TA模块可以探索多尺度特征注意力。CFR模块可以在不增加额外计算的情况下,提高定位精度。
2 introduction
尽管之前的工作已经取得了很好的结果(PointPillars 、SECOND、voxelnet等),但在行人等hard 目标的性能依然欠缺。如下图所示:PointPillars 漏检了一个行人,还将一个对象的预测为假正例。预测错误的本质原因:1)行人的体积小于汽车,因此LIDAR扫描到的有效点云较少;2)行人频繁出现在大量场景中,背景物体很多(如树、灌木丛、电线杆等),可能与行人很接近,这给准确识别行人带来极大难度。因而,在复杂点云中执行目标检测仍然极具挑战。
本文提出的TANet,如下图所示。在出现严重噪声时,一些信息丰富的点可以提供足够的信息用于后续检测。为了获取有用信息,提出TA模块来增强有用特征点,同时抑制不稳定的点。具体来说,分别学习channel-wise、point-wise,并通过元素乘法结合他们。此外,我们还考虑了voxel-wise的注意力,它代表了voxel的全局注意力。
在噪声环境下,仅应用单个回归器模块(如一阶 RPN)做 定位3D 边界框效果不尽如人意。因此提出一种端到端、可训练的 coarse-to-fine regression (CFR) 模块。其中,coarse按照 voxelnet、PointPillars 对对象进行粗略估计。然后,利用Pyramid Sampling Aggregation (PSA) 融合方法得到跨层特征图。Refinement基于融合后的跨层特征图实现,从而得到更精细的结果。
TA 模块和 CFR 模块对于3D检测器的鲁棒性很关键,而 3D 检测器的鲁棒性对自动驾驶真实场景非常重要。由于 KITTI 数据集中并非所有数据都受噪声所扰,因此在实验评估过程中,通过在每个目标周围添加随机噪声点来模拟噪声环境。
TANet贡献如下:
1. 提出TA模块,该模块联合考虑channel-wise、point-wise和voxel-wise注意力,并执行堆叠操作获得多级特征注意力,进而得到对象的判别表示;
2. 提出CFR模块,基于粗糙回归结果,在利用有用信息的融合跨层特征图上执行refinement;
3. 在噪声环境中取得了不错的实验结果,在 KITTI数据集上性能达到SOTA 。
3 Related Work
略。
4 3D Object Detection with TANet
TANet基于voxels进行3D目标检测,可端到端训练,主要包括2个部分:堆叠TA模块和CFR模块。
4.1 堆叠TA模块
Point-wise attention:
描述每个体素内的点之间的空间相关性。输入体素Vk,经过max-pooling层后,再经过2个FC层后,得到Sk。
Channel-wise attention:
描述每个体素特征通道的重要性。输入体素Vk,经过max-pooling层后,再经过2个FC层后,得到Tk。
通过element-wise相乘结合Point-wise attention和Channel-wise attention后,再经过 sigmoid 函数,得到注意力矩阵Mk,
Voxel-wise attention:
判断每个体素的重要性。先计算每个体素的中心坐标,再经过FC层转化为高维特征表示,再与F1k concate,具体操作见图3.
堆叠TA:
堆叠两个TA模块,利用multi-level上的特征注意力。
4.2 Coarse-to-Fine Regression
包括Coarse Regression (CR) 模块和Fine Regression (FR) 模块。
PSA模块提供cross-layer特征图,用来结合low-level和high-level的特征。
4.3 损失函数
损失函数论文进行了详细叙述,不再赘述。
5 Experiment
实验表明,TANet算法对于噪音的鲁棒性更好,且对于hard 样本的检测效果更好。