0 基本信息

论文来源：2020 AAAI

1 Abstract

本文关注的是点云3D目标检测中鲁棒性的问题。我们关注到2个问题：

对行人等 hard目标的检测精度不高；
增加额外的噪声时，现有方法的性能迅速下降。

本文提出TANet，包含三重注意力（TA）模块和coarse-to-fine（CFR）模块。通过联合考虑channel-wise、point-wise和voxel-wise的注意，TA模块在增强目标的关键信息的同时，也能抑制了不稳定的点云；此外堆积TA模块可以探索多尺度特征注意力。CFR模块可以在不增加额外计算的情况下，提高定位精度。

2 introduction

尽管之前的工作已经取得了很好的结果（PointPillars 、SECOND、voxelnet等），但在行人等hard 目标的性能依然欠缺。如下图所示：PointPillars 漏检了一个行人，还将一个对象的预测为假正例。预测错误的本质原因：1）行人的体积小于汽车，因此LIDAR扫描到的有效点云较少；2）行人频繁出现在大量场景中，背景物体很多（如树、灌木丛、电线杆等），可能与行人很接近，这给准确识别行人带来极大难度。因而，在复杂点云中执行目标检测仍然极具挑战。

本文提出的TANet，如下图所示。在出现严重噪声时，一些信息丰富的点可以提供足够的信息用于后续检测。为了获取有用信息，提出TA模块来增强有用特征点，同时抑制不稳定的点。具体来说，分别学习channel-wise、point-wise，并通过元素乘法结合他们。此外，我们还考虑了voxel-wise的注意力，它代表了voxel的全局注意力。

在噪声环境下，仅应用单个回归器模块（如一阶 RPN）做定位3D 边界框效果不尽如人意。因此提出一种端到端、可训练的 coarse-to-fine regression (CFR) 模块。其中，coarse按照 voxelnet、PointPillars 对对象进行粗略估计。然后，利用Pyramid Sampling Aggregation (PSA) 融合方法得到跨层特征图。Refinement基于融合后的跨层特征图实现，从而得到更精细的结果。

TA 模块和 CFR 模块对于3D检测器的鲁棒性很关键，而 3D 检测器的鲁棒性对自动驾驶真实场景非常重要。由于 KITTI 数据集中并非所有数据都受噪声所扰，因此在实验评估过程中，通过在每个目标周围添加随机噪声点来模拟噪声环境。

TANet贡献如下：

1. 提出TA模块，该模块联合考虑channel-wise、point-wise和voxel-wise注意力，并执行堆叠操作获得多级特征注意力，进而得到对象的判别表示；

2. 提出CFR模块，基于粗糙回归结果，在利用有用信息的融合跨层特征图上执行refinement；

3. 在噪声环境中取得了不错的实验结果，在 KITTI数据集上性能达到SOTA 。