CVPR2020 | 基于点的3D单阶段对象检测器3DSSD
论文原文:3DSSD: Point-based 3D Single Stage Object Detector
论文地址:https://www.aminer.cn/pub/5e54f1813a55acae32a25f25
作者:Zetong Yang,Yanan Sun,Shu Liu,Jiaya Jia
发表会议:CVPR 2020
基于体素的 3D 单阶段检测器的普及率与未开发的基于点的方法形成对比。在本文中,作者提出了一种轻量级的基于点的 3D 阶段目标检测器 3DSSD,以实现准确性和效率的良好平衡。在这种范例中,所有现有的基于点的方法中必不可少的上采样层和优化阶段都将被放弃。相反,在下采样过程中提出一种融合采样策略,以使在代表性较小的点上进行检测变得可行。本文为了满足高精度和高速度的要求,开发了一种精细的框预测网络,其中包括候选生成层和具有 3D 中心度分配策略的无锚回归头。3DSSD 范例是一种优雅的单阶段免锚模式,在广泛使用的 KITTI 数据集和更具挑战性的 nuScenes 数据集上对其进行评估,本文的方法大大优于所有基于体素的单阶段方法,甚至可以产生与两阶段基于点的方法相当的性能,推理速度高达 25+ FPS,比以前的最先进的基于点的方法快 2 倍。
为了更好地探索在 SA 之后被保留下来的有代表性的点,本文提出了一个边框预测网络,包括一个候选生成层(CG)、一个无锚回归头和一个 3D 中心分配策略。在 CG 中,首先用 F-FPS 中有代表性的点生成候选点,这一过程收到这些点以及共现例子中的中心点的相对位置的约束。接下来将这些候选点作为中心,从 F-FPS 和 D-FPS 有代表性的点中选取其周围的点,将其特征通过多层感知网络(MLP),这些特征最终被输入到无锚回归头中来预测 3D 边框。本文还设计了一个 3D 中心分配策略,给候选点中更靠近样本中心的点更高的得分。
本文的主要贡献如下:
1. 提出了一个轻量而高效的基于点的单阶段 3D 目标检测器 3DSSD,抛弃了需要大量计算的 FP,这与已有的基于点的方法都不同。
2. 提出了一个混合的采样策略,可以保留先前仅有少数内部点的样本。
融合采样
3D 目标检测有基于点和基于体素两种框架,前者更加耗时,由候选生成与预测细化两个阶段组成。
在第一个阶段,SA 用于降采样以获得更高的效率以及扩大感受野,FP 用来为降采样过程中丢掉的点传播特征。在第二阶段,一个优化模块最优化 RPN 的结果以获得更准确的预测。SA 对于提取点的特征是必需的。但 FP 和优化模块会限制效率。
边框预测网络
已有的工作是在得到每个点的特征后接三层 SA 分别用于中心点选择、周围点特征的提取以及生成语义信息。本文为进一步降低计算成本,候选中心点的生成是直接在 F-FPS 采样后进行的。F-FPS 采样的点由于比 D-FPS 的点更加可能是前景点,所以候选点仅仅只是在 F-FPS 的点上生成。接着作者将这些候选中心点当作候选生成层的中心点。最后根据候选中心点领域选择从 F-FPS 和 D-FPS 中采样得到的代表点进行局部特征提取,采用 MLP 进行特征提取。
1. 确定该点是否在一个目标中;
2. 计算该点到这个目标六面体上下左右表面的距离,再通过以下公式得到 l_ctrness:
全部损失函数分为分类损失、回归损失和偏移损失(这个是指从采样代表点到候选点得到时的损失函数)。
本文实验使用了 mix-up、随机旋转平移、x 轴尺度变化、z 轴旋转四种数据增强方法。在 KITTI 和 nuScenes 两个数据集上进行了实验。
值得注意的是,本文的方法甚至可以与基于体素的单阶段方法保持相似的 inference 速度。在所有现有方法中,本文的方法仅比 PointPillars 慢,而 PointPillars 已通过多种实现优化策略(例如 TensorRT)进行了增强,但是在本文的实现中尚未使用。本文的方法仍有很大的潜力可以进一步加速。