导读:本文概述性地总结了一些当前最佳的目标检测相关的研究。主要内容包括目标检测任务常用的数据格式,目标检测与2D目标检测相关的技术以及概括性的讨论3D目标检测这一主题。目标检测一直是计算机视觉领域中一大难题。近日,来自阿尔伯塔大学的研究者对目标检测领域的近期发展进行了综述,涵盖常见数据格式和数据集、2D 目标检测方法和 3D 目标检测方法。
图 2:使用 2D 图像的目标检测示例近期一项研究 [30] 使用了 RGB-D 传感器,但只使用了灰度信息来识别无纹理的目标。它首先将传感器获得的 RGB 图像转换成灰度图像,然后再分割背景和前景。在移除噪声后,再使用 5 个分类模型执行特征提取,最终预测出目标的类别。4.2 使用点云的目标检测仅使用点云数据的分类网络主要有两种。第一种是直接使用三维点云数据。这类方法没有信息丢失的问题,但是由于 3D 数据非常复杂,所以往往计算成本较高。第二种方法则是将点云处理成二维数据,这可以降低计算量,但不可避免地会丢失原始数据的一些特征。图 3 给出了一个使用 3D 激光雷达点云数据执行检测的例子。
图 3:通过 YOLO 使用 3D 点云的目标检测示例将点云处理成二维数据的方法有很多。Jansen [31] 提出从多个 2D 角度表示 3D 点云。在其数据预处理阶段,通过取点云图像的中心作为原点,并通过旋转固定的弧度角来截取 64 张不同角度的点云图像。这种方法能在一定程度上减少信息损失,因为其中加入了额外的旋转,并在分类阶段使用了许多实例。[32] 等研究则是将点云投射到一个圆柱面上,以尽可能多地保留信息。BirdNet+ [33] 是基于目标检测框架 BirdNet [34] 的改进版。BirdNet+ 为基于激光雷达数据的 3D 目标检测提供了一种端到端的解决方案。它用到了鸟瞰视角表征,这是从激光雷达点云转换而来的带有三个通道的 2D 结构,依赖于一个两阶段架构来获取面向 3D 的边界框。近期,[35] 提出了一种计算高效的端到端式鲁棒型点云对齐和目标识别方法,该方法使用了无监督深度学习,并被命名为深度点云映射网络(DPC-MN)。该模型的训练无需标签,而且能高效地实现从 3D 点云表征到 2D 视角的映射函数。4.3 结合 RGB 图像与点云的目标检测Frustum PointNets [36] 同时使用 RGB 图像和激光雷达点云数据来执行 3D 目标检测。该算法使用成熟的 2D 目标检测器来缩小搜索空间。它是通过从图像检测器得到的 2D 边界框来提取 3D 边界视锥,然后再在经过 3D 视锥修整过的 3D 空间中执行 3D 目标实例分割。MV3D [37] 也同时使用 RGB 图像和激光雷达点云数据作为输入,它是将 3D 点云投影成鸟瞰图和正视图。鸟瞰图表征是通过高度、强度和密度编码的,而正视图则是将点云投影到一个圆柱面上生成的。鸟瞰图可用于生成 3D 先验边界框,然后将该 3D 先验边界框投影到前视图和图像上,这三个输入生成一个特征图。该方法采用 ROI 池化来将三个特征图整合到同一个维度。整合后的数据再在网络上进行融合,然后输出分类结果和边界框。