基于几何距离分解的单目三维目标检测
点击上方“深度学习爱好者”,选择加"星标"或“置顶”
重磅干货,第一时间送达
小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
单目三维目标检测对自动驾驶具有重要意义,但仍具有挑战性。核心挑战是在没有明确深度信息的情况下预测物体的距离。不同于大多数现有的方法将距离回归为单一变量,作者提出了一种新的基于几何的距离分解,通过其因子恢复距离。将物体的距离分解为最具代表性和最稳定的变量,即物体的物理高度和投影在图像平面上的视觉高度。此外,分解保持了两个高度之间的自一致性,从而在两个高度预测都不准确的情况下实现鲁棒距离预测。分解还使作者能够追踪不同场景下距离不确定性的原因。这种分解使得距离预测具有可解释性、准确性和鲁棒性。作者的方法直接从RGB图像中预测三维边界框,结构紧凑,使训练和推理简单高效。实验结果表明,该方法在单目三维目标检测和KITTI数据集上的鸟瞰图任务中都达到了最先进的性能,并且可以推广到具有不同相机特性的图像。
作者的方法的贡献总结如下:
1. 一种新的基于几何的距离分解方法使距离预测具有可解释性、准确性和鲁棒性。
2. 在分解的基础上,作者的方法最初追踪了距离不确定性的原因。
3.作者的方法直接从RGB图像中预测三维边界框,结构紧凑,使训练和推理简单高效。
4. 作者的方法在单目三维目标检测和KITTI数据集[9]的鸟瞰任务上达到了最先进的(SOTA)性能,并且可以适应不同相机特性的图像。
框架结构
MonoRCNN的主要架构
MonoRCNN是建立在Faster R-CNN[32]之上,并添加了精心设计的3D距离头。3D距离头是基于作者的基于几何的距离分解。具体来说,作者的方法回归H, hrec = h1和它们的不确定性,然后恢复距离Z = fHhrec。蓝色箭头表示训练和推理过程中网络中的操作,橙色箭头表示推理过程中恢复三维边界框的操作。
实验结果
KITTI例子
作者在KITTI测试集[9](前两行)和验证拆分[5](第三行)上可视化MonoRCNN的定性示例。鸟瞰图结果中的黄/绿框分别表示预测和地面情况,红/蓝线表示汽车的偏航角。相邻两个白圆的半径差为5米。
nuScenes交叉测试的例子
作者在nuScenes[3]交叉测试集上可视化MonoRCNN的定性例子。鸟瞰结果如上图所示。作者的模型只使用KITTI val分裂的[5]进行训练,可以推广到具有不同相机固有特性的nuScenes[3]交叉测试集中的图像。
在KITTI基准[9]上进行比较
输入是指训练和推理过程中使用的输入数据。推断时间是根据官方排行榜报告的,与硬件略有差异。红色/蓝色表示最佳/秒。
结论
提出了一种新的基于几何的距离分解方法,将物体的距离分解为最具代表性和最稳定的变量,即物理高度和投影视觉高度,并利用它们恢复距离。这种分解使得距离预测具有可解释性、准确性和鲁棒性。该方法直接从RGB图像中预测三维边界框,结构紧凑,简单高效。实验结果表明,该方法在单目三维目标检测和KITTI数据集上的鸟瞰任务中都达到了SOTA性能,并且可以推广到具有不同相机特性的图像。
论文链接:https://arxiv.org/pdf/2104.03775.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。