TUM大牛组最新工作:不需要3D包围盒,单目实现3D车辆检测!

快速获得最新干货

Learning Monocular 3D Vehicle Detection without 3D Bounding Box Labels

Technical University of Munich ,Artisense

来源:GCPR 2020

编译:wyc

1摘要

基于深度学习的三维物体探测器的训练需要三维边界框标签的大数据集,这些数据集必须通过手工标记生成。我们提出了一个学习无三维边界盒标签的单目三维目标检测的网络结构和训练过程。通过将物体表示为三角形网格并采用可微形状绘制,我们定义了基于深度图、分割mask以及由预先训练的现成网络生成的Ego-motion的损失函数。我们在真实世界的KITTI数据集上对所提出的算法进行了评估,并与需要三维边界框标签进行训练的最新方法相比,取得了很好的性能,并且优于传统的基线方法。

2背景及贡献

作者的灵感来自与19年的AAAI谷歌的一篇Depth prediction without the sensors: Leveraging structure for unsupervised learning from monocular videos,由此作者想到了如何通过深度估计的监督实现3D目标检测自监督从而达到舍弃3Dbox的目的。

图1 struct2depth 通过结合单目深度估计和Ego-motion联合估计3D运动物体提高图像重建精度的同时提升深度估计精度
图2 struct2depth 结果

本文提出了一种基于可微形状渲染的单目3D车辆检测器。模型的主要输入是二维分割掩模和深度图,从预先训练的现成网络中获得。因此,我们的方法不需要三维边界框标签来监督。二维地面真实和激光雷达点云只需要训练预先训练的网络。因此,我们克服了手工标记数据集的需要,这些数据集的获取很麻烦,并有助于更广泛的适用于三维目标检测。实验表明,尽管没有使用三维边界盒标签进行训练,但我们的模型仍取得了与最先进的监控单目3D目标检测相当的结果。我们进一步证明,用stereo深度代替输入的单目深度可以产生具有竞争力的立体3D检测性能,这显示了我们的3D检测框架的通用性。

3方法

图3 本文提出了一种无需三维边界盒标签的单目3D车辆检测器。右图显示预测的车辆(彩色形状)符合地面真实边界框(红色)。尽管输入深度(左下角)有噪声,但由于所提出的全微分训练方案,我们的方法能够准确地预测车辆的三维姿态。我们还显示了预测的边界框(彩色框,左上角)的投影。

3.1整体结构

图4 该模型包含单图像网络和多图像网络扩展。单图像网络将从图像中估计的输入深度映射投影到点云中。Frustum PointNet网编码器预测车辆的姿态和形状,然后通过微分渲染将其解码为预测的三维网格和分割掩模。将预测结果与输入分割掩模和反向投影点云进行比较,以定义两个LOSS。多图像网络结构以三个时间上连续的图像作为输入,单个图像网络分别应用于每个图像。我们的网络根据车辆的姿势和形状预测中间帧的深度图。一个预先训练的网络从图像中预测自我运动和物体运动。重建损失的计算是通过微分扭曲图像到中间帧。

3.2形状重表示(Shape Representation)

作者引用了Joint object pose estimation and shape reconstruction in urban street scenes using 3d shape priors中对于物体shape的描述方法。平均顶点位置用,个顶点位移矩阵用表示,将形状系数记为,将规范坐标系中的变形顶点位置记为。变形的顶点位置是线性组合:

3.3单张图像网路(Single-Image Network)

输入的深度图被反向投影到一个点云中,该点云将架构与深度源解耦,如[33]所示。用对象分割蒙版过滤点云以获得对象点云。对于单眼图像的深度图,对象点云通常在遮挡边界处具有离群值,这些离群值基于其深度值被滤除。

然后,Frustum PointNet编码器[26]预测车辆的位置,方向和形状。将形状系数z应用到规范的对象附加坐标系中,基于方程式1根据我们建议的形状流形获得变形网格。变形网格绕y轴旋转ry并通过x平移 以获得参考坐标系中的网格。

分别渲染参考坐标系中的变形网格,以获得预测分割Mask 和预测深度图。合并了车辆的预测姿势和形状的渲染深度图仅在多图像网络中使用。对于输入分割蒙版定义的不属于车辆的图像区域,将输入深度图用作背景深度,否则从变形的网格渲染深度。为了渲染预测的深度图和分割掩膜,中提出的可微分渲染器的最新实现。

3.4Pose的影响

图5 MonoGRNet[27](第一行)、Mono3D[5](第二行)和我们的方法(第三行)与BTS[20]的深度图进行了定性比较。我们显示汽车的地面真实边界框(红色)、预测边界框(绿色)和后投影点云。与Mono3D相比,该方法的预测精度提高了,特别是对于更远的车辆。在定量评估中(参见表1),MonoGRNet和我们的模型的性能是可比较的。

3.5Loss Functions

为了训练没有三维边界框标签,我们使用三个损失,分割损失,切角距离和光度重建损失。前两个是为单个图像定义的,光度重建损失依赖于三个连续帧的时间照片一致性。总损失是每帧的单个图像损失与重建损失的加权:

其中:

Segmentation Loss

Chamfer Distance

3.4Multi-Image Reconstruction Loss

多图像网络的灵感来自于最近成功的单目图像的自监督深度预测,它依赖于将时间上连续的图像差分地扭曲到一个公共帧来定义重建损失。将单图像网络应用于同一车辆的三个连续图像,并在中间帧定义重建损失。重建损失的公式Depth prediction without the sensors所示,我们使用其预先训练的网络来估计翘曲所需的自我运动和物体运动。

实验

1.不同深度的without 3D Bbox 的3D目标检测精度

表1 不同深度来源对比研究。当使用有监督的图像代替无监督的图像到深度方法时,以及当使用立体图像代替单目图像时,该模型的平均精度提高了。我们更通用的方法在没有3D边界框标签的训练方法中表现最好,但是与使用部分3D边界框信息进行训练的立体RCNN相比,性能更差。我们的方法明显改进了常见的基线3DOP和最近的DirectShape和TLNet。立体RCNN不直接监控3D位置,而是直接监控3D边界框尺寸。此外,他们从地面真实三维边界框标签计算视点和透视关键点,并将其用于监督,因此在训练期间需要三维边界框标签。用估计的三维尺寸、视点和透视关键点替换3D-bbox标签是他们工作的一个重要扩展。
表2 使用BTS的深度图进行烧蚀研究[20]。在不使用posecd的情况下使用倒角距离会大大降低精度。学习没有三维边界框标签的姿势和形状是一个欠约束问题,性能下降(参见最后一行)。在没有多幅图像训练的情况下,BEV的性能基本相同,但在3D方面的性能有所下降。
(0)

相关推荐

  • ECCV | Pixel2Mesh:单目彩色相机重建三维模型

    重磅干货,第一时间送达 该paper是由普林斯顿大学3个英特尔实验室4个复旦大学数据科学学院以及5个腾讯人工智能实验室研究员合作的.来自于复旦大学计算机科学学院上海市智能信息处理重点实验室.该论文已经 ...

  • 3D深度学习简介

    重磅干货,第一时间送达 在过去的几年里,像微软Kinect或Asus Xtion传感器这样,既能提供彩色图像又能提供密集深度图像的新型相机系统变得唾手可得.人们对此类系统的期望很高,它们将推动机器人技 ...

  • 多视图立体匹配论文分享:BlendedMVS

    作者:Toddi-Qi 来源:微信公众号|3D视觉工坊(系投稿) 论文题目:BlendedMVS: A Large-scale Dataset for Generalized Multi-view S ...

  • CoCoNets:连续对比的3D场景再现

    点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达 小黑导读 论文是学术研究的精华和未来发展的明灯.小黑决心每天为 ...

  • 最全综述:基于深度学习的三维重建算法

    前言 目前,三维重建技术已在游戏.电影.测绘.定位.导航.自动驾驶.VR/AR.工业制造以及消费品领域等方面得到了广泛的应用.方法同样也层出不穷,我们将这些方法依据原理分为两类: 基于传统多视图几何的 ...

  • PointNet:三维点云分割与分类的深度学习—概述

    本文是关于PointNet点云深度学习的翻译与理解,PointNet是一种直接处理点云的新型神经网络,它很好地体现了输入点云的序列不变性. 摘要 点云是一种重要的几何数据结构类型.由于其数据格式不规则 ...

  • 单视图三维重建

    本文是来自中北大学赵同学的翻译,原论文是 <Learning Shape Priors for Single-View 3D Completion and Reconstruction > ...

  • 目标检测学习笔记

    这篇是看完吴恩达老师的 deeplearning.ai 课程里目标检测课程的学习笔记,文章的图片主要来自课程. 目录如下: 目标定位 基于滑动窗口的目标检测算法 滑动窗口的卷积实现 Bounding ...

  • 使用单一卷积网实时进行端到端3D检测,跟踪和运动预测

    2018 CVPR Wenjie Luo,Bin Yang and Raquel Urtasun Uber Advanced Technologies Group University of Toro ...

  • ECCV 2020 | PHOSA:一种基于单目图像的人-物重建方法

    概述 作者提出了一种能够推断出人类和物体的形状和空间排列的方法,只需要一张在自然环境中捕捉的图像,且不需要任何带有3D监督的数据集.该方法的主要观点是,将人类和物体结合起来考虑,这样会产生" ...

  • 从2D到3D的目标检测综述

    文章:An Overview Of 3D Object Detection 作者:Yilin Wang  Jiayi Ye 翻译:分享者 本文仅做学术分享,如有侵权,请联系删除.欢迎各位加入免费知识星 ...

  • 使用 YOLO 进行目标检测

    重磅干货,第一时间送达 自从世界了解人工智能以来,有一个特别的用例已经被讨论了很多.它们是自动驾驶汽车.我们经常在科幻电影中听到.读到甚至看到这些.有人说,我们将在2010年拥有自动驾驶汽车,有人说到 ...

  • 自动驾驶中激光雷达检测障碍物理论与实践

    激光雷达是利用激光束来感知三维世界,通过测量激光返回所需的时间输出为点云.它集成在自动驾驶.无人机.机器人.卫星.火箭等许多领域. 本文从自动驾驶汽车的角度解释它是如何工作的,然后将探讨如何处理点云, ...

  • 基于深度学习的单目人体姿态估计方法综述(一)

    原文:Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods 摘要: 基于视觉的单目人体姿态估计是计算机视觉中 ...

  • 自动驾驶中的三维目标检测综述

    文章:3D Object Detection for Autonomous Driving: A Survey 作者:Rui Qian, Xin Lai, and Xirong Li 编译:点云PCL ...