【泡泡一分钟】A*3D 数据集:面向自动驾驶环境中的挑战

每天一分钟,带你读遍机器人顶级会议文章

标题:A*3D Dataset: Towards Autonomous Driving in Challenging Environments

作者:Quang-Hieu Pham, Pierre Sevestre, Ramanpreet Singh Pahwa, Huijing Zhan, Chun Ho Pang,Yuda Chen, Armin Mustafa, Vijay Chandrasekhar, and Jie Lin

来源:2020 IEEE International Conference on Robotics and Automation (ICRA) 

编译:董文正

审核:柴毅,王靖淇

这是泡泡一分钟推送的第 629 篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

随着自动驾驶汽车在全球范围内的日益普及,迫切需要具有挑战性的现实世界数据集,用来基准测试和训练各种不同的计算机视觉任务,例如3D物体检测。现有的数据集要么代表简单的场景,要么仅提供白天的数据。在本文,我们介绍了一种新的具有挑战性的A*3D数据集,它包含RGB图像和LiDAR数据,其中场景、时间和天气的差别很大。数据集包括高密度图像(比开创性的KITTI数据集高10倍)、严重遮挡、大量夜间帧(约是nuScenes数据集的3倍),解决了现有数据集中的空白,从而推动了自动驾驶研究的任务边界,以应对更具挑战性多样化的环境。数据集包括3万9千张关键帧,7类和23万份 3D对象注释。在A*3D数据集上,从各种属性(例如高密度,白天/黑夜)对拓展的3D物体检测进行基准评估,可以有趣地观察到在实际环境中训练和测试3D对象检测的优点和局限性。

图1 来自提出的A * 3D数据集的样本,其中包含RGB图像及其对应的LiDAR数据。晚上和晚上拍摄的两个场景表明环境中的物体密度很高。

图2 覆盖在Google地图上的A * 3D数据集的行驶路线和空间覆盖范围。我们的数据集涵盖了整个新加坡,而nuScenes仅涵盖了新加坡道路的一小部分(以红色突出显示)。

图3 用于A * 3D数据收集车辆平台的传感器设置。A * STAR自动驾驶汽车由旋转的Velodyne LiDAR和位于LiDAR两侧的两个彩色PointGrey Chameleon3摄像机组成。

图4 顶部:比较KITTI数据集(右)和A * 3D数据集(左)每帧的对象数。底部:A * 3D每个类别的注释数量。

图5 每个类别的遮挡水平。0:完全可见;1:遮挡小于50%;2:遮挡大于50%;3:未知。

图6 上:每个类的边界框内的平均点数,作为遮挡的函数。底部:记录边界框中的点数。

图7 从盒子中心到盒子的径向距离,以米为单位

LiDAR传感器。

图8  每个类别的对象方向分布。

图9 箱子尺寸(高度[m],宽度[m],长度[m])汽车类。

图10 PointRCNN在3D汽车检测上的结果(三个难度级别的mAP易/中/硬),在对象密度上具有不同的训练配置:仅对低密度样本进行训练,仅对高密度样本进行训练,以及对高低物体密度混合的样本训练。

表1 A * 3D与现有数据集的比较-第二列表示带注释的LiDAR帧数。每个LiDAR帧对应一个或多个相机图像。第三列是夜间记录的帧的比例,第四列是仅前置摄像头捕获的3D边界框的数量,第五列是正视图中每帧的平均对象数,第六列是每帧注释的帧数 第二列和第七列概述了记录的场景的多样性(空间覆盖率,天气,时间,道路类型,环境等)。nuScenes组织者发布的nuScenes第四行数字以斜体突出显示,平均超过34、149个trainval帧。

表2 PointRCNN [1]在3D汽车检测(mAP)上的结果,在KITTI和A * 3D之间进行交叉训练验证。每个验证集上的最佳结果均以粗体标记。

表3 F-PointNet和AVOD在3D汽车检测(mAP)上的结果,在光照条件下具有不同的火车/验证配置。

Abstract

With the increasing global popularity of self-driving cars, there is an immediate need for challenging real-world datasets for benchmarking and training various computer vision tasks such as 3D object detection. Existing datasets either represent simple scenarios or provide only day-time data. In this paper, we introduce a new challenging A*3D dataset which consists of RGB images and LiDAR data with a significant diversity of scene, time, and weather. The dataset consists of high-density images (≈ 10 times more than the pioneering KITTI dataset), heavy occlusions, a large number of night-time frames (≈ 3 times the nuScenes dataset), addressing the gaps in the existing datasets to push the boundaries of tasks in autonomous driving research to more challenging highly diverse environments. The dataset contains 39K frames, 7 classes, and 230K 3D object annotations. An extensive 3D object detection benchmark evaluation on the A*3D dataset for various attributes such as high density, day-time/night-time, gives interesting insights into the advantages and limitations of training and testing 3D object detection in real-world setting.

(0)

相关推荐