基于简化点云地图的语义边缘对齐的单目定位方法 / 四六文摘

标题：Compact 3D Map-Based Monocular Localization Using Semantic Edge Alignment

作者：Kejie Qiu, Shenzhou Chen, Jiahui Zhang, Rui Huang, Le Cui, Siyu Zhu, and Ping Tan

排版：点云PCL

来源: arxiv 2021

本文仅做学术分享，如有侵权，请联系删除。欢迎各位加入免费知识星球，获取PDF论文，欢迎转发朋友圈。内容如有错误欢迎评论留言，未经允许请勿转载！

公众号致力于分享点云处理，SLAM，三维视觉，高精地图相关的文章与技术，欢迎各位加入我们，一起每交流一起进步,有兴趣的可联系微信：920177957。本文来自点云PCL博主的分享，未经作者允许请勿转载，欢迎各位同学积极分享和交流。

摘要

精确的定位是导航、机器人、自动驾驶和增强现实（AR）等各种应用的基础。与增量式定位不同的是，全局定位不存在由误差积累引起的漂移，这在许多应用场景中都是需要的。除了在户外使用GPS外，3D地图也被广泛用作全局定位的替代方案。本文提出了一种基于低成本单目相机和惯性测量单元（IMU）的简化型三维地图全局定位系统。该地图由两类简化元素和多个语义标签组成，能很好地适应城市等各种环境。同时，利用语义边缘特征进行关键图像的地图配准，对环境中的遮挡和长期外观变化具有很强的鲁棒性。为了进一步提高定位性能，将关键语义边缘对齐问题描述为一个基于独立VIO（VisualInertial Odometry）模块预测初始姿态的优化问题。定位系统采用模块化设计，实时实现。通过实际实验结果与地面真实情况进行比较，评估了定位精度，并验证了长期定位性能。

介绍

视觉定位是对给定图像的位置和方向（即摄像机姿态）进行估计的问题。这个问题在自主导航中起着关键作用，例如，对于自动驾驶汽车[9]和同时定位和地图（SLAM）[30]。在许多三维计算机视觉算法中也会遇到这种情况，如运动结构（SfM）[36]、摄像机标定[9]和增强现实[25]、[29]

用于视觉定位的最新方法是基于结构的，即它们显式或隐式地使用三维模型来表示场景。显式方法通常采用通过SfM[20]、[25]、[33]、[40]、[46]构造的稀疏3D点云，允许它们将每个3D点与一个或多个局部图像描述子相关联。对于给定的图像，通过比较从图像中提取的局部特征的描述子和三维点描述子，建立一组二维-三维的对应关系。使用这些匹配，然后他们通过循环RANSAC[8]中应用n点姿势解算器[10]、[18]、[19]来估计相机姿势。相反，隐式方法[4]、[7]、[28]、[39]放弃了显式描述子匹配。相反，他们通过学习从图像块到三维场景点坐标的映射，直接学习2D-3D匹配函数。再次，将得到的2D-3D对应用于基于RANSAC的姿态估计。与显式方法相比，隐式方法可以获得更高的姿态精度[4]，[7]。然而，它们目前还不能扩展到更大的户外场景[4]，[37]。

大多数明确的基于结构的定位方法都集中在单目（单幅图像）情况下，例如智能手机和平板电脑上的增强现实[3]、[17]、[25]，通过制定有效匹配[21]、[33]或缩放到更大或更复杂场景的策略[22]、[35]、[40]、[46]。然而，许多机器人应用，特别是自动驾驶汽车[9]，[38]，受益于使用多摄像机系统，覆盖整个360°视野（FoV）的机器人周围。研究还表明，覆盖更大视场的摄像机可以更精确地定位[2]，并且多摄像机系统可以显著提高具有挑战性条件下的定位性能[34]。

文章贡献

现有的多摄像机定位研究主要集中在立体SLAM[13]、[23]、[31]、摄像机标定[12]、[13]和摄像机姿态估计[6]、[19]、[41]、[43]。后两种方法将多摄像机系统建模为广义摄像机[32]，即具有多个投影中心的摄像机，以导出（最小）姿态估计解算器。然而，多摄像机定位的一个核心方面很少受到关注：使用多个图像会导致在特征匹配过程中需要考虑更多的特征，从而显著延长运行时间。

本文旨在通过研究多摄像机系统中高效的2D-3D匹配来填补这一空白。为此，我们做出了以下主要贡献：

1）提出了一种多摄像机系统的优先描述符匹配方案。我们的策略基于主动搜索[33]，这是一种针对单目相机开发的高效优先级方案。我们证明了主动搜索的一种快速变体，它导致了单个图像的不稳定姿态估计，非常适合于多摄像机系统。

2）我们将优先匹配与摄像机姿态估计相结合。与标准方案不同，标准方案在找到固定数量的匹配后终止搜索，我们的方法在找到足够多的几何一致匹配后立即终止。

3）受几何异常值滤波方法的启发[40]，[46]，我们开发了一个有效的几何验证步骤，可用于整合潜在的姿态先验。这使得我们可以避免比较描述几何上不可信的匹配，这可以使我们的搜索更加有效和健壮。后两种贡献不仅限于多摄像机情况，而且也适用于单目场景。

4）我们展示了如何将我们的方法与VIO方法相结合，使我们的系统能够在汽车上实时提供准确、无漂移的姿态估计

在城市环境中使用建议的精简地图格式进行地图压缩。使用两种类型的线段（线段和线框）保留关键地标的同时，显著减小了地图的大小。每种类型都可以标记为多个语义类别。

主要内容

提出的模块化定位系统包括语义分割模块、VIO模块、地标选择模块、特征提取模块和语义边缘对齐模块。本文将重点介绍最后三个模块。为了系统的完整性，还简要介绍了简化地图的生成过程。以城市环境定位为例，定位流程如图2所示。定位系统由全球定位系统（GPS）或其他视觉重定位方法等全局参考进行初始化。语义分割模块首先对采集到的图像进行语义标注，在不丧失通用性的前提下，将图像分割为两类语义区域（道路和非道路）。根据分割结果，在对图像进行进一步处理之前，先对图像中潜在的动态区域进行掩蔽，然后利用边缘检测算法从捕获的图像中提取语义边缘特征，并将分割出的语义边缘图像转化为相应的距离变换进行稠密处理边缘对齐。同时，根据最后一个摄像机姿态和VIO模块的里程计输入预测当前摄像机姿态。根据预测的摄像机姿态，从预先构建的简化地图中选择相应的地标进行特征对齐。最后，在一个优化框架内导出了全局的相机姿态。

提出了基于地图的定位系统的总体方案。整个定位系统由虚线框中显示的全局引用初始化，所有实线框表示实时运行的模块。在特征提取模块中，根据分割结果从输入图像中提取语义边缘特征，生成以距离变换表示的语义能量图（黑：低能；白：高能）。在地标选择模块中，根据独立的VIO模块提供的先验摄像机姿态选择用于特征对齐的地标。在边缘对齐模块中，对优化前后的标志点（色点）进行了重投影。

地图定义和生成

我们定义了两种类型的地标，即线段和线框，每种类型都可以附加多个语义标签。语义线段由一个语义标签和两个三维点表示，语义线框由一个语义标签和两个以上的三维点表示（矩形线框为四点）：

在地图生成方面，可以从标准地图格式转换成简化的地标地图，也可以从使用各种传感器的多种地图算法的结果生成简化的地标。例如，如图3（a）所示，基于由稠密视觉映射构造的HD地图，可以使用分割算法在逆透视映射（IPM）图像中有效地标记检测到的道路。首先利用专用神经网络在图像中检测出非道路元素，然后利用映射结果得到的相应深度信息投影到全局坐标上，如图3（b）所示。在实际应用中，这两种检测结果都可以通过人工标注的方式进行细化，提高精度，并且不保留被植被遮挡的地标。图4显示就是显示的城市环境的简化地图。

图3 在IPM（bird's eye view）图像中检测路标，而在普通图像视图中检测非路标。

图4 城市环境的简化的地标地图

实验

采集设备

用于实验的生成简化地图是由安装在数据采集车上的高端设备（包括五个工业摄像机、一个高精度捷联惯导系统和一个车轮里程计）构建的密集点云地图生成的。另一方面，用于定位的传感器组包括MYNT眼睛照相机的左单目相机，其以20hz捕获640×400个图像，并且内部IMU以200Hz运行，下图所示

对摄像机的内参数和摄像机与IMU之间的外参数进行了预先标定。定位系统采用基于超点[10]的视觉重定位方法进行初始化。VINS Mono[23]用于单目VIO实现。使用DeepLabv3+[5]和exception[24]模型对城市环境进行语义分割，得到道路和非道路区域进行进一步的特征提取。整个定位系统在配备i7-8700kcpu和GeForce gtx1080ti的台式机上实时运行，详细的定时统计如表一所示。

定位评估

为了更好的呈现边缘地标对齐结果，我们将地标重新投影到合成距离变换上，该距离变换将所有语义层结合起来进行可视化。通常情况下，优化后的重投影标志（色点）位于低能量区域（距离变换的黑色区域）。也就是说，通过重投影图像可以直观地判断定位结果。

收集了三次总长620m的试验数据，并与地面实况进行了比较。用于定位的简化地图统计如表二所示， trial 1的地图具有相对较大的地标密度。重要的是，使用简化的地图表示法，地图尺寸显著减小（压缩因子=原始地图尺寸=紧凑地图尺寸），这有利于机载系统和大规模部署。

用RMSE计算的详细数值结果如表3所示。由于使用了语义边缘代替了语义对象，该方法的位置精度在0:29m以内，旋转精度在0.52度以内◦, 满足了自动驾驶对车道水平精度的要求。此外，如表4所示，我们将该算法与其他基于地图的算法进行了比较，结果表明该算法在相关工作中达到了最佳的性能水平。

总结

本文提出了一种基于自定义三维简化地图的单目视觉惯性测量全局定位系统。地图由两种类型的地标组成：线段和线框，每种类型都有多个语义标签。以城市环境为例，说明了方法论和评价方法。此外，由于定义的地图格式的通用性，它可以很容易地适应室内环境或任何人造环境使用特定的语义标签。此外，用于特征对齐的语义边缘特征对透视和光照变化具有很强的鲁棒性，在复杂外观变化的情况下能够实现长期定位。

更多详细内容和加入知识星球获取原文

资源

三维点云论文及相关应用分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

3D目标检测：MV3D-Net

三维点云分割综述（上）

3D-MiniNet: 从点云中学习2D表示以实现快速有效的3D LIDAR语义分割（2020）

win下使用QT添加VTK插件实现点云可视化GUI

JSNet：3D点云的联合实例和语义分割

大场景三维点云的语义分割综述

PCL中outofcore模块---基于核外八叉树的大规模点云的显示

基于局部凹凸性进行目标分割