在复杂场景下基于VIO辅助的运动恢复结构方案
文章:VIO-Aided Structure from Motion Under Challenging Environments
作者:Zijie Jiang∗ , Hajime Taira∗ , Naoyuki Miyashita† , Masatoshi Okutomi∗
翻译:点云PCL
来源:arxiv 2021
https://arxiv.org/pdf/2101.09657.pdf
欢迎各位加入免费知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。未经博主同意请勿擅自转载。
论文阅读模块将分享点云处理,SLAM,三维视觉,高精地图相关的文章。公众号致力于理解三维视觉领域相关内容的干货分享,欢迎各位加入我,我们一起每天一篇文章阅读,开启分享之旅,有兴趣的可联系微信dianyunpcl@163.com。
摘要
在这篇论文中,作者提出了在具有挑战的复杂场景下进行三维重建的一个稳健而有效的运动恢复结构方案,辅助的视觉惯导里程计可获取相机的位姿信息。具体来说,我们提出了一种几何验证方法,通过考虑候选图像对的先验几何结构来滤除不匹配。此外,我们还介绍了一种高效且可扩展的重建方法,该方法依赖于成批的图像配准和鲁棒的捆集调整,两者都利用依赖VIO可靠的局部里程估计信息。大量的实验结果表明,我们的方案在重建精度和鲁棒性方面优于最新的SfM方法。
介绍
在机器人导航、工业检测等领域,需要精确的三维重建。运动恢复结构(SfM)是实现这一目标的常用技术,其目的是从目标场景的图像集合中恢复三维几何特征和相机姿态[1],[2]。给定良好条件的的图像数据集,SfM可以通过使用丰富的局部特征对应[3]、[4]和随后的全捆集调整[5]精确估计相机姿势和结构来实现高精度的3D重建。然而,这些方法容易受到视觉信息退化的影响,例如缺少纹理和重叠视图,因此无法找到良好的初始姿势,导致不完整或损坏的3D结构(参见图1)。
另一方面,由于传感器技术的进步,配备其他内置传感器(如惯性测量单元(IMU))的成像设备变得广泛可用[6],[7]。在机器人感知领域,已经提出了各种视觉惯性里程计(VIO)算法[7]–[10],通过将IMU测量值与图像信息融合,提供精确的局部相机姿态估计。即使图像不能提供关于摄像机运动的信息,VIO仍然可以在短时间内正确估计相机的运动位姿,此时的位姿完全取决于IMU测量值[10]。然而,由于实时的VIO系统很少执行全局捆集调整,估计的摄像机姿态不一定满足整个场景的一致性。因此,由于惯性测量单元(IMU)的噪声,VIO常常会受到严重的干扰,偶尔具有显著的累积里程计误差。此外,由于其用途,VIO只为每一帧生成一个相当小的3D特征点地图,而不是通过SfM获得的全局一致的3D场景的结构。
在本文中,我们的目标是实现一个稳健和准确的三维场景的重建,可以产生一个全局一致的三维模型。假设系统能够输入序列图像和IMU测量值,我们提出了一个基于SfM的重建方案,其中包含VIO估计(如图2所示)。利用其鲁棒性和局部一致性,我们的系统首先通过VIO算法估计相机的里程信息,然后将相对的相机位姿集成到SfM流程中的每一步中。这使我们能够稳健地构建三维场景,即使在视觉严重的情况下。此外,我们的分批图像配准方案采用了一种新的全局捆集调整过程,并辅以VIO估计,以较小的计算开销保证了模型的全局一致性。
图1提供了在具有挑战性的场景中通过我们提出的方法获得的3D场景模型的鸟瞰图示例。与现有的基于SfM的重建系统[2]相比,该方法在处理重复的场景性质和与相邻图像连通性差的图像序列的同时,能够产生精确的三维重建。
图1 具有挑战性的室内场景的三维重建结果。灰色的点是重建的三维场景点,红色圆锥代表相对于模型的估计位姿。由于外观相似,COLMAP错误地合并了两个不同的楼层。此外,图像序列在楼梯部分的视觉连通性较弱(特征匹配较少),导致摄像机姿态估计不稳定。另一方面,我们提出的方法提供了一个精确的重建与排列结构的不同楼层。
我们的贡献可以分为三个部分:
(1)提出了一种新的几何验证方法,利用VIO的先验几何结构丢弃错误匹配的图像对。该方案在场景中存在明显重复结构时尤其有效。
(2) 通过使用VIO估计初始化其姿势,将输入中的每个图像帧增量配准到模型中。然后,我们引入了一个新的捆集调整作为代价函数,它在平衡基于视觉和基于VIO的退化的同时,细化了相机的姿态和3D结构。此外,我们通过以批处理方式设计重建流程,有效地管理增量运行全局捆集调整的计算成本,同时保持模型的准确性。
(3) 最后,使用公开可用的图像(和IMU测量)数据集来评估所提出的管道的性能,这些数据集包括各种具有挑战性的情况,例如弱纹理的室内场景、由重复结构控制的工业场景以及较差的光照条件。与基于SfM和VIO的方法相比,该方法能更精确地估计摄像机的姿态,得到全局一致的三维模型。
主要内容
图2 概述了提出的VIO辅助SfM系统。系统采集的序列图像和相关的IMU测量值作为输入。首先通过VIO系统获得每幅图像的初始摄像机姿态,然后将其作为先验信息加入到后续的几何验证和分批增量重建过程中。
图2说明了我们提出的从采集的序列图像和相关IMU测量值进行稀疏3D重建的流程。在下面的内容中,我们将描述基于SfM的重建模块的每个部分,其中包含VIO系统提供的初始相机姿势。首先,我们通过现有的VIO系统获得每幅图像的相机姿态。虽然原始系统在场景中提供了绝对的相机位姿,但是我们提取了相对的相机姿态以供后续处理使用。其次,利用相机姿态作为图像对几何验证的先验信息。第三,我们以逐批递增的方式将图像配准到全局三维模型中,该方式使用图像子集的局部几何体迭代地扩展模型。在每个批处理过程的最后,通过同时考虑VIO里程计对获得的场景结构和配准的相机姿态进行联合优化,以实现局部和全局的一致性。重复批处理过程,直到所有图像都已配准。
A ,VIO辅助的几何验证
SfM重建三维结构的精度在很大程度上取决于检测到的图像间的对应关系。在从局部特征匹配中获得初始匹配之后,SfM系统通常引入一种离群点抑制方案,例如RANSAC,它适合于从随机采样匹配计算的图像点之间的转换模型。然而,如图3(a)所示,当主要匹配支持错误的模型时,仍然可以估计错误的变换。这通常发生在纹理较弱的室内场景中,也包括不同位置的视觉相似对象,例如走廊、标准化门和家具。错误匹配的图像在实际较远的地方之间提供了错误的连接,并可能导致三维模型的重叠。
具有挑战性场景下几何验证的可视化。在左栏中,我们展示了一个错误匹配的图像对样本,它看起来非常相似,但来自不同的地方(在不同的楼层拍摄)。为便于比较,右栏显示了在同一地点拍摄的图像样本。对于每一对,我们用绿色和红色绘制匹配线,表示通过每个几何验证检测到的内部匹配和异常匹配。我们的VIO辅助几何验证通过其离群值比率(左对和右对分别为0.74和0.06)来评估图像对。
B, 批量增量重建
接下来,我们要将所有图像配准到全局坐标系中,并构建三维场景点云来恢复目标场景。给定通过VIO获得的初始相机姿态,实现此目标场景重建最简单策略是使用VIO的绝对相机姿态一次配准所有图像,并使用特征对应对3D点进行三角化。然而,正如前文所述VIO通常会出现明显的里程漂移,从而导致绝对相机姿势不准确。相反,我们利用图像相对于前一帧的相对相机姿态,并逐步建立模型。我们还引入了以批处理方式进行图像配准的方法,在边缘范围内抑制了额外的计算消耗。
批量图像配准。我们将序列图像按时间顺序分成几个连续的k帧图像。批量大小k控制我们方法的最终精度和计算时间,第一批的初始相机姿势集表示为Pi={p}。在第i次迭代中,我们通过计算刚性变换Ti来配准Pi,从而将这批图像与当前模型对齐。我们直接计算Ti作为Pi中第一个图像到Pi−1中最后一个图像之间的相对相机姿态,这被证明是快速有效的。在每一批图像配准之后,使用验证图像对之间的特征匹配来三角化新的三维场景点。
具有相对姿态约束的捆集调整。在每一批图像配准和三角化之后,我们对相机和场景点进行细化,以保证重建的全局一致性。为此目的,一种通用方案是全局捆集调整,该方案使3D场景点相对于估计的相机位姿及其观测到的特征点的重投影误差最小化。这里提出了一个新的束调整联合目标,它不仅依赖于视觉信息,还依赖于通过VIO获得的相机运动位姿:
实验
数据集。我们从两个公开的数据集中收集了不同环境下的几个具有挑战性的序列;EuRoC数据集包含主要在室内场景中捕获的20Hz图像序列和200Hz的IMU测量序列。它还提供了相机姿态的真值,每一个图像是通过维康和徕卡MS50获得。根据照明和相机运动,每个序列被标记为简单、中等或困难。我们使用七个序列标记为“中等”和“难以评估”,它们捕获图4所示的分离场景;
EuRoC数据集具有挑战性的环境的示例图像
构建了基于COLMAP的重建系统,该系统是在C++中实现的现有SFM工具。
下表为重建轨迹的定量比较。我们的方法产生的误差比其他现有的视觉惯性方法小,这些方法可以局部估计相机的运动,并且在五个序列的所有比较中表现出最好的性能。
重构轨迹的性能。
从EuRoC数据集上恢复的困难序列上的相机轨迹
轨迹RMSE和执行时间表格。COLMAP[2]的轨迹RMSE和执行时间也用虚线表示以供比较
从OIVIO数据集重建两种具有挑战性的环境:隧道和矿山。将我们提出的方法与COLMAP、ORB-SLAM2、OKVIS和VINS-Mono进行了比较的结果。
总结
在本文中,我们提出了一个基于SfM的三维重建方案,有效地利用了VIO中的相机姿态信息。与现有的SLAM视觉惯性重建方法相比,我们的目标是建立一个全局一致的完整的三维模型,包括相机的姿态和三维点云。我们的方法将VIO辅助相机姿态初始化和基于SfM的图像点重建简单地结合起来,在重建模型的精度方面仍然有很大的提高。在公开数据集上的实验表明,该系统能够在图像提供较少视觉特征点的复杂环境中实现精确而稳健的三维重建。此外,我们还证明了分批增量重建过程可以有效地减少重建的计算时间。
资源
三维点云论文及相关应用分享
【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法
3D-MiniNet: 从点云中学习2D表示以实现快速有效的3D LIDAR语义分割(2020)
PCL中outofcore模块---基于核外八叉树的大规模点云的显示
更多文章可查看:点云学习历史文章大汇总
SLAM及AR相关分享