【泡泡图灵智库】基于深度关键点的几何约束摄像机姿态估计


标题:Deep Keypoint-Based Camera Pose Estimation with Geometric Constraints

作者:You-Yi Jau, Rui Zhu, Hao Su, Manmohan Chandraker

来源:IROS 2020

编译:朱虎

审核:Yuri

大家好,今天为大家带来的文章是——Deep Keypoint-Based Camera Pose Estimation with Geometric Constraints

在连续帧中估计摄像机的相对姿态是视觉里程计(VO)和SLAM中的一个基本问题,十多年来,包括手工特征和基于采样的孤立点排除在内的经典方法一直都占主导地位。虽然很多工作都提出使用基于学习的方法来替代这些模块,但是大多数都没有传统方法的鲁棒,准确以及可拓展。在本文中,我们设计了一个端到端的可训练框架,包括检测、特征提取、匹配和孤立点剔除的可学习模块,同时直接对几何姿态目标进行优化。我们在定性和定量上都证明了位姿估计的性能可以达到经典框架的水平,此外,我们能够通过端对端的训练表明,管道的关键组件可以得到显著改善,与现有的基于学习的方法相比,它可以更好地实现在不可见数据集上的泛化。

主要贡献

针对将深度学习网络带入到相机位姿估计的各个模块所带来的挑战:

1. 这些基于学习的方法是为各自的目的而单独开发的,但从未经过端到端的训练和优化,以获得更好的相机姿势。几何约束和最终位姿估计目标没有充分合并到管道中。

2. 基于学习的方法对它们所训练的领域有过度适应的性质。当模型应用于不同的数据集时,与SIFT和RANSAC方法相比,各种数据集的性能通常是不一致的。

3. 第三,我们的评估表明,现有的基于学习的特征检测器,在整个管道的最开始提供服务,明显弱于手工制作的特征检测器(如SIFT检测器)。主要因为获得具有准确关键点和对应关系的训练样本非常困难。

我们提出了一种端到端的训练框架,用于两个连续帧之间的相对摄像机姿态估计。我们的框架集成了学习的模块,用于基于几何的经典框架启发的关键点检测,描述和异常剔除。

1. 我们提出了基于关键点的相机位姿估计框架,与基于学习的基准相比,该框架可进行端对端的训练,具有更好的鲁棒性和通用性。

2. 框架与新型Softargmax桥连接,并通过从对应关系中获得的基于几何的目标进行了优化。

3. 对交叉数据集的设置进行了深入的研究,以评估泛化的能力,这一点很关键,但是在现有工作中没有过多讨论。

算法流程

提出了一种基于特征的位姿估计框架叫做DeepFEPE(Deep learning-based Feature

Extraction and Pose Estimation  ),其使用两帧图像作为输入进行估计相关的相机位姿。该框架由两个基于学习的模块组成,分别包括特征提取和位姿估计。如下图

图1.系统总框架

1. 模型

我们并非简单的对模块进行串联,而是对DeepFEPE端到端的训练进行了仔细的设计,包括Softargmax检测头和几何嵌入损失函数。Softargmax检测器头为特征检测提供了亚像素精度,并且使从姿势估计得到的梯度能够流回到点坐标。对于损失函数,我们不仅对基本矩阵进行回归,而且通过在估计的旋转和平移上实施几何启发的L2损失来直接约束分解后的姿势,这将导致更好的预测和泛化能力,会在第四部分讲解。在图2中也提供了DeepFEPE和网络结构更多的详细信息。

图2.特征提取(FE)和姿态估计(PE)模块的网络结构

2. 特征提取

在框架中使用SuperPoint的特征提取方法,该方法经过自监督训练,在HPatches数据集上表现出了单应性估计的最高性能。与传统的SIFT类似,该方法也包括提取器和描述子两部分。该方法由一个全连接卷积网络组成,具有共享的编码器和两个解码器分别作为检测器和描述符,如图2所示。

a). Softargmax探测头:为了克服端到端训练的挑战,我们提出采用2D Softargmax的探测器头。在原始的Superpoint中,非最大抑制(NMS)应用于关键点解码器的输出以获得稀疏关键点。但是,NMS的直接输出仅具有像素精度,并且不可微分。受[4]的启发,我们在NMS之后从每个关键点的邻居提取的5×5补丁上应用Softargmax。每个关键点的最终坐标可以表示为

其中的2D patch有

b). 描述子稀疏损失:为了预训练一个有效的特征提取器,我们使用稀疏描述子稀疏损失而不是稠密损失。

c). 特征提取器的输出:我们从稀疏关键点及其描述符中得到姿态估计的对应关系。为了得到关键点,我们应用非最大抑制(NMS)和热图上的阈值来过滤剔除冗余候选。

3. 位姿估计

姿势估计将对应作为输入来求解基本矩阵。为了创建用于替换RANSAC的可区分框架,以根据嘈杂的对应关系进行姿态估计,我们基于“深度基础矩阵估计”(DeepF),提出了基于几何的损失来训练DeepFEPE。

主要结果

表1. 用于实验训练的模数和损耗参考表

图3. 位姿估计结果比较

表2. 基于Kitti数据集的基于学习的Kitti模型位姿估计的比较

表3. 基于SIFT的Kitti模型在Kitti数据集上的位姿估计比较

表4. 基于Apollo数据集的基于学习的Kitti模型位姿估计的比较

表5. 基于SIFT的KITTI模型在Apollo数据集上的位姿估计比较

图4. 位姿估计失败的案例

图5. 端到端训练后关键点分布的变化

Abstract 

Estimating relative camera poses from consecutive frames is a fundamental problem in visual odometry (VO) and simultaneous localization and mapping (SLAM), where classic methods consisting of hand-crafted features and samplingbased outlier rejection have been a dominant choice for over a decade. Although multiple works propose to replace these modules with learning-based counterparts, most have not yet been as accurate, robust and generalizable as conventional methods.In this paper, we design an end-to-end trainable framework consisting of learnable modules for detection, feature extraction,matching and outlier rejection, while directly optimizing for the geometric pose objective. We show both quantitatively and qualitatively that pose estimation performance may be achieved on par with the classic pipeline. Moreover, we are able to show by end-to-end training, the key components of the pipeline could be significantly improved, which leads to better generalizability to unseen datasets compared to existing learning-based methods.

(0)

相关推荐