【泡泡图灵智库】NeuralRecon:单目视频的实时Coherent 三维重建
标题:NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video
作者:Jiaming Sun Yiming Xie Linghao Chen Xiaowei Zhou Hujun Bao
机构:Zhejiang University ,SenseTime Research
来源:CVPR 2021
编译:万应才
审核: Yiru
这是泡泡图灵智库推送的第604篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
大家好,今天为大家带来的文章是 Estimating Motion Codes from Demonstration End-to-End Video Instance Segmentation with TransformersVideos。
本文提出了一种新的基于单目视频的实时三维场景重建框架NeuralRecon。与以往在每个关键帧上分别估计单视点深度图并进行融合的方法不同,本文提出了用神经网络直接为每个视频片段重建局部表面,表示为稀疏的TSDF体。基于学习的TSDF融合模块基于选通递归单元,用于指导网络融合先前片段的特征。这种设计使得网络能够在连续重构三维曲面时,获得曲面的局部光滑性先验和全局形状先验,从而实现精确、一致、实时的曲面重构。在ScanNet和7场景数据集上的实验表明,我们的系统在精度和速度上都优于现有的方法。据我们所知,这是第一个基于学习的系统,能够实时重建密集的Coherent三维几何体。
Code : https://zju3dv.github.io/neuralrecon/
图1 VisTR 整体框架.该模型以一系列图像作为输入,输出一系列实例预测。在这里,相同的形状表示一个图像中的预测,相同的颜色表示同一对象实例的预测。请注意,总体预测遵循输入帧顺序,不同图像的对象预测顺序保持相同(最好在屏幕上查看)
主要工作与贡献
本文介绍了一种新的单目视频实时三维重建系统NeuralRecon。其核心思想是利用三维稀疏卷积和GRU算法,对每个视频片段的稀疏TSDF体进行增量联合重构和融合。这种设计使NeuralRecon能够实时输出精确的相干重建。实验表明,NeuralRecon在重建质量和运行速度上都优于现有的方法。利用NeuralRecon重建的稀疏TSDF体可以直接用于三维目标检测、三维语义分割和神经渲染等下游任务。我们相信,通过与下游任务端到端的联合训练,NeuralRecon为基于学习的多视角感知和识别系统提供了新的可能性。
算法流程
1.整体框架
本文提出了一种新的单目实时经济结构的新框架NeuralReco,该框架将三维几何体直接重建和融合到体积TSDF表示中。给定由SLAM系统估计的一系列单目图像及其相应的相机姿态,NeuralRecon在独立于视图的三维体中增量重建局部几何体,而不是依赖于视图的深度图。具体地说,它取消图像特征以形成三维特征体积,然后使用稀疏卷积处理特征体积以输出稀疏TSDF体积。通过从粗到精的设计,预测的TSDF在每个层次上逐渐细化。通过直接重建隐式曲面(TSDF),网络能够在自然三维曲面之前学习局部平滑度和全局形状。
与基于深度的方法分别预测每个关键帧的深度图不同,在NeuralRecon中联合预测局部碎片窗口内的表面几何,从而产生局部Coherent几何估计。
图2NeuralRecon architecture..NeuralRecon采用三级从粗到精的方法预测TSDF,该方法逐渐增加稀疏体素的密度。首先将局部片段中的关键帧图像通过图像主干提取多级特征。这些图像特征随后沿每条光线反向投影,并聚合成三维特征体积Flt,其中l表示水平索引。在第一层(l=1),预测了一个稠密的TSDF体积S 1t。在第二级和第三级,最后一级的上采样S l−1t与Flt相连,并用作GRU Fusion和MLP模块的输入。在世界框架中定义的特征体积作为GRU的全局隐藏状态在每个级别上进行维护。在最后一级,输出Slt用于替换全局TSDF体积sgt中的相应体素,从而在时间t产生最终重建。
2.方法
给定SLAM系统提供的单目图像序列{It}和相机姿态轨迹{It}∈SE(3),目标是实时准确地重建稠密的三维场景几何。我们将要重建的全局TSDF体积表示为S(g/t),其中t表示当前时间步长。
图3 2D玩具的例子来说明unprojection,GRU fusion and sparse TSDF representation.
2.1关键帧选择
为了提供足够的运动视差,同时保持多视点共视重建,所选关键帧之间既不能太近也不能太远。在之后,如果一个新的传入帧的相对平移大于t[max]并且相对旋转角度大于R[max],则选择该帧作为关键帧。具有N个关键帧的窗口被定义为一个局部片段。选择关键帧后,在每个视图中使用固定的最大深度范围dmax计算包围所有关键帧视锥的立方体碎片边界体积(FBV)。在重建每个片段时,只考虑FBV内的区域。
2.2拼接片端重建与融合
我们建议同时重建局部片段S[l\t]的TSDF体积,并使用基于学习的方法将其与全局TSDF体积sgt融合。关节重建和融合是在局部坐标系下进行的。补充材料图1中说明了局部坐标系和全局坐标系的定义以及FBV的构造。
Image Feature Volume Construction.
根据每个体素的可见度权重对不同视图的特征进行平均,得到图像特征体积Flt。可见性权重定义为在局部片段中可以观察到体素的视图数。
Coarse-to-fine TSDF Reconstruction
我们采用从粗到精的方法,逐步细化每个级别的预测TSDF体积。我们使用三维稀疏卷积来有效地处理特征体F(lt)。稀疏体积表示也自然地与从粗到精的设计相结合。具体来说,TSDF volume Slt中的每个体素包含两个值,占用率得分o和SDF值x。在每个级别上,MLP预测o和x。占用分数表示在TSDF截断距离λ内的体素的置信度。将占位分数小于稀疏阈值θ的体素定义为空洞空间,并进行稀疏化。
NeuralRecon不是为每个关键帧估计单个视图深度图,而是在局部片段窗口的边界体积内联合重建隐式曲面。该设计指导网络直接从训练数据中学习自然曲面的先验知识。结果表明,重构后的曲面局部光滑,尺度一致。值得注意的是,与基于深度的方法相比,这种设计还减少了冗余计算,因为在碎片重建过程中,三维表面上的每个区域仅估计一次。
GRU Fusion
为了使片段间的重建保持一致,我们建议将当前片段的重建建立在先前片段重建的基础上。为此,我们使用了门控递归单元(GRU) 模块的3D卷积变体。如图3 所示,在每一级,图像特征体积Flt首先通过3D稀疏卷积层以提取3D几何特征Glt。从碎片边界体积内的全局隐藏状态Hgt−1中提取隐藏状态Hlt−1。GRU将Glt与隐藏状态Hlt−1融合,并生成更新的隐藏状态Hlt,该Hlt将通过MLP层来预测该级别的TSDF卷Slt。通过直接替换相应的体素,将隐藏状态Hlt更新为全局隐藏状态Hgt。
Integration to the Global TSDF Volume
在最后的粗到精阶段,对S[3\t]进行了预测,并进一步稀疏到S[l\t]。由于在GRU融合中Slt与Sgt的融合是通过变换到全局坐标系后直接替换相应的体素来实现的。在每个时间步t,在Sgt上执行行进立方体来重建网格。
实验结果
图3 3D geometry metrics on ScanNet 我们使用两种不同的训练/验证划分,分别是Atlas[30](顶部块)和BA Net[42](底部块)。我们在补充材料中阐述了单层和双层的含义。
图4 2D depth metrics on ScanNet 我们使用两种不同的培训/验证划分,分别遵循Atlas[30](顶部块)和BA Net
图5 Qualitative results on ScanNet.与基于深度的方法相比,NeuralRecon可以产生更多的Coherent重建结果。请注意,与Atlas[30]相比,我们的方法还恢复了更清晰的几何图形,这说明了我们方法中局部片段设计的有效性。仅在局部片段窗口内重建,避免了将来自远处摄像机视图的无关图像特征融合到三维体中。该颜色表示曲面法线。
图6 Ablation study