基于深度学习的三维重建算法：MVSNet、RMVSNet、PointMVSNet、Cascade系列...

2024-08-06 04:14:24

MVSNet:香港科技大学的权龙教授团队的MVSNet（2018年ECCV）开启了学习深度做多视图三维重建的先河。2019、2020年又有多篇改进：RMVSNet(CVPR2019),PointMVSNet(ICCV2019),PMVSNet(ICCV2019),MVSCRF(ICCV2019),Cascade(CVPR2020),CVPMVSNet(CVPR2020),FastMVSNet(CVPR2020),UCSNet(CVPR2020),CIDER(AAAI2020),PVAMVSNet(ECCV2020),D2HC-RMVSNet(ECCV2020)。

一 MVSNet：目标是预测图片上每个像素的深度信息

MVSNet: Depth Inference for Unstructured Multi-view Stereo

MVSNet本质是借鉴基于两张图片cost volume的双目立体匹配的深度估计方法，扩展到多张图片的深度估计，而基于cost volume的双目立体匹配已经较为成熟，所以MVSNet在立体匹配的基础上，基于可微分的单应性变换提出适合三维重建的深度估计的cost volume。

论文实现了权龙教授多年的深度三维重建想法。

过程：

（1）输入一张reference image（为主）和几张source images（辅助）；

（2）分别用网络提取出下采样四分之一的32通道的特征图；

（3）采用立体匹配（即双目深度估计）里提出的cost volume的概念，将几张source images的特征利用单应性变换( homography warping)转换到reference image，在转换的过程中，类似极线搜索，引入了深度信息。构建cost volume可以说是MVSNet的关键，或者说极线搜索。

（4）利用3D卷积操作cost volume，先输出每个深度的概率，然后求深度的加权平均得到预测的深度信息，用L1或smoothL1回归深度信息，是一个回归模型。

（5）利用多张图片之间的重建约束(photometric and geometric consistencies)来选择预测正确的深度信息，重建成三维点云。

该论文最重要的单应性变换( homography warping)的公式写错了，误导了好几篇后续改进的顶会论文，不过神奇地是提供的代码没有错：

MVSNet框图

二 MVSNet的后续改进论文

MVSNet开启了深度学习做三维重建的先河，2019/2020又出现了多篇对其的改进，改进思路主要是把回归网络改成cascade，即改成层级的，先预测下采样四分之一的，再利用得到的结果预测二分之一，最后输出原图片大小的深度信息，或减小深度范围，或减小cost volume的范围。

目前dtu数据集上精度已经很高了，再提高也比较难，另外由于dtu数据集的ground truth本身就是不完整的，所以和这个ground truth比的话，也有问题，结果高并不表明效果好。

还有就是tanks榜单也有问题，评价系统存在问题导致需要一些技巧才能提高排名，需要平衡点云的完整度和正确性即recall和precision，不能太稀疏，但是太稠密了错的又会多。

MVSNet后续改进论文介绍：

1.RMVSNet(CVPR2019)

Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference

权龙教授团队Yao Yao对自己的MVSNet的后续改进，主要是将3D 卷积换成了一个GRU时序网络来降低显存消耗。

代码是用tensorflow写的，和MVSNet代码合到一起了，github链接：https://github.com/YoYo000/MVSNet

2. MVSNet（pytorch版本）

这里需要特别强调一下，提出双目立体匹配GwcNet的Guo Xiaoyang 同学把原来MVSNet的tensorflow代码改成了pytorch框架，这为几乎后续所有改进MVSNet的论文提供了极大的帮助，后续的论文几乎都是在Xiaoyang Guo同学的MVSNet_pytorch上改的。而且Guo Xiaoyang同学的MVSNet_pytorch已经比原来的MVSNet的效果好了不少，而后续的改进都是对比MVSNet论文里的结果，所以真正的提升其实并不大，后续改进应该对比Guo Xiaoyang同学的MVSNet_pytorch。

MVSNet论文里的结果和Guo Xiaoyang同学的MVSNet_pytorch在DTU数据集上的对比结果，可以看出Guo Xiaoyang已经提升了不少MVSNet的效果。

Guo Xiaoyang同学的MVSNet_pytorch 链接https://github.com/xy-guo/MVSNet_pytorch

3 PointMVSNet(ICCV2019)

Point-Based Multi-View Stereo Network ，清华大学改的MVSNet_pytorch的代码，PointMVSNet github链接：https://github.com/callmeray/PointMVSNet

4 P-MVSNet(ICCV2019)

P-MVSNet: Learning Patch-wise Matching Confifidence Aggregation for Multi-View Stereo 华中科技大学P-MVSNet对MVSNet的改进主要在于采用传统三维重建算法中Patch-wise。还没有找到其代码。

5 MVSCRF(ICCV2019)

MVSCRF: Learning Multi-view Stereo with Conditional Random Fields

改进点：接入了一个CRF模块

清华大学。没有找到其代码。

6 cascade MVSNet（CVPR2020)

Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching

阿里，GitHub链接：https://github.com/alibaba/cascade-stereo

改的MVSNet_pytorch的代码，主要是把MVSNet的模型改成了层级的，先预测下采样四分之一的深度，然后用来缩小下采样二分之一的深度，再用其缩小原始图片大小的深度，这样层级的方式，可以采用大的深度间隔和少的深度区间，从而可以一次训练更多数据。

另外由于双目立体匹配和MVSNet的MVS都是用了cost volume，双目立体匹配是用两张图片估计’深度'，MVS的MVSNet是用三张及以上图片预测深度，所以其实模型差不多，都是相同的，cascade MVSNet也把改进思想用到了双目立体匹配上，一篇论文做了两份工作。

7 CVP-MVSNet（CVPR2020)

Cost Volume Pyramid Based Depth Inference for Multi-View Stereo

澳大利亚国立和英伟达，github链接：https://github.com/JiayuYANG/CVP-MVSNet

也是改的MVSNet_pytorch的代码，和上一个cascade MVSNet比较类似，也是先预测出深度信息然后用来缩小更大的图片的深度，CVP-MVSNet相比cascade MVSNet也缩小了cost volume的范围。

8 Fast-MVSNet（CVPR2020)

Fast-MVSNet: Sparse-to-Dense Multi-View Stereo With Learned Propagation

and Gauss-Newton Refifinement，上海科技大学也是改的MVSNet_pytorch的代码，github链接：https://github.com/svip-lab/FastMVSNet

Fast-MVSNet采用稀疏的cost volume以及Gauss-Newton layer，目的是提高MVSNet的速度。

9 CIDER（AAAI 2020)

Learning Inverse Depth Regression for Multi-View Stereo with Correlation Cost Volume , 华科的

GitHub链接：https://github.com/GhiXu/CIDER

CIDER主要采用采用group的方式提出了一个小的cost volume

10 UCSNet（CVPR2020)

Deep Stereo using Adaptive Thin Volume Representation with Uncertainty Awareness

github链接：https://github.com/touristCheng/UCSNet

UCSNet和cascade/CVPMVSnet差不过，只是depth interval可以自动调整，最大层度的进行网络层级，通过下采样四分之一的深度结果来缩小cost volume和深度的范围，从而让模型尽可能小。

11 PVA-MVSNet（ECCV2020)

Pyramid Multi-view Stereo Net with Self-adaptive View Aggregation

北大，GitHub链接：https://github.com/yhw-yhw/PVAMVSNet

主要采用attention机制来自适应学习一些权重，比如不同view的权重。

12 D2HC-RMVSNet(ECCV2020 Spotlight)

Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency Checking

github链接(还未提供）：https://github.com/yhw-yhw/D2HC-RMVSNet

还没细看，大概和RMVSNet差不多，只不过换成用LSTM来处理cost volume，同时提出一种Dynamic Consistency Checking来后融合。

可能因为在Tanks榜单上排名较高（目前滑落到第二，论文提交时第一），所以拿了ECCV2020的Spotlight。

总结：

香港科技大学的权龙教授团队的Yao Yao把双目立体匹配的cost volume，引入了基于深度学习的三维重建领域，提出了MVSNet，并整理了DTU数据集，开创了通过深度模型预测深度进行三维重建的一个新领域。

后续提出双目立体匹配GwcNet的Guo Xiaoyang同学把原来MVSNet的tensorflow代码改成了pytorch框架，极大地增加了代码的可读性，方便了后续一系列对MVSNet的改进。也提高了改进的基点。

得特别感谢香港科技大学的权龙教授团队和Guo Xiaoyang同学。

PyTorch版《动手学深度学习》PDF 版开源了

内容简介一位北大的老哥把他翻译成了 Pytorch 版 https://github.com/ShusenTang/Dive-into-DL-PyTorch 源项目由于写的是 markdown ,我 ...
C3F：首个开源人群计数算法框架

导读:52CV曾经报道多篇拥挤人群计数相关的技术,比如最近的: CVPR 2019 | 西北工业大学开源拥挤人群数据集生成工具,大幅提升算法精度视频监控的普及,需求推动技术的快速进步. 本文为首个P ...
PyTorch深度学习技术生态

磐创AI 512篇原创内容公众号磐创AI分享转自 | 机器学习实验室作者 | louwill 来源 | Machine Learning Lab 随着近几年的大力发展,PyTorch逐 ...
点云深度学习的Pytorch框架

这是3D 点云的深度学习框架,提供常见的点云分析方法的一种通用深度学习模型.它主要依赖Pytorch Geometric和Facebook Hydra.该框架能够以最小的代价和极大的可重复性来构建精简 ...
NeurIPS2019|首篇单目无监督深度估计与视觉里程计，效果超越双目算法，已开源

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
【移动端DL框架】当前主流的移动端深度学习框架一览

在这个专栏中,我们会介绍与移动端的模型训练和部署有关的框架的使用. 作者&编辑 | 言有三深度学习模型要落地,比如要部署到手机等移动端平台,之前给大家介绍的用于训练的框架就不能直接使用了,我 ...
一文概览 CVPR2021 最新18篇 Oral 论文

报道丨极市平台极市导读本文为CVPR最新接oral的资源汇总贴,附有相关文章与代码链接. >>加入极市CV技术交流群,走在计算机视觉的最前沿文章在Github上持续更新,欢迎大家 s ...
最全综述：基于深度学习的三维重建算法

前言目前,三维重建技术已在游戏.电影.测绘.定位.导航.自动驾驶.VR/AR.工业制造以及消费品领域等方面得到了广泛的应用.方法同样也层出不穷,我们将这些方法依据原理分为两类: 基于传统多视图几何的 ...
DL之Yolov3：基于深度学习Yolov3算法实现视频目标检测

DL之Yolov3:基于深度学习Yolov3算法实现视频目标检测之对<俄罗斯总统普京对沙特王储摊的"友好摊手"瞬间-东道主俄罗斯5-0完胜沙特>视频段实时检测导读 ...
DL之Yolov3：基于深度学习Yolov3算法实现视频目标检测之对《跑男第六季》第四期片视频段进行实时目标检测

DL之Yolov3:基于深度学习Yolov3算法实现视频目标检测之对<跑男第六季>第四期片视频段进行实时目标检测完整视频请观看利用深度学习目标检测之对<跑男第六季>第四期片 ...
【学术论文】基于深度学习的人脸活体检测算法

摘要: 身份认证技术有了很大的发展,随之不断出现的是各种伪造合法用户信息的欺诈手段.针对这一问题,提出一种基于深度学习人脸活体检测算法,分析了真实人脸和欺诈人脸之间的区别,将真实人脸和照片进行数据去中 ...
【学术论文】基于深度学习的人体行为识别算法

摘要: 为改善人体行为识别任务中准确率低的问题,提出了一种基于批归一化的卷积神经网络(CNN)与长短期记忆(LSTM)神经网络结合的神经网络.CNN部分引入批归一化思想,将输入网络的训练样本进行小批量 ...
中科院化学所&北师大毛兰群教授团队：首次基于深度学习算法用于活体传感平台

通讯作者:江迎:毛兰群通讯单位:中科院化学所:北京师范大学大脑中已知存在多达200种对大脑非常重要的功能小分子,它们中一种或几种物质与特定的病理状态相关联.活体同时选择性地测量多种神经化学物质 ...
基于深度学习的特征提取和匹配方法介绍

转载于 :黄浴博士知乎 https://zhuanlan.zhihu.com/p/78053406 计算机视觉需要图像预处理,比如特征提取,包括特征点,边缘和轮廓之类.以前做跟踪和3-D重建,首先就得 ...
【隐创119期】基于深度学习的自动目标识别技术研究（一）

编者按: 深度学习算法正重新定义目标检测和分类技术.算法训练需要大量数据集,而数据集搜集通常是复杂和耗时的.在国防和安全领域,如果数据具有敏感性,例如军用舰船红外图像,训练可能难以实现.算法开发和训练 ...
基于深度学习的无监督磁共振图像去噪方法

MRI图像是一种以不同灰度显示不同结构的解剖和病理的断面图像,广泛应用于疾病的检测.诊断以及治疗监测.然而,MRI图像的成像过程往往伴随着随机噪声,这导致了低质MRI图像的产生.MRI图像的质量不仅会 ...

基于深度学习的三维重建算法：MVSNet、RMVSNet、PointMVSNet、Cascade系列...

相关推荐