开源｜AAAI‘21杰出论文-三维重建新探索：解决数据依赖问题，让自监督信号更可靠！

2024-06-05 01:26:35

作者丨许鸿斌

来源丨极市平台

编辑丨极市平台

极市导读

现有的方法都是假设不同视图之间的对应点具有相同的颜色，这在实践中并不总是正确的。这可能导致不可靠的自监督信号，并损害最终的重建性能。为了解决这个问题，本文提出了一个以语义共切分和数据扩充为指导的更可靠的监控框架。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

导读

目标读者：对多视图立体几何（Multi-view stereo, MVS）感兴趣或有一定了解的人。
论文作者：深圳中科院先进技术研究院以及华南理工大学的研究团队。
论文：https://www.aaai.org/AAAI21Papers/AAAI-2549.XuH.pdf
Arxiv: https://arxiv.org/abs/2104.05374
代码：https://github.com/ToughStoneX/Self-Supervised-MVS

背景

一直以来，基于多视图立体几何（Multi-view stereo, MVS）的三维重建都是一个广受关注的主题。近年来深度学习方法的发展，催生了一系列传统MVS方法与深度学习方法结合的工作，例如：MVSNet^[1]、R-MVSNet^[2]、CascadeMVSNet^[3]等等。以MVSNet为代表这一系列方法，通过可微单应性投影（DIfferentiable Homography）将立体几何的匹配关系嵌入到代价匹配体（Cost Volume）中，以实现端到端的神经网络。网络的输入是任意数量的多视角图像以及相机的内外参数，输出是某一个参考视角下的深度图。相比于传统的MVS中的立体匹配方法，这些基于深度学习改进的方法能更好地重建稠密的三维点云信息，并对于弱纹理及噪声干扰的情况鲁棒性更强。在DTU^[4]、Tanks&Temples^[5]等公开数据集上都取得了不错的效果。但是，一个不可忽视的问题就是，这些深度学习方法依赖于大量的3D场景的Ground Truth数据。这会给其在现实场景的应用带来不少的麻烦，因为采集3D Ground Truth数据的成本相对高昂。由此，整个研究社区也开始着眼于无监督/自监督学习在MVS中的应用，以求摆脱对Ground Truth的依赖。

现有的自监督学习方法的基本思路是将需要Ground Truth的深度估计的回归任务转换为一个无监督的图像重建的代理任务。根据网络预测的参考视角下的深度图和其他视角图像通过单应性映射重建为参考视角的图像，只有预测的深度值正确时，重建图像才会尽可能与原图相似。尽管此前的无监督方法进一步地改进自监督方法并取得了不错的结果，例如：Unsup_MVS^[6]、MVS^[7]、MVSNet^[8]等，但是如下图所示，此前的无监督/自监督方法与有监督方法依然存在很明显的差异。我们的目标是提升自监督MVS方法的性能，但是在介绍具体方法之前，我们不妨先回顾一下自监督MVS方法本身是否存在一些缺陷导致了有监督与无监督方法的效果差异？

核心问题

由上图(a)可见，以图像重建任务作为代理任务的自监督MVS方法都依赖于一个比较粗糙的假设，即颜色一致性假设（Color Constancy Hypothesis）。该假设认为：多视图之间的匹配点具有相同的颜色。然而，由上图(b)中可见，在实际场景下，多视角图像的颜色值可能被各种外界因素干扰而导致匹配点具有不同的颜色，例如：光照变化、反光，噪声干扰等等。因此，基于颜色一致性假设的自监督信号在这些情况下很有可能引入错误的监督信号，反而干扰模型的效果。我们将这类问题称之为：颜色一致性歧义问题（Color Constancy Ambiguity）。那么，我们该如何解决这类问题呢？

方法

自监督MVS中的颜色一致性歧义问题，其根本原因在于图像重建这个代理任务仅仅考虑了颜色空间上的对应关系（Correspondence）。而这种基于RGB像素值差异的度量指标在表示多视图之间的对应关系时不够可靠，也限制了自监督方法的性能。那么，很自然地我们可以考虑考虑如何引入额外的先验知识，以提供一个更鲁棒的代理任务作为自监督信号。由此可以分为以下两点：

语义一致性：引入抽象的语义信息来提供鲁棒地对应性关系，将图像重建任务替换为语义分割图的重建任务构建自监督信号。
数据增强一致性：在自监督训练中引入数据增强，来提升网络针对不同颜色变化的鲁棒性。

但是在构建自监督信号时，依然存在一些不可忽视的问题：

对于语义一致性先验来说，获取语义分割图标注的成本是非常高昂的。此外训练集中的场景是动态变化的，我们无法像自动驾驶任务那样明确地定义好所有场景中所有元素的语义类别。这也是此前的自监督方法中不曾使用语义信息构建自监督损失的原因。为此，我们通过对多视角图像进行无监督的协同分割（Co-Segmentation），以挖掘出多视角图像之间的共有语义信息来构建自监督损失。
对于数据增强一致性先验来说，数据增强本身就会带来颜色分布的改变，换言之可能反过来引发颜色一致性歧义的问题，干扰自监督信号。为此，我们将单分支的自监督训练框架划分为双分支，使用原始分支的预测结果作为伪标签来监督数据增强分支的预测结果。

基于此，我们提出了一个新的自监督MVS训练框架：JDACS，如下图所示。

整个框架分为三个分支：

深度估计分支：输入参考视角（Reference View）以及源视角图像（Source View）到网络中，利用预测的深度图和源视角图像来重建参考视角图像。比较参考视角下重建图像和原图的差异，构建光度立体一致性损失（Photometric Consistency）。
协同分割分支：将输入多视图送入一个预训练的VGG网络，对其特征图进行非负矩阵分解（NMF）。由于NMF的正交约束，其过程可以看做多多视图之间的共有语义进行聚类，并输出协同分割图。随后通过预测的深度图和多视角的协同分割图构建分割图像重建任务，即语义一致性损失。
数据增强分支：对原始多视图进行随机的数据增强，并送入到网络中。以深度估计分支预测的深度图作为伪标签来监督数据增强分支的预测结果，构建数据增强一致性损失。

实验结果

DTU数据集上的定量实验结果：

DTU数据集上的定性实验结果：

Tanks&Temples数据集上的定量实验结果：

Tanks&Temples数据集上的定性实验结果：

有监督与无监督训练效果对比：

结语

这篇工作是我们对于自监督MVS的一些探索，重新思考了自监督信号的有效性，因为此前的基于图像重建代理任务的自监督方法都是基于颜色一致性假设。然而，现实场景中天然存在的颜色干扰会干扰到自监督训练，并引发颜色一致性歧义问题，导致训练过程中引入了错误的监督信号。我们提出的自监督MVS框架则试图引入额外的Correspondence先验知识来使得自监督信号更加可靠。一方面，通过无监督地挖掘协同分割图中的语义一致性信息来引入抽象的匹配关系；另一方面，通过双分支结构引入数据增强一致性的先验来提升网络应对噪声的鲁棒性。从实验结果可以看出，我们相比于此前的自监督MVS方法有一定的性能提升。

当然，我们提出的方法依然存在一些待解决的问题：首先，在非纹理区域如黑色/白色背景等等，是不存在有效的自监督信号的，因为所有背景像素点的颜色乃至语义都是相同的；其次，我们通过协同分割的方法只挖掘出了相对粗糙的语义信息，这是由于基于ImageNet分类任务预训练的VGG模型并不适用于需要关注到细节语义的分割任务。

最后附上我们论文的引用：

@inproceedings{xu2021self, title={Self-supervised Multi-view Stereo via Effective Co-Segmentation and Data-Augmentation}, author={Xu, Hongbin and Zhou, Zhipeng and Qiao, Yu and Kang, Wenxiong and Wu, Qiuxia}, booktitle={Proceedings of the AAAI Conference on Artificial Intelligence}, year={2021}}

参考文献

Yao Y, Luo Z, Li S, et al. Mvsnet: Depth inference for unstructured multi-view stereo[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 767-783.
Yao Y, Luo Z, Li S, et al. Recurrent mvsnet for high-resolution multi-view stereo depth inference[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 5525-5534.
Gu X, Fan Z, Zhu S, et al. Cascade cost volume for high-resolution multi-view stereo and stereo matching[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 2495-2504.
Jensen R, Dahl A, Vogiatzis G, et al. Large scale multi-view stereopsis evaluation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 406-413.
Knapitsch A, Park J, Zhou Q Y, et al. Tanks and temples: Benchmarking large-scale scene reconstruction[J]. ACM Transactions on Graphics (ToG), 2017, 36(4): 1-13.
Khot T, Agrawal S, Tulsiani S, et al. Learning unsupervised multi-view stereopsis via robust photometric consistency[J]. arXiv preprint arXiv:1905.02706, 2019.
Dai Y, Zhu Z, Rao Z, et al. Mvs2: Deep unsupervised multi-view stereo with multi-view symmetry[C]//2019 International Conference on 3D Vision (3DV). IEEE, 2019: 1-8.
Huang B, Yi H, Huang C, et al. M^ 3VSNet: Unsupervised Multi-metric Multi-view Stereo Network[J]. arXiv preprint arXiv:2005.00363, 2020.

本文亮点总结

1.自监督MVS中的颜色一致性歧义问题，其根本原因在于图像重建这个代理任务仅仅考虑了颜色空间上的对应关系（Correspondence）。

如果觉得有用，就请分享到朋友圈吧！

△点击卡片关注极市平台，获取最新CV干货

通过对比对象掩码建议的无监督语义分割

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
Vokenization：一种比GPT-3更有常识的视觉语言模型

学习人工智能,最好的办法就是先考上大学,学好计算机和数学,其次就是生个孩子. 这可不是一个段子.有了孩子之后,你会能更好理解人工智能到底是如何发生的. 看着一个牙牙学语的小婴儿开始对这个世界发生好奇, ...
深度神经网络的图像语义分割研究综述

摘要随着深度学习的迅速发展并广泛应用到语义分割领域,语义分割效果得到了显著的提升.本文主要对基于深度神经网络的图像语义分割方法和研究现状进行了详细的综述.根据网络训练方式的不同,将现有的方法分为 ...
CNCC2018技术论坛|6场报告引爆“认知图谱与推理”现场

知识引擎是人工智能的核心和基础设施. 大数据环境下数据的分布.异构.动态.碎片化和低质等特征给知识工程和知识服务提出了新挑战,既需要从感知角度学习数据的分布表示,又需要从认知角度解释数据的语义,构建新 ...
ECCV 2020 | 基于分割一致性的单目自监督三维重建

概述本文主要从二维图像及其轮廓的集合中,学习一个自监督的.单视图的三维重建模型,预测目标物体的3D网格形状.纹理和相机位姿.提出的方法不需要3D监督.注释的关键点.物体的多视图或者一个先验的网格模板 ...
用于半监督语义分割的基于掩码的数据增强

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
TextTopicNet:CMU开源无标注高精度自监督模型

自监督模型是继GAN之后Yann LeCun看好的世界模型. 本文来自于Carnegie Mellon University和Universitat Autonoma de Barcelona研究团队 ...
跨模态学习在三维语义分割领域适应中的应用

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
DSC-PoseNet：通过双尺度一致性学习6DoF物体姿态估计

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为 ...
极市直播回放丨第76期-许鸿斌：AAAI'21杰出论文，一个解决三维重建对数据依赖的新框架（已开源）

多视图立体几何(Multi-view Stereo, MVS)是一种很经典的三维重建方法,旨在从多视角图像中恢复场景的三维信息.近年来,越来越多的工作开始将深度学习与传统的多视图立体几何方法结合,以提 ...
AAAI 2021最佳论文Runners Up！Transformer的归因探索！

本文转载自:炼丹笔记作者:一元,四品炼丹师 Self-Attention Attribution: Interpreting Information Interactions Inside Tran ...
双目立体放大！谷歌刚刚开源的这篇论文可能会成为手机双摄的新玩法

摄像头和计算机视觉技术已经成为智能手机技术创新的重要战场. 苹果上个月发布的iPhone XS中计算机视觉技术可谓其重要亮点(详见:iPhone Xs发布会其实是苹果计算机视觉技术发布会!),昨天谷歌 ...
印象派水彩的新探索：英国画家约翰·亚德里作品选

约翰·亚德里(John Yardley)1933年生于英国约克郡贝弗利,1950年在服完兵役后,他开始自学绘画.而正是因为他没有受过正规艺术院校的训练,反倒让他丢了学院派的条条框框,想画什么就画什么, ...
又一SCI被爆雷! 新晋四大水刊之一, 论文工厂新目标！

这本期刊是已经被列为中科院预警名单内(预警等级:中度),因此大家在投稿的时候还是需要先考虑考虑考虑!期刊基本信息这本期刊在中科院分区中属于细胞生物学3区和老年医学1区,发表周期属于月刊,JCR分区属 ...
21世纪的直销新商机

21世纪的直销新商机
《中国文化报》｜中国美术学院产学研协同育人模式的新探索

艺术院校里的创业学院 --中国美术学院产学研协同育人模式的新探索美周刊于<中国文化报>2021年5月14日第3版学院搭台.企业支持.导师指导.小组合作.提供项目启动资金2000 ...
时空隧道新探索,利用平行宇宙来穿越时空,科学家: 很快就能实现

当穿越剧在荧幕上大范围播放时候,估计很多人都会有一种在时空下穿梭的感觉,并且这是一种非常有趣的体验.而很多人都会觉得,这只能在梦中出现的情况,毕竟目前在科学上还没有出现所谓的穿越时空现象.然而,科学家 ...
探究性阅读教学发展学生个性的新探索

徐晓思一千个读者,就有一千个哈姆雷特.在小学语文学习的探究阅读中,由于每个学生的经验阅历.知识积累.心理感受各不相同,对同一篇作品往往会出现各种各样的理解和看法,产生不同的感受和体验.因而,每篇课文 ...

开源｜AAAI‘21杰出论文-三维重建新探索：解决数据依赖问题，让自监督信号更可靠！

导读

背景

核心问题

方法

实验结果

结语

相关推荐