IBRNet：学习多视图图像渲染

2024-04-21 10:59:30

重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

作者提出了一种通过插值稀疏的邻近视图集来合成复杂场景的新视图的方法。作者方法的核心是一个网络架构，其中包括一个多层感知器和一个射线转换器，它可以在连续的5D位置(3D空间位置和2D观看方向)估计亮度和体积密度，并从多个源视图动态绘制外观信息。通过在渲染时使用源视图，作者的方法回到了基于图像渲染(IBR)的经典工作，并允许作者渲染高分辨率图像。不像神经场景表示工作，优化每个场景的函数渲染，作者学习了一个通用的视图插值函数，推广到新场景。作者使用经典的体渲染来渲染图像，这是完全可微的，并且允许作者只使用多视图的图像作为监督来训练。实验表明，作者的方法优于最近的新视图合成方法，也寻求推广到新场景。此外，如果对每个场景进行微调，作者的方法与最先进的单场景神经渲染方法具有竞争力。

代码链接：https://ibrnet.github.io/

论文创新点

作者的方法是完全可微的，因此可以使用多视图图像进行端到端的训练。作者的实验表明,当大量的训练数据,作者的方法可以提供高分辨率的写实小说的观点对于看不见的场景包含复杂的几何形状和材料,和作者的定量评价表明,它提高了最先进的小说视图合成方法旨在推广一个新的测试场景。此外，对于任何特定的场景，作者可以微调IBRNet，以提高合成的新视图的质量，以匹配最先进的神经场景表示方法(如NeRF[39])的性能。总之，作者的贡献是:

一种新的基于学习的多视图图像渲染方法，在新场景上优于现有的一次性视图合成方法，
一种名为IBRNet的新模型架构，能够从多个视角连续预测空间中的颜色和密度，
每个场景的微调程序，达到了可与最先进的新颖的视图综合方法媲美的性能，只设计了单场景推理。

框架结构

1)为了呈现一个新的目标视图，作者首先识别一组相邻的源视图并提取它们的图像特征。2)然后，对于目标视图中的每条射线，作者使用作者提出的IBRNet计算沿着射线的一组样本的颜色和密度。具体来说，对于每个样本，作者从邻近的源视图中聚合其对应的信息(图像颜色、特征和查看方向)，以产生其颜色c和密度特征fσ(注意，这些特征还不是标量密度值)。然后，作者将作者提出的射线变压器应用于射线上所有样本的密度特征，以预测标量密度。3)最后，作者使用体积渲染沿着光线累积颜色和密度来渲染它的颜色。作者的方法可以训练到端到端的重建图像颜色的L2损失。

IBRNet体积密度和颜色预测在一个连续的5 d位置(x, d)。作者首先输入{fi} 2 d图像特征提取N i = 1从所有源视图PointNet-like MLP聚合局部和全局信息,导致多视点知道特性f{0}我N i = 1和池权重{wi} N i = 1。为了预测密度，作者使用加权{wi} N i=1，将{f 0 i} N i=1集合起来，使多视图可见性推理得到密度特征fσ。作者没有直接从单个5D样品的fσ来预测密度σ，而是使用射线变压器模块来聚集沿射线的所有样品的信息。射线变压器模块取射线上所有样本的fσ并预测它们的所有密度(为简单起见，图中只突出显示了(x, d)的输出密度)。射线变压器模块能够在更大范围内进行几何推理，并改善密度预测。对于颜色预测，作者将{f 0 i} N i=1与查询射线相对于源视图的每个查看方向(即{di} N i=1)的查看方向连接起来，预测一组混合权值。输出颜色c是源视图图像颜色的加权平均值。

实验结果

面向真实数据的定性比较。作者的方法可以更准确地恢复几何和外观的细节，并产生比其他方法在感知上更接近地面真相的图像。LLFF[38]难以恢复清晰和准确的边界(兰花的阴影和角的重复边缘)，也无法捕捉薄结构(霸王龙的肋骨)或部分闭塞的起源(蕨类植物的叶子)。削弱[39]渲染的图像显示不现实的噪音兰花。同时，花瓣上的纹理缺失，接近花瓣边界的区域没有很好地恢复。作者的方法在霸王龙和蕨类动物的精细结构上也比NeRF稍好，并且可以重建角的玻璃上更多的反射细节。

结论

作者提出了一个基于学习的多视图图像渲染框架，通过混合附近图像的像素和由MLP和射线变压器组成的网络推断的权重和体积密度来合成场景的新视图。这种方法结合了IBR和NeRF的优点，在复杂的场景中产生了最先进的渲染质量，而不需要预先计算几何(不像许多IBR方法)，存储昂贵的离散体积(不像神经体素表示)，或为每个新场景进行昂贵的训练(不像NeRF)。

论文链接：https://arxiv.org/pdf/2102.13090.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

- END -

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。深度学习爱好者或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

深度学习爱好者鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

· 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

· 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

· 深度学习爱好者默认每篇文章都是首发，均会添加“原创”标志

ICCV2021 Oral | UNO：用于“新类发现”的统一目标函数，简化训练流程！已开源！

▊ 写在前面在本文中,作者研究了新类发现(Novel Class Discovery (NCD))的问题.NCD的目标是通过利用包含不同但相关类的标记集的先验知识来推断未标记集中的新对象类别 .现有 ...
CVPR 2019 | 西北工业大学开源拥挤人群数据集生成工具，大幅提升算法精度

简单说来这个任务就是给定图像,返回该图像所描述场景中有多少人. 这可以帮助城市管理者.大型活动组织方实时了解人群拥挤情况,以利于早期防范群体事件.人群踩踏等. 和大多数计算机视觉任务面临相同的困境,视 ...
ECCV 2020 | PHOSA：一种基于单目图像的人-物重建方法

概述作者提出了一种能够推断出人类和物体的形状和空间排列的方法,只需要一张在自然环境中捕捉的图像,且不需要任何带有3D监督的数据集.该方法的主要观点是,将人类和物体结合起来考虑,这样会产生" ...
CVPR 2020｜不惧目标遮挡，英伟达提出全景感知的图像合成方法

英伟达在新公布的论文 Panoptic-based Image Synthesis 中提出一种全景感知的图像合成方法,大大提高了图像生成质量,即便是在多个物体实例相互遮挡的场景,也能生成清晰可分离的的 ...
VR全景视图如何让大家满意？

目前,电网结构和设备状况不平衡.用电作业场所多.班组和人员安全意识差等问题普遍存在,在大型维修方面,大型维修计划起初是纸质或电子版本,今天小编将去介绍VR全景视图如何让大家满意. 提取全景图像,对提取 ...
2000～2009年历届CVPR最佳论文，代码及解读汇总

同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总,行业技术交流.关注极市平台公众号 ,回复加群,立刻申请入群~ 作者:sophie 极市原创文章,未经允许,请勿转载本文汇总了从 200 ...
无需深度学习即可提取图像特征

重磅干货,第一时间送达一.简介图像分类是数据科学中最热门的领域之一,在本文中,我们将分享一些将图像转换为特征向量的技术,可以在每个分类模型中使用. 二.定义 VATbox,作为n一个我们所暗示的, ...
职场小白一起来学习这个识别图像文字操作

小编在工作中是经常需要用到识别图像文字的操作的,因为有很多时候我都需要整理一下文档图片,而这些文档有很多都是pdf或者图片形式,而我要将其整理这些文档的内容的话,我如果不用识别图像文字操作,就得需要自 ...
最新！基于深度学习的盲图像超分技术一览

作者丨happy 编辑丨极市平台极市导读本文系统综述了盲图像超分的近期进展,对现有方案按照退化建模.数据等进行了分类划分以帮助研究人员归纳判别现有方案. >>加入极市CV技术交流群,走 ...
【从零学习OpenCV】图像的保存&视频的保存

重磅干货,第一时间送达经过几个月的努力,小白终于完成了市面上第一本OpenCV 4入门书籍<从零学习OpenCV 4>.为了更让小伙伴更早的了解最新版的OpenCV 4,小白与出版社沟通 ...
上帝视角任意切换：三维重建和图像渲染是怎么结合的？

作者丨HawkWang 来源丨计算摄影学编辑丨极市平台极市导读本文介绍了3D图像网站Photo Synth及其前身Photo Tourism,并讲解了它们的两大核心技术--点云重建和图像间的平滑 ...
基于深度学习的花卉图像关键点检测

重磅干货,第一时间送达在本文中,我们描述了我们如何使用卷积神经网络 (CNN) 来估计花卉图像中关键点的位置,并且在 3D 模型上渲染这些图像上茎和花的位置等关键点. 为了能够与真实花束的照片对比, ...
基于深度学习的2D图像深度估计:从单目到多目

基于深度学习的2D图像深度估计:从单目到多目
赵荣洪文德：在知识的细化探究过程中，学习正弦函数的图像

--以"正弦函数和余弦函数的图像与性质(1)"为例上海市朱家角中学赵荣洪文德论文摘要:本文以正弦函数的图像与性质(第一课时)为例,在新课探究性学习过程中依次提出 ...
【计算摄影】图像与视频超分辨，深度学习核心技术与展望

大家好,这是专栏<计算摄影>的第七篇文章,这一个专栏来自于计算机科学与摄影艺术的交叉学科. 作者&编辑 | 言有三图像超分,就是要将低分辨率的图像恢复为高分辨率的图像,它在日常的 ...

IBRNet：学习多视图图像渲染

相关推荐