浙大团队发表3D视图合成新方法，效果远超NeRF、NV

2024-04-24 03:52:11

大数据文摘授权转载自HyperAI超神经

作者：神经小兮

未来，我们的看电影、球赛以及演唱会等的方式，可能被「自由视角视频」（free-viewpoint video）彻底改变。

你可能不知道什么是「自由视角视频」，但你应该体验过VR、AR视频，或者玩过3D游戏，这些都属于自由视角视频的范畴，其特点便是：可以从任意角度观看，提供完全沉浸式的观感。

观众可以切换任意视角，不再局限于导播镜头

这种视频到底怎么才能拍出来？一般来说，传统的方法是，需要好多台摄像机从不同角度一起拍，然后把所有角度的视频合成在一起。

比如这样，在各个角度布满摄像头获取多个角度的画面，最终合成为自由视角视频

但是这种方式依赖于多个摄像机，不仅成本昂贵，还受限于拍摄场地的环境。

还有一种方式，可以摆脱这些限制，只需输入少量角度拍摄的人体镜头，便可合成360°的人体3D新视图。这便是来自浙江大学的研究人员，最近发表的最新成果。

12月底，该团队在arxiv上发表了新论文《Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans》，提出一种新的人体表示Neural Body，用稀疏多视角视频进行动态3D人体新视图的合成。经过实验验证，该方法优于此前的其它方法。

Neural Body：用于动态人像新视图合成的结构化潜码隐式神经表征

论文地址：

https://arxiv.org/pdf/2012.15838.pdf

值得一提的是，该论文背后的七位作者，均来就读或毕业于浙江大学，并来自浙江大学计算机辅助设计与图形学国家重点实验室。其中，Hujun Bao（鲍虎军）、Xiaowei Zhou（周晓巍）均为该实验室教授，Yinghao Xu（徐英豪）与Qianqian Wang本科毕业后，分别于港中文与康奈尔大学攻读博士学位。

素材不多，也能生成优质3D视图

目前，无论是影视节目，或是体育赛事，我们所看到的都是来自单个摄像头所拍摄的画面。如果能够得到「自由视角视频」，想看哪里看哪里，那一定会是上帝视角一般的体验。

事实上，AI近几年也在研究这个问题，并诞生了诸如NeRF、Neural Volumes （简称NV）等视图合成方案。

不过，目前已有的研究表明，在密集的输入视图条件下，学习三维场景的隐式神经表示可以获得很好的视图合成质量。然而，如果视图是高度稀疏的，表示学习将是不适定的。

NeRF（左一）NV （中）与新方法效果对比，前两者均出现失真、变形等问题

因此，为了解决这个不适定问题，来自浙大、港中文和康奈尔大学的研究团队，提出在视频帧上整合观察结果的关键思想。

团队的最新研究成果中，提出了Neural Body。这是一种新的人体表示，它假设在不同帧上学习到的神经表示共享，锚定在一个可变形网格上的相同的潜码集，以便跨帧的观察可以自然地集成。可变形网格也为网络提供了几何指导，以更有效地学习3D表示。

Neural Body的基本思想

研究人员在一个新收集的多视图数据集上进行了实验，结果表明，该方法在视图合成质量方面，与之前的方法相比，具有很大的优势。

团队在demo演示中，展示了其方法从做出各种动作的人物的单目视频中，重建移动的人物的能力。

从4个角度的视频图像中，得到自由视角视频结果

这一方法大大降低了自由视角视频合成的成本，至少，省下了摄像机的成本，因此也具有更广泛的适用性。

得到Neural Body，分五步走

一、结构化的潜码

为了控制潜码的空间位置与人体姿态，团队将这些潜码锚定到一个可变形人体模型(SMPL)。SMPL 是一个基于皮肤顶点的模型，它被定义为形状参数、姿势参数和相对于 SMPL 坐标系的刚体变换函数。

潜码与神经网络，一起用于表示人的局部几何和外观。将这些代码锚定在一个可变形的模型上，能够表示一个动态的人。通过动态人的表示，团队建立了一个潜在变量模型，将同一组潜码映射到不同帧的密度和颜色的隐式域中，自然地整合了观察结果。

二、代码扩散

由于结构化的潜码在三维空间中比较稀疏，直接对潜码进行插值会导致大多数三维点的向量为零。为了解决这个问题，团队将表面上定义的潜码扩散到附近的三维空间。

由于代码的扩散不应该受到人在世界坐标系中的位置和方向的影响，他们将代码的位置转换为SMPL坐标系。

代码扩散还将结构化潜码的全局和局部信息集合起来，有助于学习隐式域。

三、密度和颜色回归

图(b)概述了三维空间中任意点的密度和颜色的回归

研究团队发现，时间变化因素会影响人体的外观，如二次照明和自阴影。受自动解码器的启发，团队为每个视频帧分配了一个潜在的嵌入框架t，以编码时间变化的因素。

四、体绘制

在给定的视点下，团队利用经典的体绘制（volume rendering，也称立体渲染）技术，将Neural Body渲染成二维图像。

然后，基于SMPL模型估计场景边界，接着，Neural Body会预测这些点的体积密度和颜色。

在体绘制的基础上，通过对渲染图像和观测图像的比较，对模型进行了优化。

五、训练

与基于帧的重建方法相比，该方法利用视频中的所有图像来优化模型，并拥有更多的信息来恢复3D结构。

此外，团队采用Adam优化器来训练Neural Body。训练在四个2080TiGPU上进行。对于一个共300帧的四视图视频，训练通常需要大约14小时。

经过以上五个步骤，Neural Body得以实现基于少量视图的自由视角视频合成，而且与其他方法对比，效果明显优于前者。

三种方法输出结果的 PSNR（峰值信噪比）对比，数值越大，表明输出图像质量越好。注：「OURS*」和「OURS」分别代表只在一帧视频和在四帧视频训练的结果）

AI的脑补技术，让3D效果的实现越来越简便，而它的应用也不止是影视业与体育赛事直播领域，对于游戏开发者、健身指导、3D广告提供商等来说，都是能够大大提升工作效率与效果的工具。

未来的影院、赛场，可能人手一部 iPad，想看哪里点哪里。

项目主页：

https://zju3dv.github.io/neuralbody/

做出电影级的 CG 渲染！斯坦福大学研究人员提出神经光图渲染

新智元报道来源:unite ai 编辑:yaxin [新智元导读]近日,斯坦福研究人员发表的一篇论文中,对现有的2个数量级图像进行了改进,展示了通过机器学习管道实现实时CG渲染的几个步骤. ...
Photoshop 2022下载

Photoshop 2022新版本,Adobe Inc.旗下知名软件Photoshop系列推出了全新的2022版本,Photoshop 2022在原来的基础上新增了一系列实用功能,可以满足用户的不同图 ...
浙大三维视觉团队攻克3D动态人体视图合成难题

回想一下你曾经玩过的 3D 游戏:游戏场景可随鼠标前后左右任意角度移动,玩家也可获得完全沉浸式的体验感受. 与此相同,假如未来 3D 观球方式普及,你也可以用手指移动任意角度,清楚地观看球赛中的扣篮和 ...
ICCV 2021 | 字节跳动利用单幅图片做三维重建！将NeRF、MPI结合，提出MINE新工作

转载自:机器之心 | 字节跳动视觉技术团队来自字节跳动视觉技术团队的研究者将 NeRF 和 Multiplane Image(MPI)结合,提出了一种新的三维空间表达方式 MINE.该方法通过对单 ...
Transformer拿下CV顶会大奖，微软亚研获ICCV 2021最佳论文

机器之心报道机器之心编辑部 ICCV 2021 全部奖项已经公布,来自微软亚洲研究院的研究者获得 ICCV 2021 马尔奖(最佳论文):最佳学生论文奖由苏黎世联邦理工学院.微软研究者获得. 10 ...
CVPR 2021 Oral｜只用静态图像，就能实时渲染出丝滑3D效果

作者丨鱼羊来源丨量子位编辑丨极市平台极市导读入选CVPR2021 Oral,NeX的AI,能直接把每秒渲染帧数从0.02帧提升到60帧,渲染速度比NeRF要快1000倍以上. 这般丝滑的美食展 ...
ICCV 2021 | 牛津&香港理工提出GRF：用于三维表征和渲染的通用神经辐射场

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 210篇原创内容公众号作者:Bo ...
IBRNet：学习多视图图像渲染

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
nerf this是什么梗

最佳答案:v. (汽车比赛中)冲撞别的车n. (Nerf) (美.瑞典.法)内尔夫(人名)短语:1.NERF Hoops 轻弹篮球 ; 内尔夫篮球2.nerf ulnaire 尺神经3.nerf ra ...
数字人黑科技AD

你准备好迎接与数字人共生的赛博朋克世界了吗? 机器之心专栏作者:高天虹作为构建未来虚拟世界诸多应用的主干,如何创造栩栩如生的虚拟数字人,一直是计算机视觉.计算机图形学与多媒体等人工智能相关学科密切 ...
这个AI能帮你女朋友自拍：从照片生成3D视频，总有个角度让她满意

爱自拍的女生,为了拍一张美照总是需要很久,就是为了找到最美的角度. 比如这位妹子,在自己的书架前拍了4张自拍照,都不太满意. 现在可以把选最美角度这件事交给AI了,让妹子不再苦恼.只要几张照片,它能从 ...
[文字稿]大数据项目如何成功交付？—从数据架构视角看大数据项目

参照中研普华产业研究院发布的<中国大数据产业市场规模预测>,2019年到2023年将是大数据产业市场高速发展的5年.伴随着大数据产业的快速发展,大数据的产品或客户项目的成功交付也显得越来越 ...
【科普】写给nerf新人的入门指南（3）之热火“黑话”

本帖最后由 kogec 于 2021-2-6 11:31 编辑哎对,还是我,每天水一帖昨天发现很多萌新对老人的"黑话"不是很熟悉,那这一期就来做一个第三方与小作坊的大图鉴罢先 ...
谷歌发布光场技术平台，VR视频和全景视频到底有什么区别

谷歌一直坚信虚拟现实身临其境的力量,但要创建最为逼真的临场感,在VR中展示的内容需要尽可能接近看到的内容. 光场是一种先进的捕捉,拼接和渲染算法.通过为静态捕捉图像生成运动视差和非常逼真的纹理和光照, ...

浙大团队发表3D视图合成新方法，效果远超NeRF、NV

相关推荐