SIGGRAPH 2021丨OPPO与南大提出双流网络：仅输入单张图片，就能“看”出物体材质 / 四六文摘

OPPO

为了解决双向反射分布函数 (SVBRDF)提取过程中所遇到的纹理、高光、阴影问题，南京大学计算机软件新技术国家重点实验室的过洁博士等多位专家学者和OPPO软工多媒体与智慧开发部高级算法工程师王磊共同提出了一种深度学习方法，可从单个随意捕获的图像中生成解缠结的 SVBRDF 映射。凭借其高效、灵活的特质，该研究的论文Highlight-aware Two-stream Network for Single-image SVBRDF Acquisition（《用于单帧图像 SVBRDF 估计的高光感知双流网络》）已被计算机图形学顶级国际学术会议 ACM SIGGRAPH 2021 接收。SIGGRAPH是全球影响最广、规模最大、最权威的计算机图形学会议，每年全球仅130篇左右论文入选。

让计算机产生令人赏心悦目的图片，创造出和真实世界一致的虚拟世界，一直是计算机图形学研究人员追求的目标。

受限于传统方法在处理大规模几何、复杂材质以及特殊光照方面的局限性，计算机还无法达到“以假乱真”的程度。因此，研究人员需要新的探索方向，提高计算机的图形渲染能力。

在OPPO 和南京大学合作的题为“Highlight-Aware Two-Stream Network for Single-Image SVBRDF Acquisition”的论文中，研究员们从深度学习出发，用神经网络结合大量数据，尝试在未知的空间变化情况下，完成平面材质的外观建模。论文中的方法仅采用了单张图片作为输入，不需要相机参数和光源参数，就能输出高质量材质参数。

图形学和深度学习的融合

在虚拟三维场景内容创建过程中，材质的高质量重建向来是一个复杂耗时的工作。传统的材质重建方法通常需要依赖特殊的设备、受过专业训练的技术员以及长时间的拍摄。

而OPPO和南京大学合力设计的双流网络，只需要消费级别的相机（手机等），并且只需要拍摄一张图片，即可由非专业人员重建出高质量的材质参数。

其中，双流网络以HA卷积为基础，其中HA卷积的作用是：在过度曝光的图像区域填补缺失内容；因此，双流网络可以充分利用图像的有用特征，促进材质属性的解缠学习。这也正是本篇论文的关键性创新。

以下是详细介绍：

本文的任务

让计算机感知真实环境中真实物体的材质。

材质用使用空间变化的表面函数表示，即SVBRDF（Spatially Varying Bidirectional Reflectance Distribution Function ），研究人员进一步简化为漫反射（diffuse）、法向（normal）、粗糙度（roughness）、高光（specular）。

模型架构

双流网络（Two-Stream）包含三个方面，HA卷积、AFS（An attention-based feature selection ）以及FU-Branch。

HA卷积受gated convolution的设计启发，旨在当图片被高光污染时，对高光区域的细节进行恢复；

Two-Stream中两个独立分支的双流网络：HA-Branch和ST-Branch，主要用于特征提取。还能改善简单地堆叠HA卷积产生的问题，即产生过度模糊的法线和有偏的镜面分量；

AFS借鉴了Channel Attention的思想，针对SVBRDF的不同材质贴图的恢复，能够从HA-Branch和ST-Branch中侧重提取不同的特征。

FU-Branch的作用是融合提取的特征，并在设计上采用四个独立网络，能够分别重建材质的漫反射diffuse、法向normal、粗糙度roughness、高光specular。

解决的难点

1.如何解决图像过曝问题？

由于过曝区域无法估计，采用让网络自学习判别过曝区域，并修复。

2.如何解决模型过拟合？

训练数据集包含18万张图片，可以比较好地避免过拟合的问题。

由于材质估计是具有二义性的，即不同的SVBRDF 也有可能生成一样的材质图，所以研究人员训练loss中包含render loss ，即估计的材质贴图与ground truth 在同样的光照条件下渲染出材质图做L1 loss。这样即表示不那么强调材质贴图的完全一致，可以有效缓解过拟合问题。

3.如何解决diffuse 和specular 贴图的解缠效果差？

使用多解码器以及其中的AFS模块，多解码器是为了让每个解码器可以在high level 特征提取时就通过AFS 模块着重提取对应的贴图需要的特征，以达到解缠目的。

模型介绍

HA卷积

HA卷积框架图

HA卷积有两个卷积层，第一个卷积旨在识别特征图X𝑙中潜在的过度曝光的高光区域。第二次卷积可以采用任何激活函数，可以从有效内容中提取特征。

此外，研究员将IN（Instance Normalization）加入，目的是去除材质图的阴影。虽然IN的存在能够稳定网络训练，但它未能保持关于输入图像的非局部信息。为此，研究员在HA卷积中增加了一个inception block。其有两个轨道，轨道1包含3x3的卷积，轨道2包含两个3x3的卷积。

定义inception block学习的映射为p，因此HA卷积的完整表公式为：

双流网络

双流网络

在HA卷积的基础上，研究员们设计了用单张图片重建SVBRDF的双流网络。如上图所示，其有两个独立的分支HA-Branch 和 ST-Branch组成，作用是特征提取。FU-Branch有四个，每个都具有相同的结构，其作用是融合HA和ST提取的特征，并做最后的材质参数估计。D_G和D_L分别代表全局判别器和局部判别器。

AFS框架图

其中，双流网络中的基于注意力的特征选择(AFS)模块，由全局平均池化（GAP）和多层感知器（MLP）组成。

损失函数

双流网络通过联合损失函数进行训练，其有三部分组成：用L1计算得到的重建材质映射损失L_map；基于L1在9个新渲染图得到的L_render，以及对抗损失L_adv。不同于传统损失函数，联合损失函数经过了对抗训练。

性能评估&分析

通过在各种可用的数据集上进行定性和定量实验，研究员们验证了模型捕获SVBRDF的性能。尤其是在高光图片数据集上进行了验证。

Adobe Stock数据集中的一个示例。

定性来看，“ours”效果做好。

在合成数据上实验结果显示，HA卷积能够通过学习掩码（masks），在大量数据训练加持下，对卷积核不断更新权重，直到网络收敛。如此能有效克服对初始化的依赖，并且用合理的内容填充缺失区域。

黑色加粗处为最佳分数

为了进一步验证方法的有效性，研究员们对重建的材质图和新的渲染图进行了定量分析。结果如上表所示，论文中的变种模型在各个参数的“捕获”中获得了最佳分数。

各模型在真实样本上的表现

在真实样本上表现如何？研究员们选了四张照片，这四张照片是通过开启闪光灯的手机相机拍摄的，储存格式为LDR，每一张都有高光，都会考验模型能否分辨“有歧义”的饱和像素。上图展示的是一张图片的实验结果，RAND方法diffuse 和specular 贴图的解缠效果不好，DIR方法依赖相机参数。而OPPO和南大研究员提出的方法，由于采用四个独立的解码器和对抗性训练策略，因此在从一幅输入图像中提取不同的材质属性方面取得了相当大的成功。

单图方法和多图方法的效果对比

虽然只使用一幅输入图像，但有时可以达到与基于多图像的方法相当的性能。如上图所示，虽然一幅图像中包含的信息不够充分，但研究员们仍达到了与MaterialGAN相似的效果。另外，雪花恢复光泽（左）、卡通图像更加饱和（右）都说明了该方法的解缠效果。

高分辨率下的测试

由于双流网络是全卷积，因此任意分辨率的图像可以直接送入网络，而且不需要任何再训练。如上图所示，在1024×1024高分辨率下的测试结果：如果高光区域较小，重建的高分辨率材质图的质量足以匹敌真实图像。此外，缺失的细节也被补全了。

结束语

深度学习为解决传统的图形学相关问题带来新的机遇。OPPO的研究员们认为，深度学习可以很方便地处理传统图形问题中的高维度和多模态数据，以及提升传统算法的性能和鲁棒性。

具体在这篇论文中，完成材质估计，传统的方法需要依赖昂贵的设备和专业的人员，但是深度学习所带来的智能化操作使得普通用户也能完成材质估计这个任务。

这篇论文是OPPO在对真实环境的理解以及AR虚实融合等方面持续深耕的充分体现，代表在材质估计领域，OPPO已经走在了世界研究水平的前列。接下来，该技术将用于元宇宙、物体重建等领域，帮助打造更具真实感、更丰富的3D场景，OPPO也正在计划将该技术通过ARUnit开放给OPPO开发者使用。

OPPO始终关注对新技术的长期探索及应用转化，以期帮助产品和服务提升用户体验，这一技术的开发和开放也是OPPO品牌信仰“科技为人，以善天下”的良好诠释。

特邀作者：越山，资深技术媒体人

SIGGRAPH 2021丨OPPO与南大提出双流网络：仅输入单张图片，就能“看”出物体材质

相关推荐