多尺度表征10亿像素图像,斯坦福神经场景表征新方法入选SIGGRAPH
机器之心报道
编辑:维度、陈萍
多尺度、全方位地表征 10 亿 像素级别的图像以及缠结浮雕等复杂 3D 场景!斯坦福大学近日提出了用于神经场景表征的新型自适应坐标网络,不仅细节表征突出,还节省了大量的计算和时间成本。在表征 3D 形状时,训练时间可以从几天缩减至几小时,内存需求也至少降低了一个数量级。
当前,神经表征已经成为渲染、成像、几何建模和模拟应用的一种新范式。与网格、点云和体积网格等传统表征相比,神经表征可以灵活地合并入可微分、基于学习的 pipeline。神经表征近来的进展实现了在中等分辨率下表征具有丰富细节的信号,比如图像和 3D 形状,但充分地表征大尺度或复杂场景依然是一个挑战。
现有的神经表征无法准确地表征分辨率大于百万像素的图像或者数十万个多边形组成的 3D 场景。
斯坦福大学近日的一项研究给出了解决方案,他们提出了一种新的隐式 - 显式混合网络架构和相应训练策略,可以在训练和推理过程中根据信号的局部复杂度来自适应地分配资源。他们将这种用于神经场景表征的自适应坐标网络( Adaptive coordinate network )简称为 Acorn。
该方法中采用了类似于四叉树或八叉树的多尺度块坐标分解(multiscale block-coordinate decomposition),该分解在训练过程中进行细化。具体地,网络架构分为两个阶段:其一坐标编码器使用大量网络参数在单个正向传递中生成网格特征;其二每个块中数百或数千个样本通过轻量级特征解码器进行高效地评估。
项目主页:
https://www.computationalimaging.org/publications/acorn/
论文地址:
https://arxiv.org/pdf/2105.02788.pdf
利用这种混合的隐式 - 显式网络架构,研究者首次展示了将 10 亿像素图像拟合到接近 40dB 峰值信噪比。值得注意的是,与以往图像拟合实验中展示的分辨率相比,这一数据代表了 1000 多倍的尺度增加。此外,研究者的方法能够较以往更快且更好地表征 3D 形状,将训练时间从几天缩减至几小时或几分钟,内存需求也至少降低了一个数量级。
Acorn 的实际表征效果如下几个动图所示,首先是 10 亿像素的 2D 东京城市图像:
其次是 3D 浮雕的重建展示效果:
多尺度坐标网络
研究者提出的多尺度表征网络包含两个主要组件,即多尺度块参数化(基于局部信号复杂度划分输入空间)以及由坐标编码器和特征解码器组成的网络架构(负责将输入空间和尺度坐标高效地映射至输出值)。
多尺度块参数化
多尺度块参数化的核心是输入域的树分区(tree-based partition)。具体来讲,研究者使用二维四叉树或三维八叉树来划分域,并确定树的最佳尺度和最大深度,具体如下图 3 所示:
传统多尺度分解方法中,输入域的每个值在多尺度上进行表征,比如图像金字塔( image pyramid)中的每个像素。与之不同,本研究的方法划分空间以在单尺度上表征每个输入值。
神经网络架构
多尺度表征网络的坐标编码器定义如下:
给定一个连续的局部坐标 X_1,特征向量提取如下:
这种两阶段架构的一个关键优势是:极大地降低了相同块中评估多个坐标的计算开销。另一优势是:由于特征网络在跨空间位置和尺度上可以在具有重复结构的信号中重复使用,因而有可能提升网络性能。
在线多尺度分解
研究者提出了新的自动分解方法能够自适应地分配网络资源以拟合感兴趣的信号,并且受到了模拟技术中自适应网格细化方法和有限单元求解器的启发。这些有限单元求解器在优化过程中进行细化或粗化处理,从而在最小化计算开销的同时提升求解准确率。
剪枝
为了在多尺度网络中不为整个区域学习相同的值,研究者从分区中对块进行剪枝,直到块不能被进一步分解,并且它的值在查表(look-up table)中设置。并且,由于块不再活跃,分区中的空间可以通过松弛公式(8)中的限制来释放。
至于是否确定要对块 B_i 进行剪枝,研究者发现,在实际操作中,满足以下两个条件可以运行良好:低误差和低方差。
表征 10 亿像素图像
研究者首先评估了 Acorn 表征 10 亿像素图像的表现。以往的神经图像表征方法将分辨率限制在了百万像素以下,本研究则选择了 6400 万像素和 10 亿像素,远远超越了以往方法。
具体而言,他们通过拟合两张大尺度图像来展示 Acorn 的性能。如下图 2 所示,第一张是新视野号太空探测器拍摄的冥王星图像,它的分辨率为 8,192×8,192,并具有不同尺度下的特征,因而是多尺度表征的理想实验对象。
结果表明,利用本研究资源分配策略优化的自适应网格能够使用明显更小的块来表征丰富的细节,以火山口为例,空阔且大面积的均匀区域可以在更小的尺度下得到表征。
第二张是 10 亿像素分辨率为 19,456×51,200 的东京城市图像,比最近神经图像表征使用图像的分辨率高约三个数量级。
同样地,研究者捕捉到了图像在不同尺度下的丰富细节。
总的来说,Acorn 可以进行缩放以灵活地表征大规模 2D 图像,在训练速度、性能以及任务整体适用性方面均带来了显著提升。
表征复杂 3D 场景
除了 2D 图像,本研究提出的多尺度表征还可以很好地泛化至复杂 3D 场景的表征中。
如下图 5 所示,与 Conv. Occ.、SIREN 等以往方法相比,Acorn 能够更加准确地表征复杂形状。从定性角度来讲,Acorn 在表征丰富细节方面比这些方法更加强大,比如缠结的浮雕和紧密纠缠的弹簧;从定量角度来讲,Acorn 在体积容量和网格准确率两项指标上均优于所有基准方法。
最后,与以往神经表征方法相比,Acorn 在计算效率方面也有显著提升。通过在采样点中共享计算,该方法显著降低了训练和查询模型所需的内存和时间开销。