多尺度表征10亿像素图像，斯坦福神经场景表征新方法入选SIGGRAPH

2024-08-01 08:17:02

机器之心报道

编辑：维度、陈萍

多尺度、全方位地表征 10 亿像素级别的图像以及缠结浮雕等复杂 3D 场景！斯坦福大学近日提出了用于神经场景表征的新型自适应坐标网络，不仅细节表征突出，还节省了大量的计算和时间成本。在表征 3D 形状时，训练时间可以从几天缩减至几小时，内存需求也至少降低了一个数量级。

当前，神经表征已经成为渲染、成像、几何建模和模拟应用的一种新范式。与网格、点云和体积网格等传统表征相比，神经表征可以灵活地合并入可微分、基于学习的 pipeline。神经表征近来的进展实现了在中等分辨率下表征具有丰富细节的信号，比如图像和 3D 形状，但充分地表征大尺度或复杂场景依然是一个挑战。

现有的神经表征无法准确地表征分辨率大于百万像素的图像或者数十万个多边形组成的 3D 场景。

斯坦福大学近日的一项研究给出了解决方案，他们提出了一种新的隐式 - 显式混合网络架构和相应训练策略，可以在训练和推理过程中根据信号的局部复杂度来自适应地分配资源。他们将这种用于神经场景表征的自适应坐标网络（ Adaptive coordinate network ）简称为 Acorn。

该方法中采用了类似于四叉树或八叉树的多尺度块坐标分解（multiscale block-coordinate decomposition），该分解在训练过程中进行细化。具体地，网络架构分为两个阶段：其一坐标编码器使用大量网络参数在单个正向传递中生成网格特征；其二每个块中数百或数千个样本通过轻量级特征解码器进行高效地评估。

项目主页：
https://www.computationalimaging.org/publications/acorn/

论文地址：
https://arxiv.org/pdf/2105.02788.pdf

利用这种混合的隐式 - 显式网络架构，研究者首次展示了将 10 亿像素图像拟合到接近 40dB 峰值信噪比。值得注意的是，与以往图像拟合实验中展示的分辨率相比，这一数据代表了 1000 多倍的尺度增加。此外，研究者的方法能够较以往更快且更好地表征 3D 形状，将训练时间从几天缩减至几小时或几分钟，内存需求也至少降低了一个数量级。

Acorn 的实际表征效果如下几个动图所示，首先是 10 亿像素的 2D 东京城市图像：

其次是 3D 浮雕的重建展示效果：

‍

多尺度坐标网络

研究者提出的多尺度表征网络包含两个主要组件，即多尺度块参数化（基于局部信号复杂度划分输入空间）以及由坐标编码器和特征解码器组成的网络架构（负责将输入空间和尺度坐标高效地映射至输出值）。

多尺度块参数化

多尺度块参数化的核心是输入域的树分区（tree-based partition）。具体来讲，研究者使用二维四叉树或三维八叉树来划分域，并确定树的最佳尺度和最大深度，具体如下图 3 所示：

传统多尺度分解方法中，输入域的每个值在多尺度上进行表征，比如图像金字塔（ image pyramid）中的每个像素。与之不同，本研究的方法划分空间以在单尺度上表征每个输入值。

神经网络架构

多尺度表征网络的坐标编码器定义如下：

给定一个连续的局部坐标 X_1，特征向量提取如下：

这种两阶段架构的一个关键优势是：极大地降低了相同块中评估多个坐标的计算开销。另一优势是：由于特征网络在跨空间位置和尺度上可以在具有重复结构的信号中重复使用，因而有可能提升网络性能。

在线多尺度分解

研究者提出了新的自动分解方法能够自适应地分配网络资源以拟合感兴趣的信号，并且受到了模拟技术中自适应网格细化方法和有限单元求解器的启发。这些有限单元求解器在优化过程中进行细化或粗化处理，从而在最小化计算开销的同时提升求解准确率。

剪枝

为了在多尺度网络中不为整个区域学习相同的值，研究者从分区中对块进行剪枝，直到块不能被进一步分解，并且它的值在查表（look-up table）中设置。并且，由于块不再活跃，分区中的空间可以通过松弛公式（8）中的限制来释放。

至于是否确定要对块 B_i 进行剪枝，研究者发现，在实际操作中，满足以下两个条件可以运行良好：低误差和低方差。

表征 10 亿像素图像

研究者首先评估了 Acorn 表征 10 亿像素图像的表现。以往的神经图像表征方法将分辨率限制在了百万像素以下，本研究则选择了 6400 万像素和 10 亿像素，远远超越了以往方法。

具体而言，他们通过拟合两张大尺度图像来展示 Acorn 的性能。如下图 2 所示，第一张是新视野号太空探测器拍摄的冥王星图像，它的分辨率为 8,192×8,192，并具有不同尺度下的特征，因而是多尺度表征的理想实验对象。

结果表明，利用本研究资源分配策略优化的自适应网格能够使用明显更小的块来表征丰富的细节，以火山口为例，空阔且大面积的均匀区域可以在更小的尺度下得到表征。

第二张是 10 亿像素分辨率为 19,456×51,200 的东京城市图像，比最近神经图像表征使用图像的分辨率高约三个数量级。

同样地，研究者捕捉到了图像在不同尺度下的丰富细节。

总的来说，Acorn 可以进行缩放以灵活地表征大规模 2D 图像，在训练速度、性能以及任务整体适用性方面均带来了显著提升。

表征复杂 3D 场景

除了 2D 图像，本研究提出的多尺度表征还可以很好地泛化至复杂 3D 场景的表征中。

如下图 5 所示，与 Conv. Occ.、SIREN 等以往方法相比，Acorn 能够更加准确地表征复杂形状。从定性角度来讲，Acorn 在表征丰富细节方面比这些方法更加强大，比如缠结的浮雕和紧密纠缠的弹簧；从定量角度来讲，Acorn 在体积容量和网格准确率两项指标上均优于所有基准方法。

最后，与以往神经表征方法相比，Acorn 在计算效率方面也有显著提升。通过在采样点中共享计算，该方法显著降低了训练和查询模型所需的内存和时间开销。

网络神经科学中模型的性质和使用

一个多世纪以前,卡米洛·高尔基使用浸在硝酸银中的脑组织团块,提供了对于错综复杂的神经细胞形态至今为止最早和最详尽的描述之一.圣地亚哥·拉蒙·卡哈尔随后将这种技术和光学显微镜以及其艺术家的眼光相结合,画 ...
模型跨界成潮流OpenAI用GPT

参与:魔王.杜伟.小舟图像领域的GPT模型终于来了!OpenAI推出了用于图像分类的模型iGPT,该模型生成的特征在多个分类数据集上实现了当前SOTA性能,并且实现了良好的图像补全效果. 无监督和自 ...
【检测表征】扫描电镜在材料微纳米尺度结构表征中的应用

随着当代材料从宏观尺度发展到纳米尺度,其对复杂的显微镜技术的需求也急剧增加.扫描电子显微镜(SEM)被认为是科学研究中最通用.功能最强大的工具之一,因为与光学显微镜相比,它具有更高的空间分辨率(高放大 ...
用于图像分割的深度学习架构

基于人工智能和深度学习方法的现代计算机视觉技术在过去10年里取得了显著进展.如今,它被用于图像分类.人脸识别.图像中物体的识别.视频分析和分类以及机器人和自动驾驶车辆的图像处理等应用上. 现代图像分割 ...
2.3物理学的做极小与极大

我们在先前的内容当中已经讲过最小的尺度planck尺度它只有10的负35次方米我们也讲到最大的尺度可见宇宙的大小,它可以达到10的26次方米我们可以看到它差了60几个量级所以我们在这里可以问大家一 ...
深度神经网络的图像语义分割研究综述

摘要随着深度学习的迅速发展并广泛应用到语义分割领域,语义分割效果得到了显著的提升.本文主要对基于深度神经网络的图像语义分割方法和研究现状进行了详细的综述.根据网络训练方式的不同,将现有的方法分为 ...
【模型解读】“不正经”的卷积神经网络

07 这是深度学习模型解读第7篇,本篇我们将介绍不规则形状的卷积. 言有三毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人作者 | 言有三(微信号:Longlongtogo) 编辑 | ...
卷积神经网络是如何实现不变性特征提取的？

转载于 :OpenCV学堂图像特征传统的图像特征提取(特征工程)主要是基于各种先验模型,通过提取图像关键点.生成描述子特征数据.进行数据匹配或者机器学习方法对特征数据二分类/多分类实现图像的对象检 ...
50万奖金，10亿像素，这个目标检测与跟踪可不简单

近期,中国人工智能学会在阿里云天池平台上发布了首届全球人工智能技术创新大赛,其中一个赛道是在10亿像素的图像视频中进行目标检测与跟踪,总奖池50万人民币,初赛将于3月2日开赛. 随着视频监控的发展,大 ...
中国建免疫屏障或需10亿人打疫苗需加快推进新冠疫苗接种

我国目前正在应接尽接.按梯次,对重点地区.重点人群.重点城市加快推进新冠疫苗接种.截至2021年4月10日24时,全国累计报告接种新冠疫苗16447.1万剂次. 中国疾控中心免疫规划首席专家王华庆表示 ...
月活过10亿，快手能否成为“电商新物种”？

作者/蓝莲花今天下午,快手CEO宿华在一场活动上透露,快手月活用户数(MAU)已经突破10亿.这也意味着,继腾讯.阿里巴巴.字节跳动之后,快手成为第4家MAU突破10亿的中国互联网公司. 而就在前一 ...
1亿像素+无线充电，小米10售价跌破3K，还是那么香甜？

目前为止骁龙888旗舰机开始逐步占据高端市场,这与骁龙888的强悍性能分不开关系.虽然新机的性能强悍,但是售价也并不便宜,所以选购一款老的机型会更加划算.而拥有1亿像素+无线充电的小米10,作为10周 ...
小米拍照旗舰销量不佳，一亿像素是“噱头”还是为小米10铺路？

作为小米科技旗下的拍照旗舰手机系列,小米CC9 Pro系列在国内市场的销量并不是非常优秀:小宅浏览各大电商平台发现,这款机器的销量远不如小米主打"性价比"的Redmi K20 Pr ...
1亿像素摄像头装反了？小米10品控再翻车网络问题比千元机还差？

万众期待的小米2020年首场发布会以线上直播的形式落下帷幕. 小米CEO雷军于发布会上正式公布了最新的旗舰款手机小米10以及高级版本小米10Pro. Pro版本4999元起,货真价实的旗舰级产品价格, ...
小米10至尊纪念版都放弃了一亿像素了，怎么又推出了？

近日,一款型号为M2007J17C的小米新机获得入网许可.博主@数码闲聊站爆料,这款小米新机代号为Gauguin,主摄为一亿像素(108MP),这将是小米最便宜的一亿像素手机.从爆料来看,这款一亿像素 ...
机皇华为P40pro方向错了？1亿像素将成旗舰标配，小米10有望翻身

红米总裁卢伟冰与荣耀老熊针对手机像素吵得热火朝天,卢伟冰给荣耀挖了个大坑,老熊就这么跳下去了,老熊刚刚科普完手机像素过高无用论,表示旗舰手机像素5000万左右足够使用,过高追求像素无用,三星S20直接 ...
全球最强安卓机皇真的稳了!小米10火力全开:骁龙865+1亿像素相机

众所周知,随着全球智能手机产业的不断发展,在最近几年时间里,国产手机似乎也能逐渐成为全球智能手机行业的领导者,从外观设计.性能配置.拍照.快充等方面,国产手机都有着非常优异的表现,不断地刷新市场定位, ...

多尺度表征10亿像素图像，斯坦福神经场景表征新方法入选SIGGRAPH

相关推荐