麻省理工最新《Nature》:实现实时逼真的3D全息!

以持续的深度感知呈现三维(3D)场景的能力,对虚拟现实和增强现实、人机交互、教育和培训等都有着深远的影响。计算机生成全息术(CGH),通过对衍射和干涉的数值模拟实现了高空间角度分辨率的三维投影。然而,现有的基于物理的方法,无法产生具有逐像素焦距控制和精确遮挡的全息图。计算费力的菲涅耳衍射模拟进一步明确了图像质量和运行时间之间的平衡,使动态全息术变得不切实际。
近日,来自美国麻省理工学院的Liang Shi &Wojciech Matusik等研究者,展示了一种基于深度学习的CGH管道,该管道能够从单一RGB深度图像,实时合成逼真的彩色3D全息图。相关论文以题为“Towards real-time photorealistic 3D holography with deep neuralnetworks”发表在最新一期Nature上。
论文链接:
https://www.nature.com/articles/s41586-020-03152-0
全息术是将光场编码为相位和振幅变化的干涉图的过程。在适当的光照条件下,全息图将入射光衍射成原始光场的精确再现,从而逼真地再现已记录的三维物体。重建的三维场景,具有精确的单目和双目深度线索,这是传统显示技术,难以同时实现的。然而,如何高效、实时地创建逼真的计算机生成全息图(CGHs),仍然是计算物理学中一个尚未解决的挑战。主要的挑战,是对连续三维空间中每个物体点,进行菲涅耳衍射模拟所需的巨大计算成本。
有效的菲涅耳衍射模拟,可用物理精度,来交换计算速度来解决。研究者引入了诸如,基于预先计算的元素条纹查表、多层深度离散化、全息立体图、波前记录平面(或者中间射线采样平面)和水平/垂直视差建模的手工数值逼近等,但代价是图像质量的破损。随着图形处理单元(GPU)计算的快速发展,非近似点基方法(PBM),最近产生了彩色和纹理场景,使逐像素焦距控制的速度为每秒一帧。
然而,PBM对每个场景点独立地模拟菲涅耳衍射,因此没有建模遮挡。这阻碍了对复杂3D场景的精确再现,因为没有遮挡背景前景将严重受到清晰伪影的污染。光场渲染部分解决了遮挡的缺乏。然而,这种方法会导致大量的渲染和数据存储开销,并且遮挡只能在,整个全息图的一小部分(全息元素)内精确。在菲涅耳衍射模拟中添加逐射线可见性测试较好地解决了这个问题,然而额外的开销的遮挡测试,访问邻近点和条件分支减慢了计算速度。这种质量-速度的权衡,是所有现有基于物理的方法所共有的特点,从根本上限制了动态全息显示器的实际应用。
在此,研究者用一种物理学引导的深度学习方法解决了上述难题,这种方法被称为张量全息术。张量全息避免了菲涅耳衍射和遮挡的显式近似,但利用基础物理训练卷积神经网络(CNN)作为两者的有效代理。研究者的卷积神经网络(CNN)具有极高的内存效率(低于620千字节),在单个消费级图形处理单元上以60Hz的速度运行,分辨率为1920×1080像素。利用低功耗的设备上人工智能加速芯片,研究者的CNN,还可以在移动设备(1.1Hz的iPhone 11 Pro)和edge(2.0 Hz的谷歌edge TPU)设备上交互运行,在未来的虚拟现实,和增强现实移动耳机的实时性能方面,有很大的前景。
研究者通过引入包含4000对RGB深度图像,和相应3D全息图的大规模CGH数据集(MIT-CGH-4K),来实现以上管道。研究者的CNN,用可微的基于波的损失函数训练,物理上近似菲涅耳衍射。通过一种抗混叠的纯相位编码方法,研究者成功展示了无斑点、自然外观、高分辨率的3D全息图。
图1 从RGB-D图像中学习菲涅耳全息图的张量全息工作流程。
图2 OA-PBM和张量全息CNN的性能评价。
图3 2D和3D全息投影的实验演示。
综上,研究者的结果证实了,使用CNN从单个RGB-D图像,合成实时、逼真的3D CGH的过程,这一任务传统上,被认为超出了现有计算设备的能力。以上研究者基于学习的方法,和菲涅耳全息图数据集,将有助于释放全息术的全部潜力,并使超表面设计、基于光学和声学镊子的显微操作、全息显微镜和单曝光体积3D打印等应用,成为可能。(文:水生)
(0)

相关推荐