双目立体放大!谷歌刚刚开源的这篇论文可能会成为手机双摄的新玩法
摄像头和计算机视觉技术已经成为智能手机技术创新的重要战场。
苹果上个月发布的iPhone XS中计算机视觉技术可谓其重要亮点(详见:iPhone Xs发布会其实是苹果计算机视觉技术发布会!),昨天谷歌刚刚开源的SIGGRAPH 2018会议论文《Stereo Magnification: Learning view synthesis using multiplane images》的代码则又把手机双摄玩出了新花样。
作者信息
文中提出了一种叫“立体放大”(Stereo Magnification)的新技术,使用深度神经网络学习并构建双目立体相机拍摄的两幅图像的多平面图像表示(multiplane images),然后基于此合成立体感更明显的立体图像。
先来看看谷歌发布的视频,直观感受下(强烈推荐横屏全屏观看,效果更加明显):
可以看到,这个所谓的立体放大技术即将基线距较近的双目相机拍摄的两幅图像,转换成看来起是基线距较远的双目相机拍摄的图像!
请看这幅图:
图中下面两幅子图中轮胎和转盘处明显比上面两幅图视差更加明显,立体感更强!其将基线距1.4cm的手机双目相机拍摄的图像转化成基线距6.3cm的立体图像。
为什么要6.3cm?因为大部分人类左右眼的距离是6.3cm左右,基线距6.3cm拍摄的立体图像可以直接显示到虚拟现实头盔中,使用户能感受更接近真实场景的视觉体验。
这里面的关键问题是,视图外差值(views extrapolating)。一般的视图差值只能是内差值(views interpolating),即基线距D的立体双目相机拍摄的图像只能合成基线距小于D的图像,论文中提到的视图外差值则是要通过深度神经网络分解立体图像成多平面图像,再合成外差值后的新立体视图。
请看下图:
图像被分解为多个具有固定深度的RGBA图层,有了这些具有不同深度的图层,就可以像移动相机一样合成外差值视图,即实现了“立体放大”。
算法流程示意图:
训练这个神经网络,需要大量场景静止的立体图像对,作者发现YouTube上地产公司拍摄的房屋展示视频极好的满足了需求,通过将视频截取片段并后处理得到了大量训练图像(果然是房产兴邦啊!)。具体过程可以看论文。
论文中给出了一些结果图示例,不过人眼对静止的视差不敏感,还是视频中更具说服力。
是不是很黑的黑科技?你认为这个技术会成为未来手机双摄的标配吗?欢迎留言。
工程主页:
https://people.eecs.berkeley.edu/~tinghuiz/projects/mpi/
代码地址:
https://github.com/google/stereo-magnification
长按关注我爱计算机视觉
【点赞与转发】就是一种鼓励