Nature：手机1秒生成3D全息图；MIT团队新作，索尼投钱支持

萧箫发自凹非寺
量子位报道 | 公众号 QbitAI

一张图片的焦距，能在老鼠玩具和日历尺之间自由切换：

甚至能完成图片上任一物体的对焦，呈现出不同物体在不同深度时的照片：

这张具有神奇魔力的图片，就是集成了“全部物体信息”的全息图。

生成这类全息图，往往需要大量计算才能完成。

然而，来自MIT的团队开发了一种新算法，不需要复杂仪器、也不需要等几个小时，生成这样一张全息图，只需要在智能手机上耗费不到1秒的时间。

要知道，就在去年11月份，三星的科学家们生成3D全息视频所用的处理器，尺寸还是太大，没能整合到手机上：

那么，这种快速生成3D全息图的方法，究竟是怎么做到的？

用神经网络快速“切蛋糕”

首先，全息图是什么？

举个例子，visa信用卡上的鸽子，就利用了全息图来做防伪标志。

全息图即“全部的信息”，这种图片包含物体的幅度和相位信息。

普通照相机，拍摄出来的照片只包含物体的幅度信息（亮暗），相位信息（远近）却无法直接保存。

这也是为什么，我们平时看见的2D照片“没有立体感”。

此前，计算机要想360°全方位生成全息图，通常得从多个角度进行干涉、衍射，再将相位信息拼合起来，与振幅信息叠加后生成图片。

多角度生成相位信息，就像是在一个球形蛋糕上精准地切割8刀，将之分成8块，对每块进行相位重现：

然而，这种方法所需要的计算量往往巨大，耗时很久，完全无法在智能手机上运行。

因此，MIT团队思考，能不能采用深度学习的方法，只通过3个角度，就把“蛋糕”分成8块，来生成全息图？

他们精挑细选出了4000张包含幅度、相位信息的图像，以及这些图像对应的3D全息图，用来训练神经网络。

整体思路大致如下：获取物体的相位信息后，生成点云，再结合残差神经网络，生成整体的全息图。

那么，这种全息图的效果如何呢？

可对焦任意物体，内存占用不到1MB

事实证明，利用神经网络进行预测，只需要不到640KB的内存就能生成全息图。

如果在消费级GPU上，这种神经网络模型，每秒能生成60张分辨率为1080p的彩色3D全息图。

而在智能手机如iPhone 11 Pro上，每秒能生成1.1张全息图；至于Google Edge TPU上，每秒则能生成2张全息图。

以动画角色大雄兔（Big Buck Bunny）为例，右下角是它的深度图。

从图中可见，利用神经网络（右）生成的全息图像，几乎和用原有方法（左）生成的全息图像一模一样。

而且，无论是远处的小黄花，还是近处的兔子眼睛，都能完美对焦。

表面上看起来是一样的话，具体到幅度和相位信息上如何呢？

从图中可见，利用神经网络预测的幅度和相位信息，也与真实值非常接近。

即使是现实中的照片，也与实际生成目标非常接近了。

当然，从细节来看的话，还是略微有一点差距。

相比于现有的VR和AR方案，3D全息图是3D可视化的另一个实现方案。

但在使用VR的时候，用户实际上是盯着2D显示屏，产生3D错觉，因此可能会产生视觉疲劳、头晕等症状。

而3D全息图则允许眼睛调整焦距，即交替地对前景和背景进行聚焦，能有效缓解这种症状。

下一步，团队计划添加眼球追踪技术，让用户的眼睛看向哪里，哪里就生成部分高清全息图。

在这种方案下，计算机只需要部分生成全息图，实时运用下，效果也能更快更好。

以及，索尼赞助了这项研究，所以……

作者介绍

论文一作史亮，2014年毕业于北航，硕士毕业于斯坦福，目前于MIT就读博士，研究方向包括VR/AR，以及机器学习和计算机图形学。

论文二作李北辰，2018年毕业于清华大学，目前于MIT就读博士，研究方向是机器学习在计算机图形学中的应用。

论文地址：
https://www.nature.com/articles/s41586-020-03152-0.pdf

参考链接：
[1]https://spectrum.ieee.org/tech-talk/computing/software/realtime-hologram
[2]https://www.linkedin.com/in/beichen-li-ba9b34106/
[3]https://people.csail.mit.edu/liangs/

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近3000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~