萧箫 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

一张图片的焦距,能在老鼠玩具和日历尺之间自由切换:

甚至能完成图片上任一物体的对焦,呈现出不同物体在不同深度时的照片:

这张具有神奇魔力的图片,就是集成了“全部物体信息”的全息图

生成这类全息图,往往需要大量计算才能完成。

然而,来自MIT的团队开发了一种新算法,不需要复杂仪器、也不需要等几个小时,生成这样一张全息图,只需要在智能手机上耗费不到1秒的时间。

要知道,就在去年11月份,三星的科学家们生成3D全息视频所用的处理器,尺寸还是太大,没能整合到手机上:

那么,这种快速生成3D全息图的方法,究竟是怎么做到的?

用神经网络快速“切蛋糕”

首先,全息图是什么?

举个例子,visa信用卡上的鸽子,就利用了全息图来做防伪标志。

全息图即“全部的信息”,这种图片包含物体的幅度相位信息。

普通照相机,拍摄出来的照片只包含物体的幅度信息(亮暗),相位信息(远近)却无法直接保存。

这也是为什么,我们平时看见的2D照片“没有立体感”

此前,计算机要想360°全方位生成全息图,通常得从多个角度进行干涉、衍射,再将相位信息拼合起来,与振幅信息叠加后生成图片。

多角度生成相位信息,就像是在一个球形蛋糕上精准地切割8刀,将之分成8块,对每块进行相位重现:

然而,这种方法所需要的计算量往往巨大,耗时很久,完全无法在智能手机上运行。

因此,MIT团队思考,能不能采用深度学习的方法,只通过3个角度,就把“蛋糕”分成8块,来生成全息图?

他们精挑细选出了4000张包含幅度、相位信息的图像,以及这些图像对应的3D全息图,用来训练神经网络。

整体思路大致如下:获取物体的相位信息后,生成点云,再结合残差神经网络,生成整体的全息图。

那么,这种全息图的效果如何呢?

可对焦任意物体,内存占用不到1MB

事实证明,利用神经网络进行预测,只需要不到640KB的内存就能生成全息图。

如果在消费级GPU上,这种神经网络模型,每秒能生成60张分辨率为1080p的彩色3D全息图。

而在智能手机如iPhone 11 Pro上,每秒能生成1.1张全息图;至于Google Edge TPU上,每秒则能生成2张全息图。

以动画角色大雄兔(Big Buck Bunny)为例,右下角是它的深度图。

从图中可见,利用神经网络(右)生成的全息图像,几乎和用原有方法(左)生成的全息图像一模一样。

而且,无论是远处的小黄花,还是近处的兔子眼睛,都能完美对焦。

表面上看起来是一样的话,具体到幅度和相位信息上如何呢?

从图中可见,利用神经网络预测的幅度和相位信息,也与真实值非常接近。

即使是现实中的照片,也与实际生成目标非常接近了。

当然,从细节来看的话,还是略微有一点差距。

相比于现有的VR和AR方案,3D全息图是3D可视化的另一个实现方案。

但在使用VR的时候,用户实际上是盯着2D显示屏,产生3D错觉,因此可能会产生视觉疲劳、头晕等症状。

而3D全息图则允许眼睛调整焦距,即交替地对前景和背景进行聚焦,能有效缓解这种症状。

下一步,团队计划添加眼球追踪技术,让用户的眼睛看向哪里,哪里就生成部分高清全息图。

在这种方案下,计算机只需要部分生成全息图,实时运用下,效果也能更快更好。

以及,索尼赞助了这项研究,所以……

作者介绍

论文一作史亮,2014年毕业于北航,硕士毕业于斯坦福,目前于MIT就读博士,研究方向包括VR/AR,以及机器学习和计算机图形学。

论文二作李北辰,2018年毕业于清华大学,目前于MIT就读博士,研究方向是机器学习在计算机图形学中的应用。

论文地址:
https://www.nature.com/articles/s41586-020-03152-0.pdf

参考链接:
[1]https://spectrum.ieee.org/tech-talk/computing/software/realtime-hologram 
[2]https://www.linkedin.com/in/beichen-li-ba9b34106/ 
[3]https://people.csail.mit.edu/liangs/

—  —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

Nature:手机1秒生成3D全息图;MIT团队新作,索尼投钱支持相关推荐

  1. MIT推出3D全息图生成新方法,可在智能手机上实时运行

    本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载 编辑:小舟.陈萍 来自 MIT 的研究者利用深度学习推出了 3D 全息图生成新方法,可以为VR.3D 打印.医学成像 ...

  2. 人体扫描新技术:手机扫描生成3D人体模型

    人体扫描是一种新兴的技术,它可以通过数字化的方式,再现人体的内部结构.这种模型的应用范围广泛,不仅可以应用于医学领域,还可以用于虚拟现实.游戏开发等各个领域.通过人体扫描生成模型,我们可以实时地观察人 ...

  3. #今日论文推荐# 文字秒变3D?苹果发布最新AI生成模型GAUDI,根据文字提示创建3D场景

    #今日论文推荐# 文字秒变3D?苹果发布最新AI生成模型GAUDI,根据文字提示创建3D场景 继 AI 将文字变成图片后,又有 AI 可以将文字变成 3D 场景了. 苹果发布新 AI 系统 GAUDI ...

  4. 黑鲨手机计算机科学技术器,手机秒变3D 黑鲨科技与康得新共推裸眼3D神奇“膜”法...

    2018年10月10日,康得新与黑鲨科技就裸眼3D领域合作在北京签署战略协议,黑鲨科技联合创始人.高级副总裁罗语周,康得新智能显示移动运营平台总裁高峻出席了签约仪式. 据了解,中国高分子材料知名企业康 ...

  5. Goolge新AI算法实时生成3D场景 | 可下载

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 3D模型又有新玩法,Goolge的新AI算法实时生成3D场景!对于3D.AR/VR来说,三维重建.模型 ...

  6. GAN能生成3D图像啦!朱俊彦团队公布最新研究成果

    晓查 发自 凹非寺 量子位 出品 | 公众号 QbitAI GAN现在可以合成3D图像了! 最近,MIT计算机科学与AI实验室的朱俊彦团队,发表了一篇论文<Visual Object Netwo ...

  7. 照片生成3D虚拟数字人,虚拟形象主播搭建(软件+教程)

    1.一张照片快速生成3D虚拟数字人,无需建模和动画基础 2.真人驱动数字人,数字人代替真人出镜,真人无需露脸也能轻松做直播 3.形象丰富,角色自定义,场景自定义,可以每天都换着花样的直播 5.操作简单 ...

  8. 几张图片生成3D模型?距离真正的AI建模还有多远?

    时间溯回,早在2017年,美图秀秀就曾引入人工智能美化人像而被谷歌誉为"最佳娱乐App".智能技术奔腾发展,今年的AIGC技术可谓在各行各业大放异彩,从AI绘画.AI写作到AI配音 ...

  9. 为了好好看球,学霸们用深度学习重建整个比赛3D全息图

    http://mp.ofweek.com/vr/a745673021206 周四晚上11点,万众瞩目的世界杯终于开踢了,虽然意大利.荷兰.智利.中国(手动滑稽)等强队没能进入本届世界杯,但C罗梅西谁主 ...

最新文章

  1. 如何禁止IIS缓存静态文件(png,js,html等)
  2. 更改WSSv3站点集访问地址
  3. 自动删除过期归档日志
  4. Mac OS X 下 TAR.GZ 方式安装 MySQL
  5. LeetCode 110平衡二叉树-简单
  6. 创意产品 分析_使用联合分析来发展创意
  7. 最好用的手机端C/C++语言编程软件, 不要说没电脑就不学编程了!
  8. oracle 下和 db2的syscat 对应的,oracle db2命令对比(整理中)
  9. 006 关于大数据的本地模式环境的搭建
  10. CF1041E Tree Reconstruction
  11. dism 分割镜像_(图文教程)利用DISM++工具整合驱动和预补丁至win7镜像
  12. OpenCV图像模糊处理
  13. 服务器网卡多路径配置文件,IPSAN(五)IPSAN多路径设置(客户端)
  14. 亚洲最佳电影TOP100出炉 你看过几部?
  15. 如何快速在手机上修改证件照底色
  16. 2023毕业生必看,springboot计算机毕业设计容易通过题目都在这里!
  17. 计算机控制理论及应用,计算机控制理论及应用.doc
  18. 电信飞扬校园网共享WIFI(MAC用户)
  19. ERP系统借贷关系表
  20. 查询和01号的同学学习的课程完全相同的其他同学的信息的优化

热门文章

  1. Webpack 资源管理
  2. Java之内存模型的基础、重排序、顺序一致性、volatile、锁、final
  3. 浅谈利用SQLite存储离散瓦片的思路和实现方法
  4. 微软MSIT部门招Sr SDE for FSS team
  5. 关于多态override/overload
  6. 让一个网页打开的同时自动为另一个网页自动填写表单并提交
  7. git_修改git历史提交记录
  8. 自定义注解妙用,一行代码搞定用户操作日志记录,你学会了吗?
  9. 值得推荐的Idea十二大优秀插件
  10. 一次非常有意思的 SQL 优化经历!