Nature:手机1秒生成3D全息图;MIT团队新作,索尼投钱支持
萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI
一张图片的焦距,能在老鼠玩具和日历尺之间自由切换:
甚至能完成图片上任一物体的对焦,呈现出不同物体在不同深度时的照片:
这张具有神奇魔力的图片,就是集成了“全部物体信息”的全息图。
生成这类全息图,往往需要大量计算才能完成。
然而,来自MIT的团队开发了一种新算法,不需要复杂仪器、也不需要等几个小时,生成这样一张全息图,只需要在智能手机上耗费不到1秒的时间。
要知道,就在去年11月份,三星的科学家们生成3D全息视频所用的处理器,尺寸还是太大,没能整合到手机上:
那么,这种快速生成3D全息图的方法,究竟是怎么做到的?
用神经网络快速“切蛋糕”
首先,全息图是什么?
举个例子,visa信用卡上的鸽子,就利用了全息图来做防伪标志。
全息图即“全部的信息”,这种图片包含物体的幅度和相位信息。
普通照相机,拍摄出来的照片只包含物体的幅度信息(亮暗),相位信息(远近)却无法直接保存。
这也是为什么,我们平时看见的2D照片“没有立体感”。
此前,计算机要想360°全方位生成全息图,通常得从多个角度进行干涉、衍射,再将相位信息拼合起来,与振幅信息叠加后生成图片。
多角度生成相位信息,就像是在一个球形蛋糕上精准地切割8刀,将之分成8块,对每块进行相位重现:
然而,这种方法所需要的计算量往往巨大,耗时很久,完全无法在智能手机上运行。
因此,MIT团队思考,能不能采用深度学习的方法,只通过3个角度,就把“蛋糕”分成8块,来生成全息图?
他们精挑细选出了4000张包含幅度、相位信息的图像,以及这些图像对应的3D全息图,用来训练神经网络。
整体思路大致如下:获取物体的相位信息后,生成点云,再结合残差神经网络,生成整体的全息图。
那么,这种全息图的效果如何呢?
可对焦任意物体,内存占用不到1MB
事实证明,利用神经网络进行预测,只需要不到640KB的内存就能生成全息图。
如果在消费级GPU上,这种神经网络模型,每秒能生成60张分辨率为1080p的彩色3D全息图。
而在智能手机如iPhone 11 Pro上,每秒能生成1.1张全息图;至于Google Edge TPU上,每秒则能生成2张全息图。
以动画角色大雄兔(Big Buck Bunny)为例,右下角是它的深度图。
从图中可见,利用神经网络(右)生成的全息图像,几乎和用原有方法(左)生成的全息图像一模一样。
而且,无论是远处的小黄花,还是近处的兔子眼睛,都能完美对焦。
表面上看起来是一样的话,具体到幅度和相位信息上如何呢?
从图中可见,利用神经网络预测的幅度和相位信息,也与真实值非常接近。
即使是现实中的照片,也与实际生成目标非常接近了。
当然,从细节来看的话,还是略微有一点差距。
相比于现有的VR和AR方案,3D全息图是3D可视化的另一个实现方案。
但在使用VR的时候,用户实际上是盯着2D显示屏,产生3D错觉,因此可能会产生视觉疲劳、头晕等症状。
而3D全息图则允许眼睛调整焦距,即交替地对前景和背景进行聚焦,能有效缓解这种症状。
下一步,团队计划添加眼球追踪技术,让用户的眼睛看向哪里,哪里就生成部分高清全息图。
在这种方案下,计算机只需要部分生成全息图,实时运用下,效果也能更快更好。
以及,索尼赞助了这项研究,所以……
作者介绍
论文一作史亮,2014年毕业于北航,硕士毕业于斯坦福,目前于MIT就读博士,研究方向包括VR/AR,以及机器学习和计算机图形学。
论文二作李北辰,2018年毕业于清华大学,目前于MIT就读博士,研究方向是机器学习在计算机图形学中的应用。
论文地址:
https://www.nature.com/articles/s41586-020-03152-0.pdf
参考链接:
[1]https://spectrum.ieee.org/tech-talk/computing/software/realtime-hologram
[2]https://www.linkedin.com/in/beichen-li-ba9b34106/
[3]https://people.csail.mit.edu/liangs/
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
Nature:手机1秒生成3D全息图;MIT团队新作,索尼投钱支持相关推荐
- MIT推出3D全息图生成新方法,可在智能手机上实时运行
本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载 编辑:小舟.陈萍 来自 MIT 的研究者利用深度学习推出了 3D 全息图生成新方法,可以为VR.3D 打印.医学成像 ...
- 人体扫描新技术:手机扫描生成3D人体模型
人体扫描是一种新兴的技术,它可以通过数字化的方式,再现人体的内部结构.这种模型的应用范围广泛,不仅可以应用于医学领域,还可以用于虚拟现实.游戏开发等各个领域.通过人体扫描生成模型,我们可以实时地观察人 ...
- #今日论文推荐# 文字秒变3D?苹果发布最新AI生成模型GAUDI,根据文字提示创建3D场景
#今日论文推荐# 文字秒变3D?苹果发布最新AI生成模型GAUDI,根据文字提示创建3D场景 继 AI 将文字变成图片后,又有 AI 可以将文字变成 3D 场景了. 苹果发布新 AI 系统 GAUDI ...
- 黑鲨手机计算机科学技术器,手机秒变3D 黑鲨科技与康得新共推裸眼3D神奇“膜”法...
2018年10月10日,康得新与黑鲨科技就裸眼3D领域合作在北京签署战略协议,黑鲨科技联合创始人.高级副总裁罗语周,康得新智能显示移动运营平台总裁高峻出席了签约仪式. 据了解,中国高分子材料知名企业康 ...
- Goolge新AI算法实时生成3D场景 | 可下载
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 3D模型又有新玩法,Goolge的新AI算法实时生成3D场景!对于3D.AR/VR来说,三维重建.模型 ...
- GAN能生成3D图像啦!朱俊彦团队公布最新研究成果
晓查 发自 凹非寺 量子位 出品 | 公众号 QbitAI GAN现在可以合成3D图像了! 最近,MIT计算机科学与AI实验室的朱俊彦团队,发表了一篇论文<Visual Object Netwo ...
- 照片生成3D虚拟数字人,虚拟形象主播搭建(软件+教程)
1.一张照片快速生成3D虚拟数字人,无需建模和动画基础 2.真人驱动数字人,数字人代替真人出镜,真人无需露脸也能轻松做直播 3.形象丰富,角色自定义,场景自定义,可以每天都换着花样的直播 5.操作简单 ...
- 几张图片生成3D模型?距离真正的AI建模还有多远?
时间溯回,早在2017年,美图秀秀就曾引入人工智能美化人像而被谷歌誉为"最佳娱乐App".智能技术奔腾发展,今年的AIGC技术可谓在各行各业大放异彩,从AI绘画.AI写作到AI配音 ...
- 为了好好看球,学霸们用深度学习重建整个比赛3D全息图
http://mp.ofweek.com/vr/a745673021206 周四晚上11点,万众瞩目的世界杯终于开踢了,虽然意大利.荷兰.智利.中国(手动滑稽)等强队没能进入本届世界杯,但C罗梅西谁主 ...
最新文章
- 如何禁止IIS缓存静态文件(png,js,html等)
- 更改WSSv3站点集访问地址
- 自动删除过期归档日志
- Mac OS X 下 TAR.GZ 方式安装 MySQL
- LeetCode 110平衡二叉树-简单
- 创意产品 分析_使用联合分析来发展创意
- 最好用的手机端C/C++语言编程软件, 不要说没电脑就不学编程了!
- oracle 下和 db2的syscat 对应的,oracle db2命令对比(整理中)
- 006 关于大数据的本地模式环境的搭建
- CF1041E Tree Reconstruction
- dism 分割镜像_(图文教程)利用DISM++工具整合驱动和预补丁至win7镜像
- OpenCV图像模糊处理
- 服务器网卡多路径配置文件,IPSAN(五)IPSAN多路径设置(客户端)
- 亚洲最佳电影TOP100出炉 你看过几部?
- 如何快速在手机上修改证件照底色
- 2023毕业生必看,springboot计算机毕业设计容易通过题目都在这里!
- 计算机控制理论及应用,计算机控制理论及应用.doc
- 电信飞扬校园网共享WIFI(MAC用户)
- ERP系统借贷关系表
- 查询和01号的同学学习的课程完全相同的其他同学的信息的优化