#今日论文推荐# 文字秒变3D?苹果发布最新AI生成模型GAUDI,根据文字提示创建3D场景

继 AI 将文字变成图片后,又有 AI 可以将文字变成 3D 场景了。 苹果发布新 AI 系统 GAUDI,能在室内生成 3D 场景近日,苹果 AI 团队发布最新 AI 系统 GAUDI,GAUDI 基于用于生成沉浸式 3D 场景的神经架构 NeRFs,可以根据输入的文字提示生成 3D 室内场景。
GitHub 地址:GitHub - apple/ml-gaudi
在此之前,OpenAI 的 DALL-E 2 以及谷歌的 Imagen 和 Parti 等 AI 系统都展示了将文字生成图片的能力,但生成的内容仅限于 2D 图像和图形。
2021 年年末,谷歌通过 Dream Fields 首次展示了新的 AI 系统,该系统将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 评估图像内容的能力相结合。而苹果 AI 团队发布的 GAUDI 则更进一步,能够生成沉浸式 3D 场景的神经架构,并可以根据文字提示创建 3D 场景。
例如,输入“穿过走廊”或“上楼梯”,就可以看到执行这一动作的 3D 场景视频。
据了解,NeRFs 是一种主要用于 3D 模型和 3D 场景的神经存储介质,并能够从不同的相机视角进行渲染。
此前,将生成 AI 扩展到完全不受约束的 3D 场景是一个尚未解决的问题。这背后的原因之一是受限于摄像机位置:虽然对于单个对象,每个摄像机位置都可以映射到一个圆顶,但在 3D 场景中,这些摄像机位置会受到对象和墙壁等障碍物的限制。
对于这个难题,GAUDI 模型的解决方案是:相机姿态解码器对可能的相机位置进行预测,并确保输出是 3D 场景架构的有效位置。
虽然当前 GAUDI 生成的 3D 场景视频质量很低,但这也预示了 AI 在未来新的可能,或许在 AI 的下一阶段,我们可以看到更多惊喜。
GAUDI 背后的技术实现 根据苹果方面的介绍,GAUDI 的目标是给定 3D 场景轨迹的经验分布时,学习得出生成模型

论文题目:GAUDI: A Neural Architect for Immersive 3D Scene Generation
详细解读:https://www.aminer.cn/research_report/62ea2b7d7cb68b460ffa9fa3https://www.aminer.cn/research_report/62ea2b7d7cb68b460ffa9fa3
AMiner链接:https://www.aminer.cn/?f=cs

#今日论文推荐# 文字秒变3D?苹果发布最新AI生成模型GAUDI,根据文字提示创建3D场景相关推荐

  1. 苹果发布 AI 生成模型 GAUDI,文字生成 3D 场景

    整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 前有DALL.E文本生成图像,现有将文字变成 3D场景.近日,苹果 AI 团队发布最新 AI 模型 GAUDI,它是基于 3D ...

  2. #今日论文推荐# 纸质说明书秒变3D动画,斯坦福大学吴佳俊最新研究,入选ECCV 2022

    #今日论文推荐# 纸质说明书秒变3D动画,斯坦福大学吴佳俊最新研究,入选ECCV 2022 有没有空间感差的小伙伴,每次拿到乐高说明书都不知如何下手? 这回,可以动的乐高说明书来了! 清华姚班校友.斯 ...

  3. #今日论文推荐# 光子神经网络登上nature,图像识别速度降至1纳秒

    #今日论文推荐# 光子神经网络登上nature,图像识别速度降至1纳秒 现在,美国研究者开发的一个光子神经网络(photonic deep neural network,PDNN),让图像识别仅需1纳 ...

  4. #今日论文推荐#快到离谱,图像识别仅需1纳秒!光子深度神经网络PDNN登上Nature

    #今日论文推荐#快到离谱,图像识别仅需1纳秒!光子深度神经网络PDNN登上Nature 现在,美国研究者开发的一个光子神经网络 (photonic deep neural network,PDNN), ...

  5. #今日论文推荐# 莫纳什大学最新《长文档摘要》综述,39页pdf长文档摘要的实证研究:数据集、模型和指标

    #今日论文推荐# 莫纳什大学最新<长文档摘要>综述,39页pdf长文档摘要的实证研究:数据集.模型和指标 像学术文章和商业报告这样的长文档已经成为了详述需要额外关注的重要问题和复杂主题的标 ...

  6. #今日论文推荐# 扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

    #今日论文推荐# 扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声 目前业界出现的扩散模型变体层出不穷,但它们都有一个不变的核心:都是围绕随机噪声去除这个概念建立的. 扩散模 ...

  7. #今日论文推荐# DeepMind将范畴论、抽象代数组合,发现GNN与DP之间的联系

    #今日论文推荐# DeepMind将范畴论.抽象代数组合,发现GNN与DP之间的联系 图神经网络 (GNN) 与动态规划 (DP)之间的关系应该如何描述?DeepMind 的研究者推导出了一个通用的积 ...

  8. #今日论文推荐# 死蜘蛛转世成为机械臂:人们求之不得的微型气动抓手来了

    #今日论文推荐# 死蜘蛛转世成为机械臂:人们求之不得的微型气动抓手来了 在这项工作中,研究者使用无生命生物(死蜘蛛,狼蛛)的完整身体作为生物驱动器(如图 1),研究人员表示这是迈向 necroboti ...

  9. #今日论文推荐#ECCV 2022 | 清华字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏

    #今日论文推荐#ECCV 2022 | 清华&字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏 知识蒸馏主要可以分为logit蒸馏和feature蒸馏.其中feature蒸馏具有更好的拓 ...

最新文章

  1. 【转】创建不可见的Activity
  2. GitHub开源比Hadoop快至少10倍的物联网大数据平台
  3. ios在异步网络请求上实现同步逻辑
  4. CentOS 终端显示中文异常解决办法
  5. 注意:C语言结构体里不能赋初始值!
  6. 网易云信助春招上“云” ,疫情过后线上招聘或成常态
  7. 计算机公共基础知识实验报告,20140902413 李雪瑞 计算机工程系实验报告345.docx...
  8. 怎么打包图片_怎么将许多张照片打包发到邮箱?
  9. 边框border(HTML、CSS)
  10. MFC 教程【4_消息映射的实现】
  11. STL 关联容器的lower_bound()和upper_bound()
  12. 在企业级管理软件领域,国内尚没有“好”产品
  13. mysql 设置主键命令_MySQL常用命令
  14. 有源滤波器与无源滤波器的区别
  15. 正常高、大地高、海拔高的测绘概念
  16. Ansible Jinjia2 模板
  17. CS代理+proxychains+nmap进行内网扫描
  18. PHP解决某些特殊汉字符或汉字转码后成乱码或者空白的问题
  19. 《R语言与数据挖掘》⑥-⑦分类与预测建模【分类算法评价】
  20. C语言刷题训练营-自我补全

热门文章

  1. Mybatis 核心知识点整理成图
  2. PC控制台使用-素材管理
  3. Git之版本回退和分支合并
  4. tp5微信开发(一) ---- 微信公众号配置token
  5. Apple Watch Series 8功能介绍 watch series 8续航
  6. 爬取东方财富网股票行情数据和资讯
  7. aruco字典如DICT_4X4_50含义
  8. 计算机如何默认一种打字法,如何设置输入法,教您如何设置电脑的默认输入法...
  9. 4.10 期货每日早盘操作建议
  10. windows/dos 命令