#今日论文推荐# 文字秒变3D?苹果发布最新AI生成模型GAUDI,根据文字提示创建3D场景

继 AI 将文字变成图片后,又有 AI 可以将文字变成 3D 场景了。 苹果发布新 AI 系统 GAUDI,能在室内生成 3D 场景近日,苹果 AI 团队发布最新 AI 系统 GAUDI,GAUDI 基于用于生成沉浸式 3D 场景的神经架构 NeRFs,可以根据输入的文字提示生成 3D 室内场景。
GitHub 地址:GitHub - apple/ml-gaudi
在此之前,OpenAI 的 DALL-E 2 以及谷歌的 Imagen 和 Parti 等 AI 系统都展示了将文字生成图片的能力,但生成的内容仅限于 2D 图像和图形。
2021 年年末,谷歌通过 Dream Fields 首次展示了新的 AI 系统,该系统将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 评估图像内容的能力相结合。而苹果 AI 团队发布的 GAUDI 则更进一步,能够生成沉浸式 3D 场景的神经架构,并可以根据文字提示创建 3D 场景。
例如,输入“穿过走廊”或“上楼梯”,就可以看到执行这一动作的 3D 场景视频。
据了解,NeRFs 是一种主要用于 3D 模型和 3D 场景的神经存储介质,并能够从不同的相机视角进行渲染。
此前,将生成 AI 扩展到完全不受约束的 3D 场景是一个尚未解决的问题。这背后的原因之一是受限于摄像机位置:虽然对于单个对象,每个摄像机位置都可以映射到一个圆顶,但在 3D 场景中,这些摄像机位置会受到对象和墙壁等障碍物的限制。
对于这个难题,GAUDI 模型的解决方案是:相机姿态解码器对可能的相机位置进行预测,并确保输出是 3D 场景架构的有效位置。
虽然当前 GAUDI 生成的 3D 场景视频质量很低,但这也预示了 AI 在未来新的可能,或许在 AI 的下一阶段,我们可以看到更多惊喜。
GAUDI 背后的技术实现 根据苹果方面的介绍,GAUDI 的目标是给定 3D 场景轨迹的经验分布时,学习得出生成模型

论文题目:GAUDI: A Neural Architect for Immersive 3D Scene Generation
详细解读:https://www.aminer.cn/research_report/62ea2b7d7cb68b460ffa9fa3https://www.aminer.cn/research_report/62ea2b7d7cb68b460ffa9fa3
AMiner链接:https://www.aminer.cn/?f=cs

#今日论文推荐# 文字秒变3D?苹果发布最新AI生成模型GAUDI,根据文字提示创建3D场景相关推荐

  1. 苹果发布 AI 生成模型 GAUDI,文字生成 3D 场景

    整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 前有DALL.E文本生成图像,现有将文字变成 3D场景.近日,苹果 AI 团队发布最新 AI 模型 GAUDI,它是基于 3D ...

  2. #今日论文推荐# 纸质说明书秒变3D动画,斯坦福大学吴佳俊最新研究,入选ECCV 2022

    #今日论文推荐# 纸质说明书秒变3D动画,斯坦福大学吴佳俊最新研究,入选ECCV 2022 有没有空间感差的小伙伴,每次拿到乐高说明书都不知如何下手? 这回,可以动的乐高说明书来了! 清华姚班校友.斯 ...

  3. #今日论文推荐# 光子神经网络登上nature,图像识别速度降至1纳秒

    #今日论文推荐# 光子神经网络登上nature,图像识别速度降至1纳秒 现在,美国研究者开发的一个光子神经网络(photonic deep neural network,PDNN),让图像识别仅需1纳 ...

  4. #今日论文推荐#快到离谱,图像识别仅需1纳秒!光子深度神经网络PDNN登上Nature

    #今日论文推荐#快到离谱,图像识别仅需1纳秒!光子深度神经网络PDNN登上Nature 现在,美国研究者开发的一个光子神经网络 (photonic deep neural network,PDNN), ...

  5. #今日论文推荐# 莫纳什大学最新《长文档摘要》综述,39页pdf长文档摘要的实证研究:数据集、模型和指标

    #今日论文推荐# 莫纳什大学最新<长文档摘要>综述,39页pdf长文档摘要的实证研究:数据集.模型和指标 像学术文章和商业报告这样的长文档已经成为了详述需要额外关注的重要问题和复杂主题的标 ...

  6. #今日论文推荐# 扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

    #今日论文推荐# 扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声 目前业界出现的扩散模型变体层出不穷,但它们都有一个不变的核心:都是围绕随机噪声去除这个概念建立的. 扩散模 ...

  7. #今日论文推荐# DeepMind将范畴论、抽象代数组合,发现GNN与DP之间的联系

    #今日论文推荐# DeepMind将范畴论.抽象代数组合,发现GNN与DP之间的联系 图神经网络 (GNN) 与动态规划 (DP)之间的关系应该如何描述?DeepMind 的研究者推导出了一个通用的积 ...

  8. #今日论文推荐# 死蜘蛛转世成为机械臂:人们求之不得的微型气动抓手来了

    #今日论文推荐# 死蜘蛛转世成为机械臂:人们求之不得的微型气动抓手来了 在这项工作中,研究者使用无生命生物(死蜘蛛,狼蛛)的完整身体作为生物驱动器(如图 1),研究人员表示这是迈向 necroboti ...

  9. #今日论文推荐#ECCV 2022 | 清华字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏

    #今日论文推荐#ECCV 2022 | 清华&字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏 知识蒸馏主要可以分为logit蒸馏和feature蒸馏.其中feature蒸馏具有更好的拓 ...

最新文章

  1. 35 利用构造函数和原型对象实现继承
  2. POS 客显 设备 显示 总价 单价 找零 收款 C# SerialPort 法
  3. VGA、DVI、HDMI三种视频信号接口差别
  4. Java web 面试题
  5. 如何通过大华sdk采集一帧图像?_EasyData解放数据标注员双手,采集清洗标注一站搞定...
  6. 关于vue中sync修饰符的用法
  7. 原则 principles
  8. [C++ Primer] 第2章: 变量
  9. mysql中查询缓存优化以及慢查询
  10. unity3d:路径点移动,使用dotween(模拟蝴蝶飞舞)
  11. win10系统使用自带的win7图片查看器
  12. 安卓虚拟机 选择分辨率
  13. 超详细讲解无迹卡尔曼(UKF)滤波(个人整理结合代码分析)
  14. MuiPlayer - 一款优秀的 H5 视频播放器框架
  15. 初一计算机的硬件和软件ppt,计算机的硬件和软件.ppt
  16. 【爬虫实战】手把手教你使用python爬取网络小说
  17. 定时自动关机命令超级大全
  18. UML之6种关系的解释与画法
  19. 关于未来IT行业的发展前景
  20. C++全局变量初始化的顺序

热门文章

  1. CSS font-size单位
  2. link library 、target library、symbol library、synthetic library对照分析-基础小知识(九)
  3. 两亚太国家宣布其央行不会发行数字货币
  4. 敏捷开发松结对编程系列:L型代码结构案例StatusFiltersDropdownList(上)
  5. SCCM部署系统任务序列失败错误代码0x80070002
  6. 游戏开发进度、状况以及结果的关系(个人感言)
  7. 【C# 教程系列第 11 篇】什么是抽象类、抽象方法
  8. 《本科-线性代数笔记-精简汇总》,纯手工!
  9. 做科研的几点体会:如何多发 SCI
  10. idea注意事项和java数据类型