AI画师技术又精进了? AI画师三维版试玩——Dreamfields和DreamFusion向文本生成3D模型领域进发
0、AI画师二维版的出圈
最近AI画师的杰出表现让人惊讶无比,2022虽然不是ai绘图这项技术诞生的时间,但却是到目前为止最爆火出圈的绘图元年,现在市场上也已经有了很多成熟的AI绘画APP:用户仅需打开相应的AI绘画软件,在创作页面,只需要输入相应的关键词,你想生成什么样的画就输入什么关键词,然后点击创作,十几秒后,一幅惊艳的画作就生成了,如下都是NovelAI生成的图像:
1、AI画师三维版的兴起
然而最近,二维版的绘画领域已经满足不了AI了,AI已经开始进入3D世界,直接一句话/一张图,生成3D模型、立体人像、全方位环绕视频,输入简单的文本提示,就能生成3D模型,比如
- 一幅美丽的花树画,Chiho Aoshima风格,长镜头,超现实主义:
- 青蛙穿着毛衣;蛋壳裂成两半,旁边站着一只可爱的小鸡
- 一张美丽的天空城市的插图,吉卜力工作室,艺术站,8k HD”
可以看到生成的模型不仅可以渲染生动的物体形状,还可以渲染合理的光线、颜色、密度,更重要的是,生成的3D模型还可以导出到网格中,用建模软件进一步加工。
2、Dreamfields-3D AI画师三维版试玩
前不久Dreamfields-3D已经宣布开源,并且提供了colab地址!
这意味着AI画师三维版玩法十分低门槛,对我们本地机器没有任何硬性配置要求,直接在线就可以colab试玩了。大致只需要三步。这里我们介绍一下colab上在线玩的步骤:
2.1、第一步:进入colab
首先打开Dreamfields-3D的colab试玩地址,可以看到,Dreamfields-3D的Jupyter Notebook代码:
展开可以看到,其分为三大部分:①机器检查;②环境安装;③训练和测试
2.2、第二步:连接Google云端硬盘
点击check the machine的运行按钮
代码需要连接Google云端硬盘读写文件,点击连接。
2.3、第三步:配置参数 开始运行
配置一下training和test的设置参数,保存格式有视频和网格两种,输出模型格式为带顶点色的obj和ply。如果你只是简单试玩,可以选择不动他的参数。
然后依次点击运行按钮就可以开始试玩了,初始训练轮数为200轮,每轮运行时间大概需要1分钟,每10轮会进行一次输出,可以观看每10轮的效果:
等待训练完成后,就可以输入自己想要的文本来生成3D模型啦。
3、DreamFusion 原理分析
上节我们体验的是Dreamfields-3D,可以看到虽然可以生成模型,但是看起来效果并不是很好,风格比较诡异,而前不久Google Research在Dreamfields-3D基础上做了改进,发布了最新成果DreamFusion,让生成模型的形态、颜色、光线、密度有巨大的飞跃,虽然 Dreamfusion 还未开放使用,但项目网站提供了生成画廊:DreamFusion预览地址
要直接训练一个text-to-3D的模型非常困难,因为DALL-E 2等模型的训练需要吞噬数十亿个图像-文本对,但并不存在如此大规模的3D标注数据,目前也没有一个高效的模型架构对3D数据进行降噪。DreamFusion先使用一个预训练2D扩散模型基于文本提示生成一张二维图像,然后引入一个基于概率密度蒸馏的损失函数,通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型。
在DreamFusion中,使用了一个预先训练的二维文本到图像扩散模型,扩散模型是潜在变量生成模型,它学习将样本从可控制的噪声分布逐渐转换为数据分布。
评分蒸馏采样的损失函数叫SDS,其代替CLIP通过文本到图像的Imagen扩散模型来计算损失。用评分蒸馏采样来表示生成过程中的损失,通过不断优化最小化这种损失,
通过优化实现可控制的采样,从而输出质量良好的3D模型。
除此之外,与Dream Fields相比,Dreamfusion通过文本提示生成高质量、深度和普通的背光3D对象。使用Dreamfusion生成的多个3D模型也可以缝合到一个场景中,比如下图,迭代地细化一个示例文本提示,同时从四个不同的方面渲染每个生成的场景:
Dreamfusion从随机的相机位置和角度反复渲染NeRF的视图,用这些渲染结果作为环绕Imagen的分数蒸馏损失函数的输入。每次迭代都包含四步:①随机采样一个相机和灯光;②从该相机和灯光下渲染NeRF的图像;③计算SDS损失相对于NeRF参数的梯度;④使用优化器更新NeRF参数。
例子:冲浪板上孔雀的单反照片:
4、文本生成3D模型的未来
作为一名人工智能领域研究生,早在21年上半年,我就开始深入文本生成图像领域,可以说,领域内一年半来的发展真的非常迅速,目前都已经有很多比较成熟的商业应用,自从文本引导的图像生成模型火了以后,画家群体迅速扩张,不会用画笔的人也能发挥想象力进行艺术创作。
那么对于文本生成3D这个新的领域,未来AI用于模型设计辅助的潜力也是值得期待,不仅能帮助画师进行设计,也许还能帮助建模师/设计师进行3D建模、产品设计、学术建模、建筑设计、元宇宙开发等等,潜力无限,为何不现在就开始学习新工具,开始全新的创意探索呢?
AI画师技术又精进了? AI画师三维版试玩——Dreamfields和DreamFusion向文本生成3D模型领域进发相关推荐
- 几张图片生成3D模型?距离真正的AI建模还有多远?
时间溯回,早在2017年,美图秀秀就曾引入人工智能美化人像而被谷歌誉为"最佳娱乐App".智能技术奔腾发展,今年的AIGC技术可谓在各行各业大放异彩,从AI绘画.AI写作到AI配音 ...
- AI艺术的背后:详解文本生成图像模型【基于 VQ-VAE】
系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...
- 苹果的「AI 建筑师」GAUDI:根据文本生成 3D 场景
作者:李梅 | 编辑:陈彩娴 | 转载自:AI科技评论(aitechtalk) 如今,每隔一段时间就有新的文本生成图像模型释出,个个效果都很强大,每每惊艳众人,这个领域已经是卷上天了. 不过, ...
- AI艺术的背后:详解文本生成图像模型【基于 Diffusion Model】
系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...
- AI艺术的背后:详解文本生成图像模型【基于GAN】
系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...
- 快让想象力跟上AI的发展!Meta AI 推出文本生成视频模型 #Make-A-Video
AI 已经能让 "一句话" 诞生出巨大的生产力了. # 文本-图像.文本-3D模型.文本-视频...... Meta AI 发布了文本生成视频模型 Make-A-Video # 未 ...
- 名场面!围观业内最强AI应用技术,8月AI能力又升级了
各位小伙伴们,又进入金九银十的秋季.在刚刚过去的ABC SUMMIT百度云智峰会上,各项先进的AI能力是否充实了你的头脑?如果还没看够,这篇文章将继续你的惊艳之旅. 百度智能云在日常的技术能力输出中, ...
- 百度AI实战营第二季:AI技术商业落地指南
4月 20日,百度 AI开发者实战营第二季启动,再次召集全国各地技术管理者,在北京"整装待发",并将陆续登陆成都.杭州.深圳.在新一季的实战营中,百度 AI将与开发者.合作伙伴一起 ...
- 视频直播/远程会议中的AI关键技术探索应用
随着各种AI新技术的发展和应用,它们不仅为我们带来了对于服务形式.内容,如各种视频特效.功能实现上的改变,更为重要的是对于服务质量以及成本上的优化.本文由NVIDIA深度学习解决方案架构师 吴金钟 在 ...
最新文章
- python3中tkinter button属性_Python3 tkinter基础 Button bg 按钮的背景颜色
- ASP.NET CORE RAZOR :向 Razor 页面添加验证
- Embedding技术在房产推荐中的应用
- 输入控件tagsinput
- SAP 电商云 Spartacus UI 回归测试 b2b-replenishment-checkout-flow.core-e2e-spec.ts
- python批处理栅格转点_python获取栅格点和面值的实现
- NodeJS 模板 -- jade
- 计算机视觉论文-2021-06-17
- 基于人脸识别实现课堂抬头率检测
- 杀毒软件免费下载 2013排行榜(TOP8)
- 千里达v1000时速_20速碳纤维山地车千里达V1000评测
- java正则表达式 用户名_java之正则表达式
- matlab热度图确定色标_MATLAB 颜色图函数(imagesc/scatter/polarPcolor/pcolor)
- Qt之QPA(linuxfb 一)
- 前端面试——安全相关
- cpu被锁频解除方法_CPU频率被锁定到800mhz怎么办?
- 由一道简单的图片隐写题总结思路
- 计算机基础知识考什么,我想请问下,计算机初级考试考些什么东西?
- Codeforces Round #717 (Div. 2) 1516 A. Tit for Tat(模拟)
- 卷积神经网络的可视化(基于keras)
热门文章
时间溯回,早在2017年,美图秀秀就曾引入人工智能美化人像而被谷歌誉为"最佳娱乐App".智能技术奔腾发展,今年的AIGC技术可谓在各行各业大放异彩,从AI绘画.AI写作到AI配音 ...
系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...
作者:李梅 | 编辑:陈彩娴 | 转载自:AI科技评论(aitechtalk) 如今,每隔一段时间就有新的文本生成图像模型释出,个个效果都很强大,每每惊艳众人,这个领域已经是卷上天了. 不过, ...
系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...
系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...
AI 已经能让 "一句话" 诞生出巨大的生产力了. # 文本-图像.文本-3D模型.文本-视频...... Meta AI 发布了文本生成视频模型 Make-A-Video # 未 ...
各位小伙伴们,又进入金九银十的秋季.在刚刚过去的ABC SUMMIT百度云智峰会上,各项先进的AI能力是否充实了你的头脑?如果还没看够,这篇文章将继续你的惊艳之旅. 百度智能云在日常的技术能力输出中, ...
4月 20日,百度 AI开发者实战营第二季启动,再次召集全国各地技术管理者,在北京"整装待发",并将陆续登陆成都.杭州.深圳.在新一季的实战营中,百度 AI将与开发者.合作伙伴一起 ...
随着各种AI新技术的发展和应用,它们不仅为我们带来了对于服务形式.内容,如各种视频特效.功能实现上的改变,更为重要的是对于服务质量以及成本上的优化.本文由NVIDIA深度学习解决方案架构师 吴金钟 在 ...