明敏 萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

在“一句话生成照片”这件事上,英伟达又一次突破了大伙的想象力。

他们最新的AI模型GauGAN2,不仅能根据字词生成逼真风景照,还能实时用文字P图

输入一句“海浪击打岸边石”,立刻输出一张逼真照片:

单词短语,这只AI全都能get!

那感觉,简直是要山得山,要水得水:

要是觉得哪部分你不喜欢,直接打字就能“P图”:

上面这些效果,都是英伟达这个叫做“GauGAN2”的模型做出来的,而它的“完整版”功能,还远不止这些。

从草图到文字,都能生成风景照

GauGAN2的绘制模式,一共分为三种。

第一种,打字生成图片。

我们先试了一下单个词组,“阳光(sunshine)”,生成如下图片:

加上限定词in the forest后,AI立刻就将场景换到了树林里,变成光洒在树林中的场景:

再多来点限定词也没问题。

像“冬日树林中的阳光”,输入in winter后,眼前本来郁郁葱葱的树林立刻“全秃了”,换成了雪景下的一幕:

这效果,u1s1(有一说一)确实不错。

还能输出不同style的风景图,例如输入“大山(mountain)”一词,立刻要山有山,还能给你换不同风格:

当然,这些不同的风景照也都能继续生成新细节,在mountain后加上“beside a river”就能生成山水:

第二种,“打字P图”,直接用文字编辑部分图像。

只需要把想替换掉的部分圈出来,输入你想要的东西,就能立刻造出各种新颖的风景图:

嗯……英伟达给出的这个demo,思路也是非常清奇了,“浮在空中的城堡”:

第三种,用涂鸦生成风景照。

这是上一代GauGAN2(2019年英伟达推出的GauGAN)的看家本领。

例如,要是想实现下面这样的“一片天空两个太阳”,就完全可以在通过文本生成的图像上,自己手动再加一个。

这几种玩法叠加在一起,简直让网友们脑洞大开。

像外媒ZDNet就恶搞出来了一种神奇的玩法,在已有的风景上画个人头:

然后让GauGAN2根据已有的画面,再重新生成图画,就会得到如下“人头海岛”的神奇景观:

不过这可能也对个人画技有所要求,在我们的灵魂画风下,效果看上去就有些……不太聪明的亚子。

那么,生成这一系列风景照的GauGAN2,背后究竟用了什么原理?

它与OpenAI今年发布的DALL·E和CLIP,又究竟有什么区别?

与DALL·E有什么不同?

2019年,英伟达GauGAN2的“前身”GauGAN正式开源。

当时的它,还只拥有其中一个能力,就是将涂鸦直接变成风景画,就像「神笔马良」一样,还推出了对应的软件Canvas:

当然,这时GauGAN已经能随意改变画面风格了,从白天黑夜到春夏秋冬的气质都能稳稳“拿捏”:

据英伟达介绍,GauGAN采用了一种基于空间适应标准化(SPADE)算法。

SPADE算法不仅使用随机的输入图像,还采用了一种被称作“分割图”的图像。在分割图中,每一个像素都会被归类,来生成更接近于真实的图像,这种模式被称作“图对图翻译”。

GauGAN的技能点(狗头)

现在,英伟达将GauGAN升级成了GauGAN2,后者一共采用了1000万张高质量的图片、在英伟达Selene超算上进行训练,这台超算在Green500排行榜上排到世界第二。

生成这些风景画的效果和“手法”,是不是感觉有点熟悉?

没错,大多数人看到GauGAN2的第一眼,可能都会觉得它和OpenAI的DALL·E+CLIP有点像。

今年年初,OpenAI用DALL·E和CLIP两个模型,做了个“图像版”GPT-3,同样能用一句话生成图片。

不过,这两个模型生成的内容其实不太一样。

GauGAN2专注于生成风景照,DALL·E+CLIP则更多地生成具体的物体,例如一把椅子或者一个闹钟等。

这与它们的原理差异也有关系,GauGAN2更加注重“单词与视觉效果”之间的关系,例如“冬天”这种模糊的状态词给照片带来的效果;DALL·E+CLIP则更注重“文字-图像”这种有明确对应关系的物体效果。

据英伟达介绍,GauGAN2不同于“文本-图像”和“分割图像-图像”一类的模型,它所能产生的照片种类更多,质量也会更高。

不过,偶尔也会出现点bug…

比如给出“沙滩(beach)”一词后,有些生成的画面中出现了语言无法描述的事物。

对此,英伟达表示,他们在训练中“完全没有用到任何人像照片”。(所以可能是偶然?)

但这样一来,网友想要的“瑞克摇(Rick roll)”和“鬼畜视频生成”,GauGAN2大概也是没办法实现了。

但是能生成仿佛梦境中才能见到的画面,也吸引了不少人来试玩。

这不,有人就晒出了自己生成的抽象画大作,并表示自己非常喜欢这个模型:

还有人表示,GauGAN2给出了一些建筑设计的新idea啊。

也有网友觉得这种能够自动生成景观的功能,未来Adobe可能也会用上。

或许就是下一个画手利器?

最后,GauGAN2在浏览器上就能试玩,欢迎大家留言讨论自己的体验感受~

GauGAN2试玩Demo地址:
http://gaugan.org/gaugan2/

参考链接:
[1]https://twitter.com/NVIDIAAI/status/1462835802266902535
[2]https://blogs.nvidia.com/blog/2021/11/22/gaugan2-ai-art-demo/?ncid=so-twit-261232-vt16#cid=nr01_so-twit_en-us
[3]https://venturebeat.com/2021/11/22/nvidias-latest-ai-tech-translates-text-into-landscape-images/
[4]https://www.zdnet.com/article/the-absurd-beauty-of-hacking-nvidias-gaugan-2-ai-image-machine/
[5]https://blogs.microsoft.com/ai/drawing-bot/
[6]https://www.nvidia.com/en-us/studio/canvas/

英伟达又一次突破想象力!一句话实时P图在线Demo可玩,「神笔马良」升级「创世纪」...相关推荐

  1. 英伟达公开课 | 如何突破Decoder性能瓶颈?揭秘FasterTransformer2.0的原理与应用,已开源...

    位来 发自 凹非寺 量子位 报道 | 公众号 QbitAI 4月9日,英伟达x量子位分享了一期nlp线上课程,来自NVIDIA的GPU计算专家.FasterTransformer 2.0开发者之一的薛 ...

  2. 英伟达发布RTX 2000系列显卡,“实时光线追踪”究竟能为游戏带来什么?

    作者 | 琥珀 出品 | AI科技大本营(公众号ID:rgznai100) "这是计算机图形学的历史性时刻!"8 月 21 日在德国科隆举办一场主题演讲上,英伟达(NVIDIA)C ...

  3. 挖矿让英伟达多赚了近3亿美元,老黄:又创纪录了

    杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 新一季度的财报发布,老黄很开心. 因为英伟达的业绩又突破到了一个新高度: 第四季度共赚了50亿美元,同比增长61%,全年营收166.75亿美 ...

  4. CES 2019开胃菜竟然是芯片,英特尔 英伟达 高通 华为 AMD已经开打!

    来源:网易智能 1月8日消息,一年一度的CES即将在美国拉斯维加斯开幕,开幕前夕,各家厂商纷纷推出新品,其中最突出的,便是几家半导体厂商推出的最新款芯片,让CES 2019一开始就变得纷繁热闹.下面, ...

  5. 英伟达Q2营收大涨50%,创下历史新高,游戏业务已不是最大收入来源

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI Q2营收同比大涨50%,达38.7亿美元,创下历史新高. 英伟达发布这样一份财报之后,股价却在盘后交易中再度下跌超2%. 8月19日盘后,英 ...

  6. 英伟达4070Ti 6499元起/ 微软要推出ChatGPT版Bing/ 苹果头显被曝售价3000美元... 今日更多新鲜事在此...

    日报君 发自 凹非寺 量子位 | 公众号 QbitAI 大家好~今天是新年的第一个星期三--还有两天又到周末啦. 科技圈还有哪些有意思的事? 日报君在此呈上~ 微软要推出ChatGPT版Bing搜索 ...

  7. 5 年提速 500 倍,英伟达 GPU 创纪录突破与技术有哪些?

    作者:诗颖 摘要:日前,英伟达 Developer Blog 上一篇博文详细陈述了英伟达 Volta Tensor Core GPU 在深度学习社群取得的巨大突破,以及种种突破背后的技术细节. 201 ...

  8. 成熟的GAN会自己分析脸部纹理!英伟达StyleGAN团队出新作,网友:竟然还能有突破...

    杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 换脸的GAN,还能有啥突破? 要不,分析个脸部纹理试试. 不得不说,真有点科幻电影的赶脚~ 这是英伟达最新推出GAN--Alias-Free ...

  9. 撑起百万亿参数模型想象力!英伟达发布新一代SuperPOD超算,AI算力新巅峰!

    周一,黄教主又很淡定的在自家厨房里开完了GTC发布会. 众所周知,NLP领域的模型一个比一个大,自从百亿参数的Google T5出来后,大部分AI研究者只能望着手里的蹩脚算力兴叹.如今动辄就是千亿.万 ...

最新文章

  1. 你中招了吗?混不好大学的人,都有这4种表现
  2. 05 ORA系列:ORA-01013 报错用户请求取消当前的操作
  3. 游戏编程性能优化--------------------------------------------------------------------------------------...
  4. JPA在MySQL中自动建表
  5. idea提交spark任务,内存不足,指定JVM内存的解决方法
  6. 3D手势姿态跟踪算法:手机端实时检测,多个手势同时捕捉
  7. Butter knife 原理
  8. palm基础----8 国际化
  9. html5酷炫表白代码_七夕表白代码,樱花特效+爱心特效+花瓣+评论留言功能等
  10. java程序设计基础篇_java程序设计基础篇 复习笔记 第一单元
  11. mysql可视化界面创建表_使用可视化界面创建表
  12. C# Windows API介绍与调用
  13. 毛选-实践论-辩证唯物论的认识论-知行统一观
  14. Java 多线程 生产者和消费者
  15. 重启计算机后ip丢失,win10系统重启后ip丢失的处理步骤
  16. 吉林警方重击涉黑涉恶犯罪 一年打掉439个团伙
  17. Python IDLE 如何设置清屏功能(清屏快捷键,亲测可用)
  18. 为什么HashMap中链表转红黑树的阀值是8?
  19. POJ1190 生日蛋糕(回溯法)
  20. 帮朋友 解决一道 LeetCode QJ上问题

热门文章

  1. 如何对移动端的图片流量进行优化
  2. 蓝桥杯python省赛冲刺篇2——常用算法的详细解析及对应蓝桥杯真题:打表模拟法、递推递归法、枚举法、贪心算法、差分与前缀和
  3. LaTex使用方法和技巧——以IEEE会议论文模板为例
  4. 云队友丨外卖骑手,巨头的炮灰
  5. ‘XXX‘ is missing the class attribute ‘ExtensionOfNativeClass‘!
  6. 民间借贷的法定利息又降低了
  7. 割血放送,你要的资料都在这里(java、python、C#...)
  8. Linux上Nginx的安装及使用(在线及离线安装)
  9. 第四十五天 百度地图定位SDK
  10. GitHub的使用-----转载自PHP中文网