英伟达的艺术家神器GauGAN最近发布了第二代,生成风景画的能力进一步提升,原来还需要自己指定一些材料合成图像,现在只需要一句话即可生成你想要的风景画,甚至季节等常识他也懂!

最近,英伟达发布了实时绘画工具GauGAN的第二代,主要特性是支持输入文本来生成图像。

在新版本中,GauGAN2集成了segmentation mapping, inpainting和text-to-image生成技术,用户可以生成一些在现实生活中并不存在的风景。

GauGAN2的目标是创造一种混合文字和图像的一种摄像技术!

与专门用于文本到图像或图像到图像分割应用的最新模型相比,GauGAN2背后的神经网络模型能够产生了更加多样、质量更高的图像。

用户不必绘制想象场景中的每一个元素,只需要输入一个简短的短语就能够快速生成图像的关键特征和主题,例如输入雪山,就能够生成一个雪山的草图。然后以这个草图为起点,进行下一步的图像修改,例如把山变高,加几棵树,换一个天空等等,可以说是十分方便了!

GauGAN这个名字的灵感来自于印象派画家保罗·高更(Paul Gaugin),他死后作品才开始名声大噪。他是印象派的代表人物,除去绘画之外,在雕塑、陶艺、版画和写作上也有一定的成就。他对色彩的使用导致了综合主义的产生,加上分隔主义的影响,也为原始主义的产生铺平了道路。

从2019年开始,Nvidia就给GauGAN系统喂了超过100万张公共Flickr图片进行模型训练。

2019年3月,在加州圣何塞举行的GPU技术大会(GTC)上,Nvidia揭开了GauGAN的面纱,这是一种生成对抗性AI系统,可以让用户创建实际并不存在的逼真风景图像。GauGAN测试版在Playground平台上发布后的第一个月,就已经生成了50万张图片,包括电影、视频游戏等概念艺术领域均有应用。

Nvidia表示,GauGAN已经被一家医疗保健组织用于探索性治疗工具使用,动画建模师Colie Wertz也在使用GauGAN,他的作品包括《星球大战》、《变形金刚》和《复仇者联盟》等。

GauGAN的首次公开使用是在GANPaint Studio中,这是一个公开的人工智能工具,可让用户上传任何照片并编辑所描绘的建筑物,植物群和固定装置的外观。在其他地方,生成机器学习模型已被用于通过观看YouTube剪辑,从自然语言标题创建图像和故事板,以及使用包含人类语音的音频剪辑来动画和同步面部运动来生成逼真的视频。

与GauGAN的第一代一样,GauGAN2知道雪、树、水、花、灌木、山和山等物体之间的关系,例如降水类型随季节变化这种常识在图像生成中也能够保持。

GauGAN和GauGAN2同样还是基于对抗生成网络(GAN),模型中包含一个生成器和判别器。生成器用来接收输入样本(一个文本和一个图像)然后预测出这个文本描述是否和风景图像内容能对应上。

生成器的训练过程是通过试图欺骗判别器,使其无法分辨生成图片和现实场景的图片。虽然GAN在初期生成的质量很差,一眼假,但它的生成器会随着判别器的反馈而不断变强。

在第一代基础上,GauGAN2接收了超过1000万张图片的训练,已经能够很好地将自然语言转换为风景图像。

例如输入「海滩上的日落」就会产生一对应的风景图,在这基础上添加诸「落基山海滩上的日落」或将「日落」替换为「下午」或「雨天」等形容词也会立即生成修改后的图片。

使用GauGAN2,用户可以生成一个分割图(segmentation map),能够显示场景中物体位置。用户可以将生成的图像切换到绘图模式,用天空、树、岩石和河流等标签将场景绘制成粗糙的草图,并能够使用画笔将涂鸦嵌入图像中。

GauGAN2和OpenAI的DALL-E差不多,DALL-E也是根据文本提示来生成图像。这类系统本质上是视觉创意的创造器,在电影、软件、视频游戏、产品、时尚和室内设计方面有潜在的应用场景。

Nvidia声称,GauGAN的第一个版本已经被用来创造电影和视频游戏的概念艺术。并且与第一版相同,Nvidia计划在GitHub上开源GauGAN2 的代码,并在Playground上进行交互式演示,Playground是Nvidia AI和深入学习研究的网络中心。

但,像GauGAN2这样的生成模型的一个缺点是可能存在模型偏见。

在Dall-E的生成样例中,OpenAI使用了一个特殊的模型CLIP来提高图像质量,用到的方法是在DALL-E生成的每条样本中把顶层样本给覆盖掉,换成其他的提示图。

但是一项研究发现,CLIP错误分类的黑人个人照片的比例更高,并且它会认为从事诸如保姆、和家政工人等职业是和妇女相关的。

在相关新闻材料中,Nvidia并没有说明他们的研发团队如何审核GauGAN2中的社会偏见。

但Nvidia发言人在邮件中说过,该模型有超过1亿参数,并使用风景数据集中训练了一个月。这个专用的模型完全专注于风景景观,研究人员审计以确保在训练图像中没有人物的出现。目前来说,GauGAN2只是一个研究演示。

另一个GauGAN的应用是Nvidia Canvas,能够让创作者通过材料而不是颜色来绘画。这个程序能够实时现实绘画结果,而不需要等待完整的绘画。

用户首先用现实世界的材料,如草地或云彩,画出简单的形状和线条。人工智能模型然后立即填充屏幕显示停止的结果。四个快速的形状和一个惊人的山脉出现。再多几条线就会形成一片美丽的田野。

NVIDIA canvas也提供了多种材料可供使用。NVIDIA画布有九种风格,修改的外观和感觉的绘画和15种不同的材料,从天空和山脉,河流和石头。在不同的图层上绘制,使元素保持分离。从头开始,或启动和修改应用程序的预制场景之一,以获得更完美的灵感提示。

在池塘里画画,附近的元素如树木和岩石就会出现在水中的倒影。换一种材料,把雪变成草,整个形象就从一个冬天的仙境变成了一个热带的天堂。

该工具允许艺术家使用样式过滤器,改变生成的图像,以采用特定的画家的风格。不仅仅是把其他图片拼接起来,或者剪切和粘贴纹理,而是创造全新的图像,就像艺术家一样。

有了英伟达的GauGAN,人人都能成为艺术家了!

参考资料:

https://venturebeat.com/2021/11/22/nvidias-latest-ai-tech-translates-text-into-landscape-images/

艺术家神器 GauGAN 发布第二代,训练超1000万张图片,两个词就能生成风景画相关推荐

  1. 极客日报:恶意软件感染超1000万台安卓设备;淘宝App已支持“云闪付”付款;OpenSSH 8.8发布

    一分钟速览新闻点! OPPO在德国反诉诺基亚专利侵权 抖音支持外放音量过高提醒功能 淘宝App已支持"云闪付"付款 理想汽车称玻璃存在自动开裂可能性 阿里申请"阿里元宇宙 ...

  2. ofo线上排队退款用户已超1000万;滴滴发布27项整改措施;SpaceX将融资5亿美元 | 雷锋早报...

    国内新闻 ofo线上排队退款用户已超1000万,待退押金至少约10亿 12月18日消息,自ofo于12月17日晚间施行退押"新政"以来,ofo的用户押金额额度被一定程度外显.截至目 ...

  3. ofo线上排队退款用户已超1000万;滴滴发布27项整改措施;SpaceX将融资5亿美元 | 雷锋早报... 1

    国内新闻 ofo线上排队退款用户已超1000万,待退押金至少约10亿 12月18日消息,自ofo于12月17日晚间施行退押"新政"以来,ofo的用户押金额额度被一定程度外显.截至目 ...

  4. 阿里多个App已接入微信支付;Facebook年薪中位数170万元;恶意软件感染超1000万台安卓设备 | EA周报...

    EA周报 2021年9月30日 每个星期7分钟,元宝带你喝一杯IT人的浓缩咖啡,了解天下事.掌握IT核心技术. 周报看点 1.恶意软件感染超1000万台安卓设备 2.阿里回应App接入微信支付:会继续 ...

  5. 苹果损失超 1000 万美元,前员工被控收回扣、盗窃、欺诈!

    整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 人在欲望面前往往有难以逾越的障碍. 近期,因为开源无法获得报酬,开发者 Marak Squires 冲动之下删除了自己维护的主流开源 NP ...

  6. 苹果损失超 1000 万美元,前员工被控收回扣、盗窃、欺诈

    整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 人在欲望面前往往有难以逾越的障碍. 近期,因为开源无法获得报酬,开发者 Marak Squires 冲动之下删除了自己维护的主流开源 NP ...

  7. 国产开源操作系统OpenCloudOS新进展:装机量超1000万节点,合作伙伴超500家

    近年来,全球开源生态不断发展成熟,云与开源进一步深度融合,共同为开发者提供了能力普惠.技术共享的底层支撑. 12月1日,在2022腾讯全球数字生态大会腾讯云开源生态论坛上,腾讯云全面披露了在操作系统. ...

  8. 年过20载,超1000万人在用,还说要被淘汰?

    听过Java快被淘汰了?告诉你,没那么容易! Java从诞生至今,已经走过了20多年的历史,虽然相比新型的技术语言有些算是"老古董",但是它的应用依然最为广泛,并且有着非常成熟的生 ...

  9. 活动总曝光超1亿,单场引导GMV超1000万,华少快手生活服务专场首战告捷!

    如今的互联网时代,大家对本地生活类服务的需求早已从菜市场.超市提升到吃喝玩乐亲子丽人的方方面面.6月17日,华少在直播间打造快手生活服务专场,产品范围涵盖酒店餐饮.亲子乐园.线上课程等等,品类丰富.价 ...

最新文章

  1. 可以考的python方面的证书-python有证书的加密解密实现方法
  2. STM32 电机教程 26 - ST MCLIB实战之增量式编码器位置传感FOC方案
  3. 将vim打造成IDE编程环境
  4. vxworks 学习和windows azure 学习
  5. 最常用的决策树算法(二)Random Forest、Adaboost、GBDT 算法
  6. element el-popover 要渲染较多内容,特定格式,以及在table 显示不完整。
  7. django 函数装饰器 变为 类装饰器
  8. centos7 卸载 gitlab
  9. ySQL性能优化的21个最佳实践 和 mysql使用索引
  10. 使用微软VS2015编写python代码
  11. 瑞波基因币靠谱吗_Fil币小矿工: IPFS国家认可吗?IPFS是靠谱项目吗?
  12. 简单工厂模式-Simple Factory Pattern
  13. 中国移动MM7 API用户手册(一)
  14. QT与LINUXC后台网络通信实现飞机票网络购票
  15. autocad.net 画多段线_AutoCAD2016快速入门:绘制多段线
  16. 网络安全知识竞赛选择题(31-60题)
  17. anywhere 无法正常使用的问题--IP地址解析
  18. Jib使用小结(Maven插件版)
  19. 【odroid-xu3】 ODROID-XU3硬件连接和烧写过程
  20. 简单而有韵味,让你get最浪漫的表白编程代码大全

热门文章

  1. Educoder Spring入门 第一关:Hello Spring
  2. python爬取今日头条专栏_爬取今日头条Ajax请求
  3. 【博客551】实现主备高可用vip的几种方式
  4. 拯救秃头少女,让你的发量看起来暴增!
  5. 【Java】在Java中实现自动化脚本
  6. wps迷你版表格内文字缩放_如何在Google表格中使用迷你图
  7. 安卓系统手机软件_黑科技!让你的系统再安装一个系统,实现ROOT和XP自由
  8. win11家庭版远程桌面无法连接,出现“这可能是由于CredSSP加密数据库修正问题”解决方案
  9. 二维数组练手小程序--后宫管理
  10. Android基础入门教程——8.3.14 Paint几个枚举-常量值以及ShadowLayer阴影效果