参加 2019 Python开发者日,请扫码咨询 ↑↑↑

作者 | Just

出品 | AI科技大本营(ID:rgznai 100)

一次 TED 演讲中,前锤子科技设计总监罗子雄分享如何入门学设计的经验。

要想学好设计,他提醒观众要先看基础实例教程。由于互联网上培训机构鱼龙混杂,为了卖课,他们都喜欢利用人性的弱点,给出耸人听闻的课程文案,比如像你听过的英语培训机构《三十天教你突破雅思7分》,设计和画画教程的文案也是类似,《如何六步画好人物肖像》。

当然,还有更狠的:《如何两步画好人物肖像》。

两步?这是第一步:

第二步。结束。

这完全是“神笔马良”的效果啊。虽然是调侃,但也描绘了人们在想要学好新事物时一步登天,追求速成的荒诞心态。

可是,也不是人人都想成为每一笔都要自己亲力亲为的画家,对于设计师、插画师等专业人士来说,在保证质量的条件下,要追求项目完工的效率,要想达到这两个目标的最优解,最好的方式,显然是借助科技的力量。

现在要介绍的这款 AI 软件 ,能让你真的见识一下 “X 步画出任何你想要的写实风景画”,它叫 GauGan 系统。

在 3 月 19 日的 GTC 2019 上,Nvidia 推出了这款 AI 绘画系统,该软件使用生成对抗性网络,只要你给出简单的草图,再点击几下,几秒钟就可绘制逼真的风景图像,下面是实打实表演了一个《如何三步画一副写实风景图》,AI 诚不我欺。

GauGan 目前有三种工具:油漆桶、钢笔和铅笔。屏幕底部是天空、树木、云等一系列选定对象,选择任一对象在左侧简单描绘,就会自动生成相应的逼真物体。

要做到这种效果,当然离不开庞大的数据来训练模型。目前,Nvidia 已为 GauGAN 深度学习模型提供了 100 万张从 Flickr 收集的数据。需要指出,GauGAN 并不只是对已有的照片进行拼接,实际上最终生成的图像都是独特的合成图像。所以即便不同的用户做出相同的设置并画出相似的草图,系统中也会通过内置的参数给出生成不同的图像。

也许会有人问,GauGan 以后能不能画人物肖像?尽管目前 Nvidia 没有明确给出可能性,但一个合理的推测是,如果给 GauGan 系统训练足够多的人物肖像数据,画一幅你想要的肖像画应该不成问题。如果你还记得最近那个很火的“这个人不存在”网站,它就利用 Nvidia 开源的 StyleGan 算法随机生成了人脸图像。

GauGan 发布后,网友们也对其可能出现的问题和实际应用展开了讨论。

有网友在 YouTube 上问了个恶作剧问题:将草图中的天地倒置,GauGan 系统会生成什么图像?

回复中点赞最高的网友说神经网络会乱成一团麻,另一位网友的回答还算靠谱,他说 Sky-Net 会排除终结器大军,它们是不会允许这种事发生的。

还有网友在 reddit 上评论称,如果将其应用在 3D 环境中,尤其 VR 世界的游戏开发会更容易。

显然,该系统可能对视频游戏设计师、架构师等专业人士很有吸引力,比如能够帮他们提高创建游戏场景的效率。不过目前 Nvidia 没有任何商业化发布的计划,但可能会很快发布一个能让任何人都使用的公开试验版。

Nvidia 也会将 GauGAN 应用到它刚刚发布的一个叫 AI 游乐园的网站上,现在感兴趣的网友在该网站上可以体验基于 AI 的图像修复、艺术风格转换、真实感图像合成功能。

https://www.nvidia.com/en-us/research/ai-playground/

GauGAN 背后的研究论文

GauGAN 系统的创建在一篇名为《空间自适应归一化的语义图像合成》(或称 SPADE 项目)的论文中有详细介绍,这篇论文由 UC Berkeley, NVIDIA, MIT CSAIL 实验室的 4 名研究人员共同写就,已公开发布在 Arxiv 上。值得一提的是,该论文将在 6 月的 CVPR 2019 大会上做口头报告。

所谓空间自适应归一化是一个简单但有效的层,用于在给定输入语义布局的情况下合成照片级的逼真图像。论文摘要提到,以前的方法直接是将语义布局作为输入提供给网络,然后通过卷积、标准化和非线性层进行处理。

他们则证明这并不是最理想的,因为归一化层倾向于“洗掉”语义信息。为了解决这个问题,他们建议使用输入布局通过空间自适应的、学习的变换来调整归一化层中的激活。与现有方法相比,几个具有挑战性的数据集上的实验表明,该方法在视觉保真度和与输入布局的对齐性方面具有优势。

实际上,GauGAN 是基于去年推出的能同样呈现虚拟世界的 Pix2Pix 系统,但后者在仿真风景方面存有一定瑕疵,从上图比对效果中就可以明显看到。

最后,他们的模型允许用户轻松地控制合成结果的样式和内容,以及创建多模态结果。

方法简述


在许多诸如批量标准化(Batch Normalization)这样的常见的标准化技术中,在实际标准化步骤之后应用了学习的仿射层(如在 PyTorch 和 TensorFlow 中)。而在 SPADE 项目中,仿射层是从语义分割映射来学习的。这类似于条件归一化,只是学习仿射参数现在需要空间自适应,这意味着我们将对每个语义标签使用不同程度的缩放和偏向。

使用这种简单的方法,语义信号可以作用于所有层的输出,不受可能丢失此类信息的规范化进程的影响。此外,因为语义信息是通过 SPADE 中的层提供,所以随机潜在向量可以作为网络的输入,其可以用于操纵所生成图像的样式。

更多详情,参见论文:https://arxiv.org/abs/1903.07291

Flickr 图像中的应用

如前所述,GauGAN 的神经网络是通过 100 张开源的 Flickr 图像进行训练,它还能够理解如雪、树木、水等超 180 个物体之间的关系。对物体之间如何相互关联的理解意味着河水旁的树会有倒影,或者当季节变化时并且地面上有雪时,就会绘成没有叶子的树。也就是说,神经网络能够根据它对真实图像的了解对最终生成图像的相关细节进行合理填充。

由于 SPADE 适用于不同的标签,因此可以使用现有的语义分割网络对其进行训练,以学习从语义映射到照片的反向映射。这些图片是由 SPADE 从 Flickr 上抓取的 4 万张图片进行训练生成的。

论文作者称,他们将很快发布代码、训练模型和所有图像。

GitHub地址:https://github.com/nvlabs/spade/

论文作者中的华人面孔

论文的四位作者中,有两位是华人科学家。其中一位是朱俊彦,他于 2012 年获得清华大学计算机科学系的工学学士学位,2017 年获得 UC Berkeley 电气工程与计算机科学系的博士学位,他的导师是 Alexei Efros。2018 年,朱俊彦获得了 UC Berkeley 颁发的 David J. Sakrison Memorial Prize,以及的 Nvidia 的 Pioneer Research Award。目前,他是 MIT 计算机与人工智能实验室(CSAIL)的一名博士后研究员。

朱俊彦被称为计算机图形学领域现代机器学习应用的开拓者,他发表了第一篇用深度神经网络系统地解决自然图像合成问题的论文,其重点科研成果 CycleGAN,不仅为计算机图形学等领域的研究人员所用,也成为视觉艺术家广泛使用的工具。

另一位是 Ming-Yu Liu,2016 年加入 NVIDIA,现为 Nvidia Research 首席研究科学家,他的研究重点是图像生成和理解的生成模型。此前,他是三菱电机研究实验室(MERL)的首席研究科学家。他于 2012 年获得了马里兰大学帕克分校电气与计算机工程系的博士学位。他的物体姿态估算系统于 2014 年被 R&D 杂志评为最具创新性的百项技术产品之一。在 CVPR 2018 中,他在 WAD 挑战中的语义分割竞争领域适应和鲁棒视觉挑战中的光流竞赛中获得了第一名。

(本文为 AI科技大本营原创文章,转载请微信联系 1092722531)

投稿、合作请添加AI科技大本营编辑微信:1731967109,备注“公司名称 + 职位” 或“学校 + 专业”,由于人数较多,会在审核后通过。

2019Python开发者日

「2019 Python开发者日」7折票限时开售!这一次我们依然“只讲技术,拒绝空谈”10余位一线Python技术专家共同打造一场硬核技术大会。更有深度培训实操环节,为开发者们带来更多深度实战机会。

目前演讲嘉宾议题已确认,扫描海报二维码,即刻抢购7折优惠票价!更多详细信息请咨询13581782348(微信同号)。

你也可以点击阅读原文,查看大会详情。

出身清华,大神朱俊彦再出GauGAN:AI让你变身神笔马良相关推荐

  1. 一年六篇顶会的清华大神提出Fastformer:史上最快、效果最好的Transformer

    来源:新智元 [导读]Transformer模型好是好,可惜太慢了!最近一位清华大神在arxiv上传了一篇论文,提出新模型Fastformer,线性时间复杂度,训练和推理效率史上最快,还顺手在排行榜刷 ...

  2. 怀旧服服务器在线人数查询,民间大神用土方法估算出魔兽怀旧服在线人数 震动了官方...

    随着<魔兽怀旧服>的正式发布,许多老玩家都在第一时间聚集到当初所怀念的"世界"当中.即便官方在开服前紧急新增了几组服务器,也难以抵挡住玩家所带来的热情,排队是正常的事情 ...

  3. c++new时赋初值_C高级编程精髓之内存管理,万千码农踩过的雷,大神带你走出雷区...

    今天给大家分享C高级编程精华片之内存管理--欢迎跟大家一起踏进内存这片雷区,然后带大家从雷区中走出来! 程序员们经常编写内存管理程序,往往提心吊胆.如果不想触雷,唯一的解决办法就是发现所有潜伏的地雷并 ...

  4. Alibaba最新出炉 清华大神手撕面试官后留下Java面试八股文手册

    不知不觉中2022年已近年末,不知道在2022年大家又有怎样的一个目标,今年也是收到了很多小伙伴的反馈,注定是有人欢喜有人愁,有人拿下自己心仪的offer,有人面试遭遇滑铁卢! 最近小编也是翻了很多的 ...

  5. 建模大神是如何制作出可爱戴着眼镜的卡通女孩角色呢

    从脸部,使用base mesh,将其带到ZBrush中后,开始用粘土和移动刷雕刻新的细节部分.(如果想更多了解游戏建模可以加小编游戏建模企鹅交流社团:1046777540,还可以领取免费的教程哦) 在 ...

  6. python每行输出8个式子_求大神用python写出算术题的式子和结果。

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 for a1 in range(1,10): for a2 in range(1,10): if a2 >= a1 or a1-a2==a2: co ...

  7. 大神见地:Jeff Dean展望AI的5大趋势!

    ‍ 机器学习正在并且也将变得无处不在.‍‍ ‍编译丨杏花.莓酊.王晔 编辑丨‍青暮 文章 AI科技评论 又是一年一度的谷歌年度盘点,Jeff Dean再次执笔,为我们回顾过去一年来谷歌在5大方向的研究 ...

  8. 【AI新星耀名校】陈天奇、朱俊彦、金驰加盟CMU、普林斯顿

    点击"简说Python",选择"置顶/星标公众号" 福利干货,第一时间送达!   新智元报道   来源:百度百科.个人主页等 编辑:金磊.小芹.张佳 本文转载自 ...

  9. 怼完Sophia怼深度学习!细数完大神Yann LeCun 这些年怼过的N件事,原来顶级高手是这样怼人的...

    图片来源:PCmag.com 十多个小时前,深度学习大神Yann LeCun语出惊人,他宣布放弃"深度学习"这个词.因为媒体对这个词的炒作言过其实,混淆了大家真正的工作,而&quo ...

最新文章

  1. React项目 --ES6 语法中的class (9)
  2. ML重要概念:梯度(Gradient)与梯度下降法(Gradient Descent)
  3. 温州大学《深度学习》课程课件(七、卷积神经网络基础)
  4. 【Unity】第8章 GUI开发
  5. zookeeper笔记+源码刨析
  6. java大小写转置,javascript 字符串 数字反转 字母大小写互换
  7. 又见高铁霸座,占座者嚣张称“就不让”!结果舒适…
  8. 4.9 内容代价函数
  9. 更新mysql软件_MySQL软件升级
  10. espresso 2.0.4 Apple Xcode 4.4.1 coteditor 价格
  11. 【css】谈谈 css 的各种居中——读编写高质量代码有感
  12. NUC1015 计算数字的根
  13. 35. PHP 字符串
  14. linux读usb转ttl串口数据,ubuntu16.04使用USB转TTL(ch340)串口转usb调试过程
  15. java 排队_JAVA实现排队论
  16. 自适应弹出框-垂直居中
  17. 读书笔记——WebKit技术内幕 WebKit架构和模块
  18. 习惯的力量在于不由主——知道顶个球用,成为习惯才是你的
  19. 一英寸芯片大小_英寸,究竟是多大?
  20. IE hasLayout详解

热门文章

  1. 关于JavaScript的闭包(closure)
  2. XShell连接Deepin
  3. 特斯拉FSD车端感知解析
  4. Ubuntu网络设置
  5. Codeforces Round #466 (Div. 2)
  6. 【设计模式】 模式PK:策略模式VS状态模式
  7. 三维等值面提取算法(Dual Contouring)
  8. ACM学习历程—HDU5586 Sum(动态规划)(BestCoder Round #64 (div.2) 1002)
  9. knockout学习笔记目录
  10. POJ 3630 Phone List