安妮 发自 凹非寺
量子位 出品 | 公众号 QbitAI

平静的水面上,剧变突然出现。

一条黑色弧线从半空延伸而下,划过半个圈。继而自己填满,俨然一座岩山,就这样落在水中间。

水面漾起波纹。揉揉眼睛,绝不是看花了眼:你看那岩山纹路崎岖,倒影也是清晰可见。

第二座、第三座,也接踵而至。

透过现象看本质,控制这一切的,都是电脑前那个手握鼠标乱涂鸦的程序员。

英伟达程序员の现实扭曲力场,发动!

他手握的工具,名叫GauGAN,和印象派大师高更(Gauguin)不到一字之差,而绘画的逼真程度又远在其上。

除了凭空造山,还能秒加飞流直下的大瀑布:

栽棵树什么的,就更是小菜一碟:

照片里该有什么,全凭鼠标安排。

除了造出不存在的物体,GauGAN还能穿越日夜,扭曲季节:

而且它造出来的景物,细致到以前的算法都望尘莫及。

那些对细节要求甚高的作品,比如运动场景、动物照片等等,它也都能根据一张涂鸦生成出来。

有Twitter网友发出来自英伟达GTC展厅的惊呼:

妈呀我被自己的艺术能力惊呆了!

神仙操作,大洋此岸的量子位自愧不如。

好了,正式介绍一下英伟达出品的GauGAN:你画一幅涂鸦,用颜色区分每一块对应着什么物体,它就能照着你的大作,合成以假乱真的真实世界效果图。在AI界,你的涂鸦有个学名,叫“语义布局”。

要实现这种能力,GauGAN靠的是空间自适应归一化合成法SPADE架构。这种算法的论文Semantic Image Synthesis with Spatially-Adaptive Normalization已经被CVPR 2019接收,而且还是口头报告(oral)。

这篇论文的一作,照例还是实习生。另外几位作者来自英伟达和MIT,CycleGAN的创造者华人小哥哥朱俊彦也在其中。

在基于语义合成图像这个领域里,这可是目前效果最强的方法。

神奇的空间适应

在论文中,研究人员揭开了SPADE的神秘面纱。

此前,在语义图像合成领域有一套“流水线式”的加工流程:直接将语义布局(Semantic Layout)作为深度神经网络的输入,然后通过卷积、归一化和非线性层的处理,输出合成图像。

 推断语义布局合成图像 | 图片来自论文Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis

但是,这种传统神经网络架构并不是最优解,其中的归一化层通常会让输入语义蒙版中的信息流失,导致合成效果变差。

为了解决这个问题,研究人员提出了一种新的方法,空间适应标准化(SPatially-Adaptive (DE)normalization),简称SPADE。

这是一种条件归一化层,它通过学习到的空间适应变换,用语义布局调节激活函数,让语义信息在整个网络中有效传播,避免语义信息流失。

SPADE与批标准化(Batch Normalization)类似,激活函数channel-wise是标准化的,但在很多标准化技术中,实际标准化操作后就应用到了学习过的仿射层(Affine Layer)。

但在SPADE中,仿射层是从语义分割图中学习的。这类似于条件标准化,不过所学习的仿射参数现在需要空间自适应,也就是对每个语义标签使用不同的缩放和偏差。

就这样一个小小的改变,让语义信号可以作用于所有层输出,不会在生成图像中丢失语义信息。

 SPACE生成器结构

此外,因为语义信息是通过SPADE层提供的,因此随机向量成为神经网络的输入,所以,你还能随心改变图像的画风。

效果+++

研究人员用COCO-Stuff、ADE20K和Cityscapes等数据集测试SPADE与前人的效果如何。

结果发现,这项新研究面前,此前CRN、pix2pixHD等明星语义图像合成方法效果已经成为渣渣

此前的pix2pixHD和CRN算法只能分辨开天和海的颜色,而GauGAN却遥遥领跑,连渐变的海水颜色和四散的浪花都合成出来了,甚至运动场的场地线:

此外,研究人员用平均检测评价函数(mIoU)、像素准确度(accu)和FID(Frechet Inception Distance)三个维度评估SPADE与其他语义合成模型的评分,SPADE均优于其他模型。

作者介绍

这篇论文由英伟达的研究人员Taesung Park、Ming-Yu Liu、Ting-Chun Wang和Jun-Yan Zhu(朱俊彦)共同完成。

一作Taesung Park是一位韩国小哥,本科和硕士就读于斯坦福,现在还在攻读UC伯克利计算机专业的博士学位。Park哥的论文分别被ICCV 2017、ICML 2019和CVPR 2019三场顶会接收过。

 Taesung Park

目前,Park哥在英伟达实习,由研究员Ming-Yu Liu(劉洺堉)领导。

Ming-Yu Liu在参与过很多CV圈内耳熟能详的项目,包括vid2vid、pix2pixHD、CoupledGAN、FastPhotoStyle、MoCoGAN、FastPhotoStyle等,他的研究在NeurIPS、CVPR、ECCV大会上频频现身。

三作Ting-Chun Wang是Ming-Yu Liu的英伟达研究院同事,也是一作Park哥在UC伯克利的“嫡系”师兄。

四作是一个熟悉的华人名字:朱俊彦。在计算机圈,朱俊彦是大神一样的存在。

2012年清华大学计算机科学系的工学学士毕业后,朱俊彦在CMU和UC伯克利经过5年学习获得UC伯克利电气工程与计算机科学系的博士学位,也师从Alexei Efros。

提出了经典的“马变斑马”的CycleGAN后,还其博士毕业毕业论文Learning to Generate Images,获得了计算机图形学顶会ACM SIGGRAPH 2018“杰出博士论文奖”。

博士毕业后,朱俊彦成为MIT计算机与人工智能实验室(CSAIL)一名博士后研究员。

关于朱俊彦,这篇论文里还有个值得注意的小细节:他为自己标注了两家所属机构:MIT和英伟达。他此前发表的论文中,即便没少和英伟达合作,所属机构也都是MIT或者之前读博的UC伯克利。

 论文截图

传送门

目前,论文已经放出,研究人员表示代码、训练模型和所有图像马上就要来了。

在正在举办的英伟达GTC 19大会上,GauGAN已经亮相了。美国时间周三周五Ting-Chun Wang和Ming-Yu Liu还将进行相关演讲。

论文地址:
https://arxiv.org/abs/1903.07291

GitHub地址(代码即将上线):
https://github.com/NVlabs/SPADE

项目地址:
https://nvlabs.github.io/SPADE/

最后,附上GTC现场Demo演示视频~

作者系网易新闻·网易号“各有态度”签约作者

订阅AI内参,获取AI行业资讯

加入社群

量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;

欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

涂鸦一键变逼真照片,我被自己的绘画技巧惊呆了 | 英伟达朱俊彦CVPR新研究...相关推荐

  1. 英伟达这篇CVPR 2022 Oral火了!2D图像秒变逼真3D物体!虚拟爵士乐队来了!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 你见过乐器自己演奏么?看看这个: 图1. "活灵活现"的虚拟乐器还是在 NVIDIA 服 ...

  2. 不止狂卖芯片,英伟达也飙了新算法:用AI生成逼真的虚假名人照,可用于万物

    本文来源于微信公众号遇见人工智能 如今,"英伟达NVIDIA"这个名字早已经成为GPU.芯片和股价飙升的代名词.但除了卖芯片疯狂赚钱之外,他们也没闲着. 在Deepmind又将升级 ...

  3. 逼真照片随手画,马良神笔已上线 | 点击收获这份英伟达GauGAN开源代码

    鱼羊 发自 纽凹非寺 量子位 报道 | 公众号 QbitAI 有一种神奇的力场,它能凭空造物: 还能扭转时间: 它专注于山和大海: 你也可以试着造一造人潮人海. 你是否还记得它的名字? 没错,就是英伟 ...

  4. 给几个关键词就能出摄影大片,英伟达GauGAN上新2.0:将文本转成逼真图像

    来源丨机器之心 作者丨小舟.陈萍 这么美的照片竟然不是出自摄影师之手?! 在 2019 年举办的 GTC 大会上,英伟达展示了一款新的交互应用 GauGAN:利用生成对抗网络(GAN)将分割图转换为栩 ...

  5. 英伟达发布新型GAN,豹子秒变沙皮狗!| 技术头条

    作者 | 刘静 编译 | 李尔客 转自自图灵TOPIA(ID:turingtopia) 5月9日,英伟达首席研究科学家刘明宇在社交网站公布了其最新研究成果:一种新型的GAN,在测试期间只需几张示例图像 ...

  6. 这些假脸实在太逼真了!英伟达造出新一代GAN,生成壁纸级高清大图毫无破绽...

    栗子 晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 不敢相信,上面这些人脸,全都是假的. 是英伟达的AI生成的. 借用风格迁移的思路,团队为GAN创造了一种新的生成器. 连GAN之父G ...

  7. 2D 照片变身 3D 模型,来看英伟达的 AI 新“魔法”!

    整理 | 郑丽媛 出品 | CSDN 在本周举办的计算机视觉和模式识别会议(CVPR)上,英伟达推出了一种名为 3D MoMa 的 AI "魔法":将静态 2D 照片转换为可轻松编 ...

  8. 把「我的世界」马赛克变成逼真大片,英伟达又出黑科技

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 子豪 发自 凹非寺 量子位 报道 | 公众号 QbitAI 先来看一 ...

  9. 把马赛克变成逼真大片,英伟达又出黑科技

    本文转载自程序员极客实验室 先来看一张海岛大片: 这可不是哪个摄影师的杰作,而是出自GANcraft之手. 原图是「我的世界」中一个马赛克画质的场景: 这下「我的世界」真的变成了,我的世界! GANc ...

最新文章

  1. JAVA基础4-循环语句
  2. Reactive Extensions(Rx) 学习
  3. boost::mpi模块对 broadcast() 集合的测试
  4. ASP.NET Core:CMD命令行+记事本 创建Console程序和Web Application
  5. 均衡教派服务器维护,LOL十大最坑大区盘点 LOL最坑服务器 均衡教派坐实榜首
  6. 码农小汪-Hibernate学习8-hibernate关联关系注解表示@OneToMany mappedBy @ManyToMany @JoinTable...
  7. android 屏幕横竖屏切换时生命周期运行详解,创建横屏layout,has no declaration in the base
  8. 从PCI上读取数据 线程和定时器效率
  9. TypeScript完全解读(26课时)_9.TypeScript完全解读-TS中的类
  10. Ubuntu系统上安装WPS
  11. Windows运行及cmd常用命令
  12. 【本周最新】qlv转mp4格式转换器 工具 软件
  13. mist linux安装位置,Mist(以太坊浏览器)
  14. 知乎盐选会员-share1223会员商城
  15. 彻底删除的文件如何恢复?一个方案,解决烦恼
  16. 解决CSR 8510 A10蓝牙适配器驱动安装不正常问题
  17. python支持的编程方式包括,python的两种编程方式是什么
  18. 认知智能中国原生智能科技体系 一文看懂认知智能 道翰天琼认知智能奠基者领导者
  19. Android学习之 Fragment
  20. 数据库--分库分表--垂直分表与水平分表

热门文章

  1. javascript代码重构之:写好函数
  2. 衍射极限、MTF与像素大小(2)
  3. 修改服务器返回数据类型,服务器返回数据类型
  4. 一文教会你数据库系统调优
  5. 写给前端应届生的职业规划建议
  6. Pycharm安装cv2
  7. 修改mysql 视图字段类型_记一次mysql视图创建时自定义字段类型不同环境不同的原因...
  8. 别像〝弱智〞一样提问!
  9. 造成eBay账号关联的因素有哪些
  10. PS把图标背景变为透明背景