夏乙 舒石 发自 凹非寺
量子位 出品 | 公众号 QbitAI

AMAZING、Incredible、Very impressive、A huge fan……

大周末的,各路人工智能、机器学习的大神,一反常态,纷纷在推特上花样夸奖、交口称赞一篇还在双盲评审中的ICLR 2019论文(BigGAN)。

因为,效果实在是,令!人!震!惊!

DeepMind负责星际项目的Oriol Vinyals,说这篇论文带来了史上最佳的GAN生成图片。陈天奇也说对这个研究及后续充满好奇。

效果有多好?

先看数字。经过ImageNet上进行128×128分辨率的训练后,BigGAN的Inception Score(IS)得分是166.3,一下子比前人52.52的最佳得分提升了100多分,离真实图像的233分更近了。而Frechet Inception Distance(FID)得分,也从之前的18.65优化到了9.6。

再看实例。你能分辨出以下哪张图片是AI生成的假图片,哪张是真实的图片么?

再来一个。以下八张,哪个是假的?

现在公布答案,以上12张,全都是生成的假图片。现在你能理解为什么大家都震惊并且齐声称赞了吧。

512×512轻松搞定

其实,这些例子中还隐藏着一个更厉害的事实:上边的八拼图像,分辨率是512×512。放两张大图,来共同鉴赏一下:

是不是依然真假难辨,非常Amazing?

这就对了,除了搞定128×128小图之外,BigGAN还能直接在256×256、512×512的ImageNet数据上训练,生成更让人信服的样本。

上边展示的512×512样本,IS和FID分数分别为241.4和10.9;而256×256样本得到了233.0分的IS、9.3分的FID。

这是BigGAN在各种分辨率下的全部得分情况:

原理

“大”GAN为什么这么厉害?

BigGAN的“大”,不止是模型参数多,训练规模也是有GAN以来最大的。它的参数是前人的2-4倍,批次大小是前人的8倍。

对于图像生成这个任务来说,训练规模大真的很管用。

作者(们)为了做大规模训练,研究了如何克服这种大规模带来的特有的不稳定性。

为了适应大规模训练,他们对GAN架构做了两处简单的改动。BigGAN的生成器和鉴别器架构如下图所示:

BigGAN用了ResNet架构,和Takeru Miyato等人在去年ICLR 2017上发表的cGANs with Projection Discriminator里差不多,但是对判别器的通道类型做了一些改动,让每个模块第一个卷积层里的滤波器数量和输出滤波器相等。

他们的生成器G,用了单个共享类嵌入,它具有线性投影性质,能为BatchNorm层生成每个样本的增益和偏差。

这是BigGAN的生成器架构:

生成器中的一个残差模块如下图所示:

另外,他们还发现,将正交正则化应用到生成器上,能让它适用于简单的“截断技巧”,这样就可以通过截断潜在空间,来精细控制样本保真度和多样性之间的权衡。

樱桃时刻

再来赏析一下BigGAN的功力。

其中有一部分,以“像,真像”而令人震惊。

有个意大利小哥说,BigGAN生成的食物满分。看起来很好吃的样子。

还有一部分,以“想象力惊人”而令人印象深刻。

比如论文里列的“网球狗”失败案例:

不过一大堆人都说这个网球狗狗,挺!萌!的!

还有这种神奇的大象。

当然,BigGAN也有确实生成特别不好的图片类型,比方说有人的场景。

这里挑选几个例子看看。

这个是骑自行车的人?

这个是穿貂的人?

这个是女人?

看来,最难把握的还是人……

最后强调一下,陈天奇说,这项研究是都在分类条件下生成的图像,很好奇它捕捉到了多少分布,非条件版本会是什么样。

论文地址

对BigGAN论文感兴趣的朋友,可以直接前往如下地址访问:

https://openreview.net/pdf?id=B1xsqj09Fm

这是一篇良心论文,附录中还包含了“NG镜头集锦”环节(NEGATIVE RESULTS),讲述了研究中遇到的各种坑,非常值得一读。Google AI研究员James Bradbury专门在Twitter上说,真是太喜欢这部分了。

如果你想反cherry pick,作者还放出了生成图片的图集。图集在Google Drive上。

至于代码?好多人在找,不过目前似乎没放出来。GitHub上貌似也搜不到相关的内容。

这篇论文如此火爆,同时也引发了一些人的担心:毕竟这篇论文还在双盲评审中,现在闹得动静这么大,有可能会影响评审结果。

以及,这篇论文的作者到底是谁?目前还不得而知。

加入社群

量子位AI社群28群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

惊!史上最佳GAN现身,超真实AI假照片,行家们都沸腾了相关推荐

  1. 史上最佳GAN被超越!生成人脸动物高清大图真假难辨,DeepMind发布二代VQ-VAE

    栗子 安妮 发自 凹非寺 量子位 出品 | 公众号 QbitAI 不得了,以生成逼真假照片出名.被称作"史上最佳GAN"的BigGAN,被"本家"踢馆了. 挑战 ...

  2. 训练史上最佳GAN用了512块TPU,一作自述:这不是算法进步,是算力进步

    铜灵 编译整理 量子位 出品 | 公众号 QbitAI 最近,一场"大GAN(BigGAN)"浪潮让机器学习界的行家沸腾了一次.看到这个生成图片质量足以以假乱真的神经网络,网友齐声 ...

  3. 史上最佳十大游戏排名 魔兽世界位列第十

      史上最佳十大游戏排名 魔兽世界位列第十 随着游戏行业的不断扩大,每位玩家都能获取自己希望购买的心仪游戏.棒透了的独立游戏也总是不断出现.然而,那些系列性的游戏却能使我们成为永久的"回头客 ...

  4. (转)你事业的上限究竟在哪里?《哈佛商业评论》史上最佳文章

    你事业的上限究竟在哪里?<哈佛商业评论>史上最佳文章 2017-07-25 创业投资家 本文共11232,建议阅读时间20分钟 推荐等级:★★★★☆ 作者 | 彼得·德鲁克 来源 | 中文 ...

  5. 登上维密舞台的程序员,她可能是史上最拼的超模!

    很多人提起「超模」,总会觉得她们只是靠脸和身材在吃青春饭.但事实上这群被誉为非人类物种的尤物之中,有许多皆是美貌与才华兼具的综合体.比你美却还比你拼,用来形容她们再合适不过了. 今天要和大家分享的便是 ...

  6. 好嗨游戏:20款史上最佳的MMORPG游戏,看看有没有你知道的?

    文章首发于:好嗨游戏 MMORPG(大型多人在线角色扮演游戏)是有史以来最受欢迎的游戏类型之一,一个集竞技和角色扮演为一体的游戏类型,多重体验,多重快乐.在MMORPG游戏里面,玩家不仅能选择自己喜爱 ...

  7. 逆天!华为发布史上最佳拍照手机,DXO 评分达 112,售价近万元...

    北京时间 2019 年 3 月 26 日晚间 9 点钟,同样是在法国巴黎(与 P20 系列的发布地点一致),一年一度的华为 P 系列旗舰手机发布会将正式开始,今年的型号已经确定为 P30 和 P30 ...

  8. 逆天!华为发布史上最佳拍照手机,DXO 评分达 112,售价近万元

    北京时间 2019 年 3 月 26 日晚间 9 点钟,同样是在法国巴黎(与 P20 系列的发布地点一致),一年一度的华为 P 系列旗舰手机发布会将正式开始,今年的型号已经确定为 P30 和 P30 ...

  9. 史上最难逻辑题!据说99.9%的人都做不出来……

    全世界只有3.14 % 的人关注了 爆炸吧知识 非常「逻辑」 撩人于无形 普林斯顿大学博士生 Raymond Smullyan 是一位非常厉害逻辑高手. 在Smullyan与他非常迷恋的女音乐家的第一 ...

最新文章

  1. 【iOS开发】企业版证书($299)In-House方式发布指南 (转)
  2. html固定广告,css如何实现广告固定动态漂浮
  3. (asp.net MVC学习)System.Web.Mvc.UrlHelper的学习与使用
  4. 在html怎么使用php函数,php htmlentities函数讲解及使用实例
  5. 局部钩子能防全局钩子吗_阿特的钩子成为队友的噩梦,毫无游戏体验感,小夏:当场哭了出来...
  6. 跨计算机建立视图_计算机二级office
  7. ubuntu下搭建java web开发环境的详细步骤
  8. SpringMVC用注解写第一个程序HelloSpringMVC
  9. 解决kaggle邮箱验证不能confirm的问题
  10. c语言禁止窗口关闭,无法关闭窗口的程序
  11. python list的+=操作
  12. LoRa协议学习工具
  13. 地理空间数据云 Landsat 8 OLI_TIRS 影像数据下载详解
  14. unity android判断是否横屏,android 强制设置横屏 判断是横屏还是竖屏
  15. myssql基于Spring Boot的宠物猫店管理系统的设计与实现毕业设计源码140909
  16. C++编程入门系列之目录和总结
  17. 柯西飞行,瑞利飞行,莱维飞行,重尾分布、随机游走
  18. Typora中(Markdown语法)在符号的上方添加符号或文字
  19. origin修复中_win10系统中Origin Access出错如何修复
  20. 安卓之CircleImageView解析

热门文章

  1. 向张小龙开炮!百度祭出智能小程序
  2. 电闹上赠么使用计算机,计算器怎么算n次方 怎么用电脑计算器算次方
  3. 互联网时代的了解和未来的预期_互联网时代品牌农业该如何营销 后园带你了解这五点...
  4. python compile函数_python 内置函数 compile()
  5. 微信小程序云函数传递数组_微信小程序云开发一周入门
  6. oracle 数据操作指令,ORACLE数据操作命令
  7. redhat 6.5 mysql rpm_CentOS6.5和RedHat6.5下以rpm方式安装mysql-5.6.20
  8. mt4双线macd_手机版MT4怎样添加双线MACD指标 手机MT4双线MACD设置方法
  9. php 树结构遍历,php 递归遍历树
  10. 自实现进程管理器linux,【Linux工具篇】supervisor进程管理器