那么多GAN哪个好?谷歌大脑泼来冷水:都和原版差不多 | 论文
夏乙 编译整理
量子位 出品 | 公众号 QbitAI
从2014年诞生至今,生成对抗网络(GAN)热度只增不减,各种各样的变体层出不穷。有位名叫Avinash Hindupur的国际友人建立了一个GAN Zoo,他的“动物园”里目前已经收集了多达214种有名有姓的GAN。
DeepMind研究员们甚至将自己提出的一种变体命名为α-GAN,然后在论文中吐槽说,之所以用希腊字母做前缀,是因为拉丁字母几乎都被占了……
这还不是最匪夷所思的名字,在即将召开的NIPS 2017上,杜克大学还有个Δ-GAN要发表。
就是这么火爆!
那么问题来了:这么多变体,有什么区别?哪个好用?
于是,Google Brain的几位研究员(不包括原版GAN的爸爸Ian Goodfellow)对各种GAN做一次“中立、多方面、大规模的”评测,得出了一个有点丧的结论:
No evidence that any of the tested algorithms consistently outperforms the original one.
量子位非常不严谨地翻译一下:
都差不多……都跟原版差不多……
比什么?
这篇论文集中探讨的是无条件生成对抗网络,也就是说,只有无标签数据可用于学习。选取了如下GAN变体:
MM GAN
NS GAN
WGAN
WGAN GP
LS GAN
DRAGAN
BEGAN
其中MM GAN和NS GAN分别表示用minimax损失函数和用non-saturating损失函数的原版GAN。
除此之外,他们还在比较中加入了另一个热门生成模型VAE(Variational Autoencoder,变分自编码器)。
对于各种GAN的性能,Google Brain团队选了两组维度来进行比较。
一是FID(Fréchet Inception Distance),FID的值和生成图像的质量负相关。
测试FID时用了4个数据集:MNIST、Fashion MNIST、CIFAR-10和CELEBA。这几个数据集的复杂程度从简单到中等,能快速进行多次实验,是测试生成模型的常见选择。
二是精度(precision、)、查全率(recall)和F1得分,用来衡量判别式模型的质量。其中F1是精度和查全率的调和平均数。
这项测试所用的,是Google Brain研究员们自创的一个数据集,由各种角度的三角形灰度图像组成。
△ 精度和查全率都高、高精度低查全率、低精度高查全率、精度和查全率都低的模型的样本
对比结果
Google Brain团队从FID和F1两个方面对上面提到的模型进行比较,得出了以下结果。
FID
通过对每个模型100组超参数的大范围搜索,得出的结论是GAN在训练中都对于超参数设置非常敏感,没有哪个变体能够幸免,也就说,哪个GAN也没能比竞品们更稳定。
从结果来看,每个模型的性能擅长处理的数据集不太一样,没有在所有数据集上都明显优于同类的。不过,VAE相比之下是最弱的,它所生成出的图像最模糊。
测试还显示,随着计算资源配置的提高,最小FID有降低的趋势。
如果设定一个FID范围,用比较多计算资源训练的“坏”模型,可能表现得比用较少计算资源训练的“好”模型要更好。
另外,当计算资源配置相对比较低的时候,所有模型的最小FID都差不多,也就是说,如果严格限制预算,就比较不出这些模型之间具有统计意义的显著区别。
他们经过比较得出的结论是,用能达到的最小FID来对模型进行比较是没有意义的,要比较固定计算资源配置下的FID分布。
FID之间的比较也表明,随着计算力的增加,最先进的GAN模型之间体现不出算法上的优劣差别。
精度、查全率和F1
Google Brain团队还用他们的三角形数据集,测试了样本量为1024时,大范围搜索超参数来进行计算的精度和查全率。
对于特定的模型和超参数设置,最高F1得分会随着计算资源配置的不同而不同,如下图所示:
△ 不同计算资源配置下各模型的F1、精度和查全率
论文作者们说,即使是一个这么简单的任务,很多模型的F1也并不高。当针对F1进行优化时,NS GAN和WGAN的精度和查全率都比较高。
和原版GAN相比
Google Brain团队还将这些变体和原版GAN做了对比。他们得出的结论是,没有实证证据能证明这些GAN变体在所有数据集上明显优于原版。
实际上,NS GAN水平和其他模型持平,在MNIST上的FID总体水平最好,F1也比其他模型要高。
相关链接
要详细了解这项研究,还是得读论文:
Are GANs Created Equal? A Large-Scale Study
Mario Lucic, Karol Kurach, Marcin Michalski, Sylvain Gelly, Olivier Bousquet
https://arxiv.org/abs/1711.10337
查找某种GAN变体,可以去文章开头提到的GAN Zoo:
https://github.com/hindupuravinash/the-gan-zoo
— 完 —
加入社群
量子位AI社群11群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot4入群;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进群请加小助手微信号qbitbot4,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
那么多GAN哪个好?谷歌大脑泼来冷水:都和原版差不多 | 论文相关推荐
- 那么多GAN哪个好?谷歌大脑泼来冷水:都和原版差不多
来源:量子位 概要:从2014年诞生至今,生成对抗网络(GAN)热度只增不减,各种各样的变体层出不穷. 从2014年诞生至今,生成对抗网络(GAN)热度只增不减,各种各样的变体层出不穷.有位名叫Avi ...
- 关于GAN的七个问题:谷歌大脑工程师带你梳理生成对抗网络
https://www.toutiao.com/a6678477083334672903/ 鱼羊 发自 纽凹非寺 量子位 报道 | 公众号 QbitAI 比起自己埋头写论文,聊聊自己感兴趣的方向,期待 ...
- 超越BN-ReLU!谷歌大脑等提出EvoNorms:归一化激活层的进化
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转载自:机器之心 | 作者:Hanxiao Liu等 最近,谷 ...
- MaskGAN:谷歌大脑让AI学做完形填空的新尝试
岳排槐 发自 凹非寺 又见一篇神标题论文. 来一起感受一下. MaskGAN: Better Text Generation via Filling in the __ 这又是什么鬼?标题里竟然还有需 ...
- 谷歌大脑2017总结1
谷歌AI Senior Fellow.谷歌大脑负责人Jeff Dean,按照惯例,今天开始发布2017年度的谷歌大脑年度总结. 在这份已经发布的总结中,Jeff Dean回顾了谷歌大脑团队过去一年的核 ...
- 前谷歌大脑员工创业公司获4000万美元融资,Hinton、李飞飞等支持
来源:新智元 [导读]NLP模型提供商Cohere宣布获得4000万美元A轮融资.该公司由谷歌大脑前员工创立,核心模型源自Transformer,并获得了Geoffrey Hinton,李飞飞等AI界 ...
- 地表最强VLP模型!谷歌大脑和CMU提出极简弱监督模型
来源:arxiv 编辑:Priscilla 好困&新智元 [导读]谷歌大脑与CMU华人团队提出全新图像+文本预训练模型SimVLM,在最简单的模型结构与训练方式下也能在6个多模态基准领域达到S ...
- 再造一个「谷歌大脑」?Samy Bengio加入苹果:将领导全新AI研究部门
转自:机器之心 越来越多的人工智能顶尖研究者,正在加入这家全球市值最高的科技公司. 本周一,美国科技巨头之间的一个重要高管变动被曝光:谷歌大脑联合创始人.Torch 框架的联合作者 Samy Beng ...
- AI用50个三角形画出抽象版蒙娜丽莎,有股后现代的感觉了 | 谷歌大脑出品
明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 现在,给AI一个短语和50个三角形,它就能创作一副极简风格的抽象画了. 只需输入"a drawing of cat(一张猫的画像) ...
最新文章
- tf.keras.layers.Flatten该网络中的第一层tf.keras.layers.Flatten将图像的格式从2d阵列(28乘28像素)转换为28 * 28 = 784像素的1d阵列。可以
- 汇编语言TEXTEQU伪指令
- zabbix cpu核数 windows_Zabbix的应用(6)----常见错误
- 解决remove @override annotation
- 沉下来,沉下来,别让自己太浮躁
- Ubuntu 18.04 忘记 mysql root密码及其重置
- vue实现搜索框记录搜索历史_云开发版的微信商城小程序第四章,首页自定义搜索框的实现...
- Win11玩永劫无间闪退怎么办?Win11玩永劫无间闪退的解决方法
- pcm5102a解码芯片音质评测_简单测评200元档可能是唯一搭载高通QCC3020芯片的真无线蓝牙耳机...
- 数学模型——Logistic回归模型(含Matlab代码)
- 华为模拟器eNSP下载与安装教程
- 数据分析师的职业发展
- android 6 root 工具,安卓手机ROOT ROOT工具
- 解决vue中双击事件会触发两次单击事件问题
- 计算机切换桌面快捷方式,显示桌面快捷键,教您win10怎样快速切换到桌面
- Backtrader量化平台教程(六)Analyzer
- 反相器下降沿延迟时间计算
- 计算机物联网前沿技术汇总
- 微信html5 下拉刷新,【报Bug】Iphone6s微信浏览器打开H5页面,出现下拉刷新bug
- 2. 英特尔格式与摩托罗拉格式对比
热门文章
- 盘点开发者最爱的 IntelliJ 插件 Top 10
- 最前沿的容器技术有哪些?腾讯、华为、思科等 6 位顶尖专家为你解答!
- 电脑如何安装php文件夹在哪个文件夹,win7系统桌面文件在c盘哪个文件夹
- tkinter中text插入_tkinter做一个体重档案
- Kafka必须掌握的核心技术:简述Java线程池的作用和实现方式
- JAVA day16、17 数据结构(栈、队列、数组、链表、红黑树)
- html5 3D微信头像,这组3D动物肖像设计,让微信头像惊艳整个朋友圈
- php 中抽象类的作用,解释PHP中的抽象类。
- java futuretask 源码解析_Java异步编程——深入源码分析FutureTask
- python使用级数pi的近似值_JavaScript与Python计算pi的近似值运行时间对比