史上最强GAN被谷歌超越!标注数据少用90%,造假效果却更逼真
当前生成图像最逼真的BigGAN被超越了!
出手的,是谷歌大脑和苏黎世联邦理工学院。他们提出了新一代GAN:S³GAN。
它们生成的照片,都是真假难辨。
下面这两只蝴蝶,哪只更生动?
两张风景照片,哪张更真实?
难以抉择也正常,反正都是假的。上面的照骗,都是左边出自S³GAN,右边的出自BigGAN之手。
它们还有更多作品:
至于哪些是S³GAN,答案文末揭晓。
肉眼难分高下,就用数据说话。跑个FID(Frechet Inception Distance)得分,分值越低,就表示这些照骗,越接近人类认识里的真实照片——
S³GAN是8.0分,而BigGAN是8.4分。新选手略微胜出。
你可还记得BigGAN问世之初,直接将图像生成的逼真度提高了一个Level,引来Twitter上花样赞赏?
如今它不止被超越,而且是被轻松超越。
“轻松”在哪呢?
S³GAN达到这么好的效果,只用了10%的人工标注数据。而老前辈BigGAN,训练所用的数据100%是人工标注过的。
如果用上20%的标注数据,S³GAN的效果又会更上一层楼。
标注数据的缺乏,已经是帮GAN提高生成能力,拓展使用场景的一大瓶颈。如今,这个瓶颈已经几乎被打破。
现在的S³GAN,只经过了ImageNet的实验,是实现用更少标注数据训练生成高保真图像的第一步。
接下来,作者们想要把这种技术应用到“更大”和“更多样化”的数据集中。
不用标注那么多
为什么训练GAN生成图像,需要大量数据标注呢?
GAN有生成器、判别器两大组件。
其中判别器要不停地识破假图像,激励生成器拿出更逼真的图像。
而图像的标注,就是给判别器做判断依据的。比如,这是真的猫,这是真的狗,这是真的汉堡……这是假图。
可是,没有那么多标注数据怎么办?
谷歌和ETH苏黎世的研究人员,决定训练AI自己标注图像,给判别器食用。
自监督 vs 半监督
要让判别器自己标注图像,有两种方法。
一是自监督方法,就是给判别器加一个特征提取器 (Feature Extractor) ,从没有标注的真实训练数据里面,学到它们的表征 (Feature Representation) 。
对这个表征做聚类 (Clustering) ,然后把聚类的分配结果,当成标注来用。
这里的训练,用的是自监督损失函数。
二是半监督方法,也要做特征提取器,但比上一种方法复杂一点点。
在训练集的一个子集已经标注过的情况下,根据这些已知信息来学习表征,同时训练一个线性分类器 (Linear Classifier) 。
这样,损失函数会在自监督的基础上,再加一项半监督的交叉熵损失 (Cross-Entropy Loss) 。
预训练了特征提取器,就可以拿去训练GAN了。这个用一小部分已知标注养成的GAN,叫做S²GAN。
不过,预训练也不是唯一的方法。
想要双管齐下,可以用协同训练 (Co-Training) :
直接在判别器的表征上面,训练一个半监督的线性分类器,用来预测没有标注的图像。这个过程,和GAN的训练一同进行。
这样就有了S²GAN的协同版,叫S²GAN-CO。
升级一波
然后,团队还想让S²GAN变得更强大,就在GAN训练的稳定性上面花了心思。
研究人员说,判别器自己就是一个分类器嘛,如果把这个分类器扩增 (Augmentation) 一下,可能疗效上佳。
于是,他们给了分类器一个额外的自监督任务,就是为旋转扩增过的训练集 (包括真图和假图) ,做个预测。
再把这个步骤,和前面的半监督模型结合起来,GAN的训练变得更加稳定,就有了升级版S³GAN:
架构脱胎于BigGAN
不管是S²GAN还是S³GAN,都借用了前辈BigGAN的网络架构,用的优化超参数也和前辈一样。
不同的是,这个研究中,没有使用正交正则化 (Orthogonal Regularization) ,也没有使用截断 (Truncation) 技巧。
△BigGAN的生成器和鉴别器架构图
训练的数据集,来自ImageNet,其中有130万训练图像和5万测试图像,图像中共有1000个类别。
图像尺寸被调整成了128×128×3,在每个类别中随机选择k%的样本,来获取半监督方法中的使用的部分标注数据集。
最后,在128核的Google TPU v3 Pod进行训练。
超越BigGAN
研究对比的基线,是DeepMind的BigGAN,当前记录的保持者,FID得分为7.4。
不过,他们在ImageNet上自己实现的BigGAN,FID为8.4,IS为75,并以此作为了标准。
在这个图表中,S²GAN是半监督的预训练方法。S²GAN-CO是半监督的协同训练方法。
S³GAN,是S²GAN加上一个自监督的线性分类器 (把数据集旋转扩增之后再拿给它分类) 。
其中,效果最好的是S³GAN,只使用10%由人工标注的数据,FID得分达到8.0,IS得分为78.7,表现均优于BigGAN。
如果你对这项研究感兴趣,请收好传送门:
论文:
High-Fidelity Image Generation With Fewer Labels
https://arxiv.org/abs/1903.02271
文章开头的这些照骗展示,就出自论文之中:
第一行是BigGAN作品,第二行是S³GAN新品,你猜对了吗?
另外,他们还在GitHub上开源了论文中实验所用全部代码:
https://github.com/google/compare_gan
— 完 —
http://blog.itpub.net/29829936/viewspace-2637962/
史上最强GAN被谷歌超越!标注数据少用90%,造假效果却更逼真相关推荐
- 史上最强GAN:训练费10万起,现在免费体验,画风鬼畜又逼真
夏乙 郭一璞 安妮 晓查 发自 亚龙湾 量子位 报道 | 公众号 QbitAI ?好消息!好消息! 9月底轰动业界的史上最强GAN,也就是最高动用512个TPU训练的BigGAN,Demo已经正式放 ...
- 史上最强!目标检测数据集标注工具网页版
前言 相信做目标检测的大家都有过会在将会有制作自己的目标检测数据集的需求.标注数据就得有相应的工具,这里就提供了这样一个标注工具.这个标注工具有着独一无二的特点,它是基于浏览器的标注工具.这就意味着任 ...
- 深度解读DeepMind新作:史上最强GAN图像生成器—BigGAN
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
- 学界 | 史上最强GAN图像生成器,Inception分数提高两倍
来源:Openreview,机器之心 摘要:ICLR 2019 大会即将在明年 5 月 6 日于美国举行,9 月 27 日论文提交截止时间已过.本次大会共接收到了 1591 篇论文的投稿,数量相较今年 ...
- “史上最强”BigGAN公开TensorFlow Hub demo!
还记得前些日子轰动一时的 BigGAN 模型吗?生成对抗网络(GAN)作为当前最热门的技术之一,最近在图像生成方面的成果颇受人关注.近日,由 DeepMind 和赫瑞瓦特大学组成的科研人员公布的 Bi ...
- 翻翻git之---史上最强的图片选择器 GalleryFinal(顺带附下麦麦,当当的近照)
转载请注明出处:王亟亟的大牛之路 技术内容在P2,P1是废话可以跳过 P1:(开胃菜) 最近手头上工作的事差不多告一段落了,可以把更多的精力花在学习上了,还是会继续翻git这部分的文章(搬运工),然后 ...
- 谷歌发布史上“最强大脑”——可以控制和操作机器人的AI模型
谷歌发布了一款被誉为史上"最强大脑"的人工智能模型PaLM-E (Parameter-efficient Language Model with Explicit Memory) ...
- 【CV中的注意力机制】史上最强ResNet变体--ResNeSt
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! [前言]:我们前面已经详细介绍了Attention机制和视觉注意力机制在图像分类结 ...
- 【经典干货】GitHub标星10万+,史上最强Google面试指南!
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 一位从1997年就入行的Web工程师,立志要成为Google软件工程师,3年前写下 ...
最新文章
- 安装脚本退出,并显示错误:命令“ x86_64-linux-gnu-gcc”失败,退出状态为1
- Transformer 模型详解
- OpenStack Fernet Key Rotate
- Web前端期末大作业--绿色自适应医疗健康医院网页设计(HTML+CSS+JavaScript+)实现
- linux安装常用命令工具包wget,cmake等
- 复杂的权限按钮控制优化
- centos7 关闭防火墙的指令_CentOS7服务器安装Ansys 19.2过程
- NOR Flash的原理与操作
- 如何向 Linux Kernel 提交 Patch
- 开源 java CMS - FreeCMS2.7 单位管理
- linux运行Windows模拟器,如何安装和使用Wine,以便在Linux上运行Windows应用程序?...
- Boston波士顿房价数据下载
- Linux 命令之 gzip -- 压缩和解压文件
- latm header与 ADTS header之间的转换
- 德鲁克的时间管理法—《可以量化的…
- RPL(5):RFC6550翻译(5)---ICMPv6 RPL控制报文
- 苹果5s参数_这次,苹果自己革了自己的命---iPhone12发布会全纪实
- 零售价9000美元!索尼发布首款专业无人机;三星推出最小尺寸高像素图像传感器 | 美通社头条...
- DayDayUp:上海地铁线路高清图、1~17号地铁线路各站点名称及对应路线集合之详细攻略
- 读书笔记:《权力之治:人工智能时代的算法规制》
热门文章
- 各方评论《面向儿童的人工智能北京共识》:这是中国人工智能发展轨迹中的一份关键文件...
- 豆瓣评分9.3,陪伴无数程序员成长的神作,终于升级了!
- 谷歌创始人“退位”,印度CEO独挑大梁
- 读《惰者集》有感:数学是一门需要敏锐感觉的学问
- 卷积神经网络(cnn) 手写数字识别
- AI艺术家带雕塑作品参展被海关扣押,只因摄像头眼睛被指涉及间谍行为?
- 可下载:60分钟入门PyTorch(中文翻译全集)
- 近期活动盘点:清华严飞大数据探寻中国文脉讲座、2019前沿信息科技创新论坛...
- 独家 | 基于TextRank算法的文本摘要(附Python代码)
- 数据蒋堂 | 有序分组