ICCV 2017：训练GAN的16个技巧，2400+星（PPT）

作者：Soumith Chintala等

编译：马文

【新智元导读】本文来自ICCV 2017的Talk：如何训练GAN，FAIR的研究员Soumith Chintala总结了训练GAN的16个技巧，例如输入的规范化，修改损失函数，生成器用Adam优化，使用Sofy和Noisy标签，等等。这是NIPS 2016的Soumith Chintala作的邀请演讲的修改版本，而2016年的这些tricks在github已经有2.4k星。

ICCV 2017 slides：https://github.com/soumith/talks/blob/master/2017-ICCV_Venice/How_To_Train_a_GAN.pdf

NIPS2016：https://github.com/soumith/ganhacks

训练GAN的16个trick

# 1：规范化输入

将输入图像规范化为-1到1之间
生成器最后一层的输出使用tanh函数（或其他bounds normalization）

#2：修改损失函数（经典GAN）

在GAN论文里人们通常用 min (log 1-D) 这个损失函数来优化G，但在实际训练的时候可以用max log D

-因为第一个公式早期有梯度消失的问题

- Goodfellow et. al (2014)

在实践中：训练G时使用反转标签能工作得很好，即：real = fake, fake = real

一些GAN变体

【TensorFlow】https://github.com/hwalsuklee/tensorflow-generative-model-collections

【Pytorch】https://github.com/znxlwm/pytorch-generative-model-collections

#3：使用一个具有球形结构的噪声z

在做插值（interpolation）时，在大圆（great circle）上进行
Tom White的论文“Sampling Generative Networks”

- https://arxiv.org/abs/1609.04468

#4: BatchNorm

一个mini-batch里面必须保证只有Real样本或者Fake样本，不要把它们混起来训练
如果不能用batchnorm，可以用instance norm

#5：避免稀疏梯度：ReLU, MaxPool

GAN的稳定性会因为引入了稀疏梯度受到影响
LeakyReLU很好（对于G和D）
对于下采样，使用：Average Pooling，Conv2d + stride
对于上采样，使用：PixelShuffle, ConvTranspose2d + stride

-PixelShuffle 论文：https://arxiv.org/abs/1609.05158

#6：使用Soft和Noisy标签

Label平滑，也就是说，如果有两个目标label：Real=1 和 Fake=0，那么对于每个新样本，如果是real，那么把label替换为0.7~1.2之间的随机值；如果样本是fake，那么把label替换为0.0~0.3之间的随机值。
训练D时，有时候可以使这些label是噪声：偶尔翻转label

- Salimans et. al. 2016

#7：架构：DCGANs / Hybrids

能用DCGAN就用DCGAN，
如果用不了DCGAN而且没有稳定的模型，可以使用混合模型：KL + GAN 或 VAE + GAN
WGAN-gp的ResNet也很好（但非常慢）

- https://github.com/igul222/improved_wgan_training

width比depth更重要

#8：借用RL的训练技巧

Experience replay
对于deep deterministic policy gradients（DDPG）有效的技巧
参考Pfau & Vinyals (2016)的论文

#9：优化器：ADAM

优化器用Adam（Radford et. al. 2015）
或者对D用SGD，G用Adam

#10：使用 Gradient Penalty

使梯度的norm规范化
对于为什么这一点有效，有多个理论（WGAN-GP, DRAGAN, 通过规范化使GAN稳定）

#11：不要通过loss statistics去balance G与D的训练过程（经典GAN）

#12：如果你有类别标签，请使用它们

如果还有可用的类别标签，在训练D判别真伪的同时对样本进行分类

#13：给输入增加噪声，随时间衰减

给D的输入增加一些人工噪声(Arjovsky et. al., Huszar, 2016)
给G的每一层增加一些高斯噪声(Zhao et. al. EBGAN)

#14：多训练判别器D

特别是在加噪声的时候

#15：避开离散空间

将生成结果作为一个连续预测

#16：离散变量

使用一个嵌入层
给图像增加额外通道
保持嵌入的维度低和上采样以匹配图像通道的大小

总结：

GAN模型的稳定性在提升
理论研究有所进展
技巧只是权宜之计

时间线——GAN模型的稳定性

PPT下载：https://github.com/soumith/talks/blob/master/2017-ICCV_Venice/How_To_Train_a_GAN.pdf

参考：https://github.com/soumith/ganhacks

ICCV 2017：训练GAN的16个技巧，2400+星（PPT）相关推荐

训练社交口才的16种技巧
训练社交口才的16种技巧如何才能在交际圈中游刃有余,答案是你要提高交际口才.今天小编就为大家介绍训练社交口才的16种技巧,一起来看一下吧! 训练社交口才的16种技巧 1.朗读朗诵自己读书,大声地读 ...
手把手带你复现ICCV 2017经典论文—PyraNet
过去几年发表于各大 AI 顶会论文提出的 400 多种算法中,公开算法代码的仅占 6%,其中三分之一的论文作者分享了测试数据,约 54% 的分享包含"伪代码".这是今年 AAAI ...
商汤科技20篇论文入选ICCV 2017，披露最新研究主线
来源自商汤科技量子位出品 | 公众号 QbitAI 本月22-29日,是两年一度的国际计算机视觉大会(ICCV)召开的日子. 于往届ICCV相比,本届 ICCV堪称火爆.据组委会统计,ICCV ...
最新 ICCV | 35个GAN应用主题梳理，最全GAN生成对抗论文汇总
戳我,查看GAN的系列专辑~! 在最新的视觉顶会ICCV 2021会议中,涌现出了大量基于生成对抗网络GAN的论文,广泛应用于各类视觉任务:本文在此做尽可能的梳理汇总! 下述论文已分类打包好!后台回 ...
ICCV 2017奖项公布：最大赢家何恺明获最佳论文，参与最佳学生论文
当地时间 10 月 22 日,两年一度的计算机视觉国际顶级会议 International Conference on Computer Vision(ICCV 2017)在意大利威尼斯开幕.今日,大 ...
牛！何恺明包揽2项ICCV 2017最佳论文奖！这位高考状元告诉你什么是开挂的人生
大神终究是大神! 刚刚,AI 科技大本营获悉,继两次荣获 CVPR 最佳论文奖之后,何恺明参与的两篇最新论文又分别摘下 ICCV 2017 的最佳论文奖(Best Paper Award)和最佳学生论 ...
【世界最大人脸对齐数据集】ICCV 2017：距离解决人脸对齐已不远
在一篇已经被ICCV 2017接收的论文中,诺丁汉大学的研究人员提出了他们号称是迄今最大3D人脸对齐数据集,以及精准实现2D.3D以及2D到3D人脸对齐的网络.研究人员用<我们距离解决2D&am ...
单张图像就可以训练GAN！Adobe改良图像生成方法 | 已开源
十三发自凹非寺量子位报道 | 公众号 QbitAI 数据集太小了,无法训练GAN?试试从单个图像入手吧. 去年谷歌就提出了SinGAN,是第一个拿GAN在单幅自然图像学习的非条件生成模型(IC ...
计算机顶级会议培训,计算机视觉顶级会议ICCV 2017 腾讯优图入选12篇论文
腾讯科技讯被誉为计算机视觉领域三大顶级会议之一的ICCV(另外两个为CVPR.ECCV)近日揭晓收录论文名单,腾讯优图共有12篇论文入选,居业界实验室前列,其中3篇被选做口头报告(Oral),该类论 ...
技术解读：腾讯优图12篇论文入选 ICCV 2017
机器之心发布来源:腾讯优图实验室被誉为计算机视觉领域三大顶级会议之一的 ICCV(另外两个为 CVPR.ECCV)不久之前揭晓了收录论文名单,腾讯优图共有 12 篇论文入选,居业界实验室前列,其中 ...

ICCV 2017：训练GAN的16个技巧，2400+星（PPT）

ICCV 2017：训练GAN的16个技巧，2400+星（PPT）相关推荐

最新文章

热门文章