提高GAN训练稳定性的9大tricks

点击我爱计算机视觉标星，更快获取CVML新技术

作者 | Bharath Raj

译者 | ang010ela

编辑 | 一一

出品 | AI科技大本营

CV君注：

还有什么是比训练一个神经网络更玄学的事情？那就是训练两个神经网络！比如GAN。

本文来自Medium，由AI科技大本营整理翻译，探讨了训练GAN模型的实用技巧，欢迎收藏。

尽管 GAN 领域的进步令人印象深刻，但其在应用过程中仍然存在一些困难。本文梳理了 GAN 在应用过程中存在的一些难题，并提出了最新的解决方法。

使用 GAN 的缺陷

众所周知，GAN 是由 Generator 生成网络和 Discriminator 判别网络组成的。

1. Mode collapse（模型崩溃）

注：Mode collapse 是指 GAN 生成的样本单一，其认为满足某一分布的结果为 true，其他为 False，导致以上结果。

自然数据分布是非常复杂，且是多峰值的（multimodal）。也就是说数据分布有很多的峰值（peak）或众数（mode）。每个 mode 都表示相似数据样本的聚集，但与其他 mode 是不同的。

在 mode collapse 过程中，生成网络 G 会生成属于有限集 mode 的样本。当 G 认为可以在单个 mode 上欺骗判别网络 D 时，G 就会生成该 mode 外的样本。

上图表示 GAN 的输出没有 mode collapse. 下图则出现了 mode collapse。

判别网络最后会判别来自该 mode 的样本是假的。最后，生成网络 G 会简单地锁定到另一个 mode。该循环会无限进行，就会限制生成样本的多样性。

2. Convergence（收敛）

GAN 训练过程中遇到的一个问题是什么时候停止训练？因为判别网络 D 损失降级会改善生成网络 G 的损失（反之亦然），因此无法根据损失函数的值来判断收敛，如下图所示：

典型的GAN损失函数图。注意该如何从这个图中解释收敛性。

3. Quality（质量）

与前面提到的收敛问题一样，很难量化地判断生成网络 G 什么时候会生成高质量的样本。另外，在损失函数中加入感知正则化则在一定程度上可缓解该问题。

4. Metrics（度量）

GAN 的目标函数解释了生成网络 G 或判别网络 D 如何根据组件来执行，但它却不表示输出的质量和多样性。因此，需要许多不同的度量指标来进行衡量。

改善性能的技术

下面总结了一些可以使 GAN 更加稳定使用的技术。

1. Alternative Loss Functions （替代损失函数）

修复 GAN 缺陷的最流行的补丁是 Wasserstein GAN （https://arxiv.org/pdf/1701.07875.pdf）。该 GAN 用 Earth Mover distance ( Wasserstein-1 distance 或 EM distance) 来替换传统 GAN 的 Jensen Shannon divergence ( J-S 散度) 。EM 距离的原始形式很难理解，因此使用了双重形式。这需要判别网络是 1-Lipschitz，通过修改判别网络的权重来维护。

使用 Earth Mover distance 的优势在于即使真实的生成数据分布是不相交的，它也是连续的。同时，在生成的图像质量和损失值之间存在一定关系。使用 Earth Mover distance 的劣势在于对于每个生成模型 G 都要执行许多判别网络 D 的更新。而且，研究人员认为权重修改是确保 1-Lipschitz 限制的极端方式。

左图中 earth mover distance 是连续的, 即便其分布并不连续, 这不同于优图中的 the Jensen Shannon divergence。

另一个解决方案是使用均方损失（ mean squared loss ）替代对数损失（ log loss ）。LSGAN （https://arxiv.org/abs/1611.04076）的作者认为传统 GAN 损失函数并不会使收集的数据分布接近于真实数据分布。

原来 GAN 损失函数中的对数损失并不影响生成数据与决策边界（decision boundary）的距离。另一方面，LSGAN 也会对距离决策边界较远的样本进行惩罚，使生成的数据分布与真实数据分布更加靠近，这是通过将均方损失替换为对数损失来完成的。

2. Two Timescale Update Rule (TTUR)

在 TTUR 方法中，研究人员对判别网络 D 和生成网络 G 使用不同的学习速度。低速更新规则用于生成网络 G ，判别网络 D使用高速更新规则。使用 TTUR 方法，研究人员可以让生成网络 G 和判别网络 D 以 1:1 的速度更新。 SAGAN （https://arxiv.org/abs/1805.08318）就使用了 TTUR 方法。

3. Gradient Penalty （梯度惩罚）

论文Improved Training of WGANs（https://arxiv.org/abs/1704.00028）中，作者称权重修改会导致优化问题。权重修改会迫使神经网络学习学习更简单的相似（simpler approximations）达到最优数据分布，导致结果质量不高。同时如果 WGAN 超参数设置不合理，权重修改可能会出现梯度消失或梯度爆炸的问题，论文作者在损失函数中加入了一个简单的梯度惩罚机制以缓解该问题。

加入 Gradient Penalty 作为正则化器

DRAGAN （https://arxiv.org/abs/1705.07215）的作者称，当 GAN 的博弈达到一个局部平衡态（local equilibrium state），就会出现 mode collapse 的问题。而且判别网络 D 在这种状态下产生的梯度是非常陡（sharp）的。一般来说，使用梯度惩罚机制可以帮助避免这种状态的产生，极大增强 GAN 的稳定性，尽可能减少 mode collapse 问题的产生。

4. Spectral Normalization（谱归一化）

Spectral normalization 是用在判别网络 D 来增强训练过程的权重正态化技术（weight normalization technique），可以确保判别网络 D 是 K-Lipschitz 连续的。 SAGAN (https://arxiv.org/abs/1805.08318)这样的实现也在判别网络 D 上使用了谱正则化。而且该方法在计算上要比梯度惩罚方法更加高效。

5. Unrolling and Packing (展开和打包)

文章 Mode collapse in GANs（http://aiden.nibali.org/blog/2017-01-18-mode-collapse-gans/）中提到一种预防 mode hopping 的方法就是在更新参数时进行预期对抗（anticipate counterplay）。展开的 GAN ( Unrolled GANs ）可以使用生成网络 G 欺骗判别网络 D，然后判别网络 D 就有机会进行响应。

另一种预防 mode collapse 的方式就是把多个属于同一类的样本进行打包，然后传递给判别网络 D 。PacGAN （https://arxiv.org/abs/1712.04086）就融入了该方法，并证明可以减少 mode collapse 的发生。

6. 多个 GAN

一个 GAN 可能不足以有效地处理任务，因此研究人员提出使用多个连续的 GAN ，每个 GAN 解决任务中的一些简单问题。比如，FashionGAN（https://www.cs.toronto.edu/~urtasun/publications/zhu_etal_iccv17.pdf）就使用 2 个 GAN 来执行图像定位翻译。

FashionGAN 使用两个 GANs 进行图像定位翻译。

因此，可以让 GAN 慢慢地解决更难的问题。比如 Progressive GANs (ProGANs，https://arxiv.org/abs/1710.10196) 就可以生成分辨率极高的高质量图像。

7. Relativistic GANs（相对生成对抗网络）

传统的 GAN 会测量生成数据为真的可能性。Relativistic GANs 则会测量生成数据“逼真”的可能性。研究人员可以使用相对距离测量方法（appropriate distance measure）来测量相对真实性（relative realism），相关论文链接：https://arxiv.org/abs/1807.00734。

图 A 表示 JS 散度的最优解，图 B 表示使用标准 GAN 损失时判别网络 D 的输出，图 C 表示输出曲线的实际图。

在论文中，作者提到判别网络 D 达到最优状态时，D 的输出应该聚集到 0.5。但传统的 GAN 训练算法会让判别网络 D 对图像输出“真实”（real，1）的可能性，这会限制判别网络 D 达到最优性能。不过这种方法可以很好地解决这个问题，并得到不错的结果。

经过 5000 次迭代后，标准 GAN (左)和相对 GAN (右)的输出。

8. Self Attention Mechanism（自注意力机制）

Self Attention GANs（https://arxiv.org/abs/1805.08318）作者称用于生成图像的卷积会关注本地传播的信息。也就是说，由于限制性接收域这会错过广泛传播关系。

将 attention map (在黄色框中计算)添加到标准卷积操作中。

Self-Attention Generative Adversarial Network 允许图像生成任务中使用注意力驱动的、长距依赖的模型。自注意力机制是对正常卷积操作的补充，全局信息（长距依赖）会用于生成更高质量的图像，而用来忽略注意力机制的神经网络会考虑注意力机制和正常的卷积。（相关论文链接：https://arxiv.org/pdf/1805.08318.pdf）。

使用红点标记的可视化 attention map。

9. 其他技术

其他可以用来改善 GAN 训练过程的技术包括：

特征匹配

Mini Batch Discrimination（小批量判别）

历史平均值

One-sided Label Smoothing（单侧标签平滑）

Virtual Batch Normalization（虚拟批量正态化）

更多GAN技术

https://github.com/soumith/ganhacks。

原文链接：

https://medium.com/beyondminds/advances-in-generative-adversarial-networks-7bad57028032

加群交流

关注生成对抗网络技术，欢迎加入52CV-GAN专业交流群，扫码添加CV君拉你入群，

（请务必注明:GAN）

喜欢在QQ交流的童鞋，可以加52CV官方QQ群：702781905。

（不会时时在线，如果没能及时通过验证还请见谅）

更多CV技术干货请浏览：

"我爱计算机视觉"干货集锦分类汇总(2019年1月20日)

长按关注我爱计算机视觉

提高GAN训练稳定性的9大tricks相关推荐

GAN最新进展：8大技巧提高稳定性
生成对抗网络GAN很强大,但也有很多造成GAN难以使用的缺陷.本文介绍了可以克服GAN训练缺点的一些解决方案,有助于提高GAN性能. 生成对抗网络 (GAN) 是一类功能强大的神经网络,具有广泛的应用 ...
（2018, BigGAN）用于高保真自然图像合成的大规模 GAN 训练
Large scale gan training for high fidelity natural image synthesis 公众号:EDPJ 目录 0. 摘要 1. 简介 2. 背景 3. ...
《预训练周刊》第63期：微软视觉语言预训练综述、最新大模型课程
No.63 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
GAN--提升GAN训练的技巧汇总
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达前言 GAN模型相比较于其他网络一直受困于三个问题的掣肘: 1. ...
深度学习之生成对抗网络（6）GAN训练难题
深度学习之生成对抗网络(6)GAN训练难题 1. 超参数敏感 2. 模式崩塌尽管从理论层面分析了GAN网络能够学习到数据的真实分布,但是在工程实现中,常常出现GAN网络训练困难的问题,主要体现在G ...
使用迁移学习后使用微调再次提高模型训练的准确率
使用迁移学习后使用微调再次提高模型训练的准确率 1.微调所谓微调:冻结模型库的底部的卷积层,共同训练新添加的分类器层和顶部部分卷积层.这允许我们"微调"基础模型中的高阶特征表示, ...
令人拍案叫绝的 Wasserstein GAN，彻底解决GAN训练不稳定问题
[新智元导读] 本文详细解析了最近在 reddit 的 Machine Learning 版引起热烈讨论的一篇论文Wassertein GAN,该论文提出的 WGAN 相比原始 GAN 的算法实现流程 ...
【读点论文】EfficientNetV2: Smaller Models and Faster Training 训练感知的神经架构搜索+自适应的渐近训练方法优化训练（TPU，大数据量）
EfficientNetV2: Smaller Models and Faster Training Abstract 本文介绍了EfficientNetV2,这是一个新的卷积网络系列,与以前的模型相 ...
如何提高系统的稳定性？
如何提高系统的稳定性? 2人以上的需求或项目,必须制定主要负责人,负责整体系统的设计.代码把控,内外部的协调,把整体流程串起来,不只是每个人只做自己的部分: 在需求评审之前,相关人把prd通读,把问题 ...

提高GAN训练稳定性的9大tricks

提高GAN训练稳定性的9大tricks相关推荐

最新文章

热门文章