GANs-模式坍塌-训练不稳定

1.训练不稳定问题相关文章
- 1.1 DCGAN
- 1.2Big-GAN
- 1.3WGAN 、WGAN-GP、SN-WGAN
- 1.4其他工作
2.模式坍塌问题相关文章
- 2.1 MAD-GAN
- 2.2 Unrolled GAN
- 2.3 DRAGAN
- 2.4 D2GAN
- 2.5 InfoGAN
- 2.6 Deligan
- 2.7 EBGAN
- 2.8 Maximum Entropy Generators for Energy-Based Models

1.训练不稳定问题相关文章

综述-分析-归纳

1.1 DCGAN

2016-ICLR
abstract，related work --没说稳定性的问题
DCGAN的出发点：CNN结构+GANs模型学习，质量优良的图像表征。其后将生成器或者和判别器作为监督学习的特征提取器
3. aproach and model architecture
也有很多人尝试将CNN与GAN模型结合，但是没有成功。

作者认为在GANs模型提出后关于GAN模型学习过程的理解和可视化的工作缺乏，并且GANs模型中生成器和判别器的大多使用多层感知机的全连接结构。（不稳定性基本上没有分析），他们将卷积神经网络引入到GANs模型中，利用大量的实验寻找合适的的结构致力于解决GANs模型训练不稳定问题。

DC-GAN利用卷积提取图像的层次视觉特征，其有利于提升判别网络能力。DC-GAN通过调整卷积神经网络的结构以提高样本的质量和收敛速度，这些调整包括：取消所有Pooling 层；在生成网络和判别网络中均使用Batch-Normalization[13]操作；去掉全连接层，使网络变为全卷积网络；生成网络中使用ReLU[14]作为激活函数，最后一层使用Tanh[15]作为激活函数，判别网络使用LeakyReLU[16]作为激活函数等。图2-4为DC-GAN生成网络的结构图。图2-5为DC-GAN使用大规模场景数据集LSUN[17] 房间子集训练的模型生成的房间场景图像。

1.2Big-GAN

文章出发点：高清，真实图像生成。
通过实验探索了：不同的训练批次大小(BatchSize) 、每层卷积通道(Channel)数、Shared、Hierarchical Latent Space对GANs 模型性能的影响。文章表明：对于BatchSize，简单的增大BatchSize 可以使模型性能获得较好的提升，但会使训练稳定性下降；对于Channel数，一定范围内增加卷积通道数，对提升模型性能有益处；但是超过一定的范围之后，性能不升反降。

然后：分析训练崩溃现象发生时网络权重参数有啥表现
判别网络权重矩阵的前三个奇异值毛刺多，在发生崩溃时有一个突跃向上。生成网络权重矩阵奇异值曲线平滑，但是崩溃时有一个突跃向上。

反制措施：
针对G：限制奇异值大小
针对D：D网络的梯度惩罚

1.3WGAN 、WGAN-GP、SN-WGAN

（推荐）令人拍案叫绝Wasserstein GAN—https://zhuanlan.zhihu.com/p/25071913

TOWARDS PRINCIPLED METHODS FOR TRAINING
GENERATIVE ADVERSARIAL NETWORKS
WGAN前作：分析了GANs模型目标函数的缺陷：会导致训不动和训练不稳定。

WGAN：正式提出WGAN，但是Lipschitz约束采用截断判别器参数的方式实现，不够优雅。

WGAN-GP：Lipschitz约束使用判别器梯度惩罚的方式实现。
SN-WGAN：Lipschitz约束使用判别器参数每一层W频谱范数限制为1的方式实现。

1.4其他工作

f-gan将所有GAN模型统一到f-divergence 下，是一个比较优雅的工作。不过没有致力于解决训练不稳定问题吧。
Improved techniques for training gans：包含了很多促进GAN稳定训练的启发式技巧。

2.模式坍塌问题相关文章

从纳什均衡点来说模式坍塌问题：说有两种方案来解决模式坍塌：

https://zhuanlan.zhihu.com/p/86683281：修改网络结构MAD-GAN。

https://zhuanlan.zhihu.com/p/84072188：提高网络能力Unrolled GAN。

有个现象：当判别器在训练样本附近更新参数时，其梯度值非常大

http://blog.itpub.net/69946223/viewspace-2658454/：在训练样本附近增加梯度惩罚DRAGAN（与上面两篇文章是同一个作者）

2.1 MAD-GAN

MAD-GAN-2017：单个生成器会产生模式坍塌现象，多个生成器结合起来可以保证样本的多样性，但是简单添加多个彼此鼓励的生成器并没有很大的意义，这些可能最终都会归并到相同状态。希望让多个生成器彼此联系，不同的生成器尽量产生不相似的样本。MAD-GAN中包括K个初始值不同的生成器和一个判别器，判别器通过交叉熵损失使得每个生成器只生成某一类模式的样本。生成器使用的一个自定的相似性项惩罚生成器，以达到各个生成器产生不同的样本的目的。治标不治本，没有提高单个生成器的能力。

疑惑：多个生成器最后如何确定输出？随机？还是要利用判别器？

（提供bib文件。）也希望大家贡献一些。

多生成器的结构也有很多种，文章中使用多生成器来提高生成数据的多样性。

relate work ：InfoGAN [5]， ModeGAN[4],UnrolledGAN[17],Coupled GAN,

2.2 Unrolled GAN

https://arxiv.org/abs/1611.02163

Unrolled GAN-2017：由于生成器缺乏先见之明，生成器每次更新参数时只是考虑当前的判别器下能够获得的最优解，并不能判断当前的最优解从长运啊来看是否时最优解。目标是：提高生成器的先见之明。具体做法当前的生成器在更新时不仅能够考虑当前生成器的状态，还会考虑K次更新后判别器的状态。

（还能够稳定训练过程。）一个缺点是提高了计算的复杂度。

（按照unroll 的说法，质量越好，其实越容易发生模式坍塌现象）

（公式中两项的差别就是：第K次更新这个事实。）

2.3 DRAGAN

DRAGAN：(实验)发现一个有趣的现象，判别器具在训练样本附近更新参数时，梯度值非常大，考虑在训练样本附近增加一个梯度惩罚。具体就是通过训练样本扰动然后，计算梯度，再惩罚。注意与WGAN-GP的区别，WGAN-GP在具体实现时是在真假样本之间增加惩罚。

与博文中分析的结论殊途同归的感觉：
https://zhuanlan.zhihu.com/p/56545779
基于能量视角，我们可以得到“对真样本进行以 0 为中心的梯度惩罚”比较好，因为这意味着（整体上）要把真样本放在极小值点处。

2.4 D2GAN

D2GAN–2017： 再添加一个判别器，亏你们想的出来。

https://blog.csdn.net/weixin_33958585/article/details/90329616-说的不够直接。

生成模型最大似然方法对应于求解模型分布与数据分布之间的KL散度。
GANs对应的是求解数据分布与模型分布之间的KL散度。

正反向KL散度

DKL(pmodel∣∣pdata)D_{KL}(p_{model}||p_{data})DKL(pmodel∣∣pdata):会凭空产生一些潜在的不希望的样本。

DKL(pdata∣∣pmodel)D_{KL}(p_{data}||p_{model})DKL(pdata∣∣pmodel):Pmodel集中在Pdata的单一模式，而忽略了其他模式，产生模式坍塌现象。

拥有两个判别器，判别器和原始GANs模型中的判别器功能类似，用于鉴别一个样本是真样本的概率，而判别器2用于鉴别样本是来自生成分布而不是真实分布，通过结合KL和反KL散度生成一个统一的目标函数，从而利用了两种散度的互补统计特性，缓解了模式坍塌问题。

2.5 InfoGAN

https://zhuanlan.zhihu.com/p/55945164
https://blog.csdn.net/u011699990/article/details/71599067

InfoGAN：通过引入c来约束输出，使得C的维度于输出的语义特征相对应。为了使的x与c之间关联密切，所以我们需要最大化互信息的值。据此对原始GAN模型的值函数做了一点修改，相当于加了一个互信息的正则化项。核心是如何实现互信息的计算（通过一个辅助分布）
简单理解，生成的数据能够依据条件改变的话，那么条件多了，生成的数据自然也就多了

2.6 Deligan

认为一般的GAN模型都需要大量的训练数据，才能够使生成器捕获完整的数据模态。对于样本数量有限的复杂数据集，DeliGAN借助变分推断中的思想，将输入隐空间重参数成混合高斯，这些混合高斯分布是样本高概率出现的隐空间，混合高斯分布的参数随GANs的参数一同训练。通过实验证明了在受限数据集上生成器生成丰富多样的数据，缓解模式坍塌问题。

主要针对点：受限数据集

2.7 EBGAN

http://www.mamicode.com/info-detail-2221093.html

EBGAN：将D视作一个能量函数，能量越小，输入越真。AE中的重构误差作为能量函数。
和解决多样性没有直接关系，最主要的还是训练的稳定性

We show that this form of EBGAN exhibits more stable behavior than regular GANs during training.

2.8 Maximum Entropy Generators for Energy-Based Models

Rithesh Kumar–在基于能量的生成式模型中，最大化生成数据的熵，能够提高数据的多样性。从能量的角度来诠释了GAN模型。通过非参数互信息最大化技术间接实现最大化生成数据的熵。（比较抽象难理解）

苏剑林的博客：https://zhuanlan.zhihu.com/p/56545779
表示GAN不需要带动量的优化方法：要的是最近的最小值，而不是更小的最小值。带动量可能会损失多样性。

PaperNotes(7)-GANs模式坍塌/训练不稳定相关推荐

GAN网络的模型坍塌和不稳定的分析
众所周知,GAN异常强大,同时也非常难以训练.主要有以下亮点原因: 模型坍塌(mode collapse) 难以收敛和训练不稳定(convergence and instability) GAN网络的 ...
【深度学习】孪生网络（Siamese Network）的模式和训练过程
[深度学习]孪生网络(Siamese Network)的模式和训练过程文章目录 1 概述 2 Siamese network 孪生神经网络 3 孪生神经网络和伪孪生神经网络分别适用于什么场景呢? 4 ...
MoCoV3：何恺明团队新作！解决Transformer自监督训练不稳定问题！
文 | happy 源 | 极市平台论文链接: https://arxiv.org/abs/2104.02057 本文是FAIR的恺明团队针对自监督学习+Transformer的一篇实证研究.针对T ...
Python版打字练习软件源代码，键盘练习软件源代码，含娱乐模式和训练模式
Python版打字练习软件源代码,键盘练习软件源代码,含娱乐模式和训练模式按ESC切换左手练习,右手练习.双手练习完整代码下载地址:Python版打字练习软件源代码核心代码: import ra ...
令人拍案叫绝的 Wasserstein GAN，彻底解决GAN训练不稳定问题
[新智元导读] 本文详细解析了最近在 reddit 的 Machine Learning 版引起热烈讨论的一篇论文Wassertein GAN,该论文提出的 WGAN 相比原始 GAN 的算法实现流程 ...
周训练计划之（经典模式全身训练+有氧）
周训练计划之(经典模式全身训练+有氧) 计划周一周二周三周四周五周六或周日杠铃深蹲休息平板哑铃卧推休息硬拉有氧杠铃推举休息山羊挺身休息双杠臂屈伸波比跳弓箭步行走 ...
GAN又模式坍塌（mode collapse）了。。。
GAN模式坍塌(mode collapse)示例...
总裁演说思维模式口才训练小方法：主动问候寒暄法
总裁演说思维模式口才训练小方法:主动问候寒暄法主动问候寒暄法就是在路上与熟人见面时主动打招呼.主动问候寒暄,主动发起聊天.也可以叫做"主动打招呼法". 主动问候寒暄法属于闲聊法的 ...
CTF竞赛模式与训练平台
CTF竞赛主要有夺旗赛和攻防对抗赛. 夺旗赛一般线上初选采用传统的夺旗赛模式,题目中设置一些标识,解题的目的是找到标识并提交.通常包含的题目类型包括MISC.CRYPTO.PWN.REVERSE.W ...

PaperNotes(7)-GANs模式坍塌/训练不稳定