GANs-模式坍塌-训练不稳定

  • 1.训练不稳定问题相关文章
    • 1.1 DCGAN
    • 1.2Big-GAN
    • 1.3WGAN 、WGAN-GP、SN-WGAN
    • 1.4其他工作
  • 2.模式坍塌问题相关文章
    • 2.1 MAD-GAN
    • 2.2 Unrolled GAN
    • 2.3 DRAGAN
    • 2.4 D2GAN
    • 2.5 InfoGAN
    • 2.6 Deligan
    • 2.7 EBGAN
    • 2.8 Maximum Entropy Generators for Energy-Based Models

1.训练不稳定问题相关文章

综述-分析-归纳

1.1 DCGAN

2016-ICLR
abstract,related work --没说稳定性的问题
DCGAN的出发点:CNN结构+GANs模型学习,质量优良的图像表征。其后将生成器或者和判别器作为监督学习的特征提取器
3. aproach and model architecture
也有很多人尝试将CNN与GAN模型结合,但是没有成功。

作者认为在GANs模型提出后关于GAN模型学习过程的理解和可视化的工作缺乏,并且GANs模型中生成器和判别器的大多使用多层感知机的全连接结构。(不稳定性基本上没有分析),他们将卷积神经网络引入到GANs模型中,利用大量的实验寻找合适的的结构致力于解决GANs模型训练不稳定问题。

DC-GAN利用卷积提取图像的层次视觉特征,其有利于提升判别网络能力。DC-GAN通过调整卷积神经网络的结构以提高样本的质量和收敛速度,这些调整包括:取消所有Pooling 层;在生成网络和判别网络中均使用Batch-Normalization[13]操作;去掉全连接层,使网络变为全卷积网络;生成网络中使用ReLU[14]作为激活函数,最后一层使用Tanh[15]作为激活函数,判别网络使用LeakyReLU[16]作为激活函数等。图2-4为DC-GAN生成网络的结构图。图2-5为DC-GAN使用大规模场景数据集LSUN[17] 房间子集训练的模型生成的房间场景图像。

1.2Big-GAN

文章出发点:高清,真实图像生成。
通过实验探索了:不同的训练批次大小(BatchSize) 、每层卷积通道(Channel)数、Shared、Hierarchical Latent Space对GANs 模型性能的影响。文章表明:对于BatchSize,简单的增大BatchSize 可以使模型性能获得较好的提升,但会使训练稳定性下降;对于Channel数,一定范围内增加卷积通道数,对提升模型性能有益处;但是超过一定的范围之后,性能不升反降。

然后:分析训练崩溃现象发生时网络权重参数有啥表现
判别网络权重矩阵的前三个奇异值毛刺多,在发生崩溃时有一个突跃向上。生成网络权重矩阵奇异值曲线平滑,但是崩溃时有一个突跃向上。

反制措施:
针对G:限制奇异值大小
针对D:D网络的梯度惩罚

1.3WGAN 、WGAN-GP、SN-WGAN

(推荐)令人拍案叫绝Wasserstein GAN—https://zhuanlan.zhihu.com/p/25071913

TOWARDS PRINCIPLED METHODS FOR TRAINING
GENERATIVE ADVERSARIAL NETWORKS
WGAN前作:分析了GANs模型目标函数的缺陷:会导致训不动和训练不稳定。

WGAN:正式提出WGAN,但是Lipschitz约束采用截断判别器参数的方式实现,不够优雅。

WGAN-GP:Lipschitz约束使用判别器梯度惩罚的方式实现。
SN-WGAN:Lipschitz约束使用判别器参数每一层W频谱范数限制为1的方式实现。

1.4其他工作

f-gan将所有GAN模型统一到f-divergence 下,是一个比较优雅的工作。不过没有致力于解决训练不稳定问题吧。
Improved techniques for training gans:包含了很多促进GAN稳定训练的启发式技巧。

2.模式坍塌问题相关文章

从纳什均衡点来说模式坍塌问题:说有两种方案来解决模式坍塌:

https://zhuanlan.zhihu.com/p/86683281:修改网络结构MAD-GAN。

https://zhuanlan.zhihu.com/p/84072188:提高网络能力Unrolled GAN。

有个现象:当判别器在训练样本附近更新参数时,其梯度值非常大

http://blog.itpub.net/69946223/viewspace-2658454/:在训练样本附近增加梯度惩罚DRAGAN(与上面两篇文章是同一个作者)

2.1 MAD-GAN

MAD-GAN-2017:单个生成器会产生模式坍塌现象,多个生成器结合起来可以保证样本的多样性,但是简单添加多个彼此鼓励的生成器并没有很大的意义,这些可能最终都会归并到相同状态。希望让多个生成器彼此联系,不同的生成器尽量产生不相似的样本。MAD-GAN中包括K个初始值不同的生成器和一个判别器,判别器通过交叉熵损失使得每个生成器只生成某一类模式的样本。生成器使用的一个自定的相似性项惩罚生成器,以达到各个生成器产生不同的样本的目的。治标不治本,没有提高单个生成器的能力。

疑惑:多个生成器最后如何确定输出?随机?还是要利用判别器?

(提供bib文件。)也希望大家贡献一些。

多生成器的结构也有很多种,文章中使用多生成器来提高生成数据的多样性。

relate work :InfoGAN [5], ModeGAN[4],UnrolledGAN[17],Coupled GAN,

2.2 Unrolled GAN

https://arxiv.org/abs/1611.02163

Unrolled GAN-2017:由于生成器缺乏先见之明,生成器每次更新参数时只是考虑当前的判别器下能够获得的最优解,并不能判断当前的最优解从长运啊来看是否时最优解。目标是:提高生成器的先见之明。具体做法当前的生成器在更新时不仅能够考虑当前生成器的状态,还会考虑K次更新后判别器的状态。

(还能够稳定训练过程。)一个缺点是提高了计算的复杂度。

(按照unroll 的说法,质量越好,其实越容易发生模式坍塌现象)

(公式中两项的差别就是:第K次更新这个事实。)

2.3 DRAGAN

DRAGAN:(实验)发现一个有趣的现象,判别器具在训练样本附近更新参数时,梯度值非常大,考虑在训练样本附近增加一个梯度惩罚。具体就是通过训练样本扰动然后,计算梯度,再惩罚。注意与WGAN-GP的区别,WGAN-GP在具体实现时是在真假样本之间增加惩罚。

与博文中分析的结论殊途同归的感觉:
https://zhuanlan.zhihu.com/p/56545779
基于能量视角,我们可以得到“对真样本进行以 0 为中心的梯度惩罚”比较好,因为这意味着(整体上)要把真样本放在极小值点处。

2.4 D2GAN

D2GAN–2017: 再添加一个判别器,亏你们想的出来。

https://blog.csdn.net/weixin_33958585/article/details/90329616-说的不够直接。

生成模型最大似然方法对应于求解 模型分布 与 数据分布 之间的KL散度。
GANs对应的是求 解数据分布 与 模型分布 之间的KL散度。

正反向KL散度

DKL(pmodel∣∣pdata)D_{KL}(p_{model}||p_{data})DKL​(pmodel​∣∣pdata​):会凭空产生一些潜在的不希望的样本。

DKL(pdata∣∣pmodel)D_{KL}(p_{data}||p_{model})DKL​(pdata​∣∣pmodel​):Pmodel集中在Pdata的单一模式,而忽略了其他模式,产生模式坍塌现象。

拥有两个判别器,判别器和原始GANs模型中的判别器功能类似,用于鉴别一个样本是真样本的概率,而判别器2用于鉴别样本是来自生成分布而不是真实分布,通过结合KL和反KL散度生成一个统一的目标函数,从而利用了两种散度的互补统计特性,缓解了模式坍塌问题。

2.5 InfoGAN

https://zhuanlan.zhihu.com/p/55945164
https://blog.csdn.net/u011699990/article/details/71599067

InfoGAN:通过引入c来约束输出,使得C的维度于输出的语义特征相对应。为了使的x与c之间关联密切,所以我们需要最大化互信息的值。据此对原始GAN模型的值函数做了一点修改,相当于加了一个互信息的正则化项。核心是如何实现互信息的计算(通过一个辅助分布)
简单理解,生成的数据能够依据条件改变的话,那么条件多了,生成的数据自然也就多了

2.6 Deligan

认为一般的GAN模型都需要大量的训练数据,才能够使生成器捕获完整的数据模态。对于样本数量有限的复杂数据集,DeliGAN借助变分推断中的思想, 将输入隐空间重参数成混合高斯,这些混合高斯分布是样本高概率出现的隐空间,混合高斯分布的参数随GANs的参数一同训练。通过实验证明了在受限数据集上生成器生成丰富多样的数据,缓解模式坍塌问题。

主要针对点:受限数据集

2.7 EBGAN

http://www.mamicode.com/info-detail-2221093.html

EBGAN:将D视作一个能量函数,能量越小,输入越真。AE中的重构误差作为能量函数。
和解决多样性没有直接关系,最主要的还是训练的稳定性

We show that this form of EBGAN exhibits more stable behavior than regular GANs during training.

2.8 Maximum Entropy Generators for Energy-Based Models

Rithesh Kumar–在基于能量的生成式模型中,最大化生成数据的熵,能够提高数据的多样性。从能量的角度来诠释了GAN模型。通过非参数互信息最大化技术间接实现最大化生成数据的熵。(比较抽象难理解)

苏剑林的博客:https://zhuanlan.zhihu.com/p/56545779
表示GAN不需要带动量的优化方法:要的是最近的最小值,而不是更小的最小值。带动量可能会损失多样性。

PaperNotes(7)-GANs模式坍塌/训练不稳定相关推荐

  1. GAN网络的模型坍塌和不稳定的分析

    众所周知,GAN异常强大,同时也非常难以训练.主要有以下亮点原因: 模型坍塌(mode collapse) 难以收敛和训练不稳定(convergence and instability) GAN网络的 ...

  2. 【深度学习】孪生网络(Siamese Network)的模式和训练过程

    [深度学习]孪生网络(Siamese Network)的模式和训练过程 文章目录 1 概述 2 Siamese network 孪生神经网络 3 孪生神经网络和伪孪生神经网络分别适用于什么场景呢? 4 ...

  3. MoCoV3:何恺明团队新作!解决Transformer自监督训练不稳定问题!

    文 | happy 源 | 极市平台 论文链接: https://arxiv.org/abs/2104.02057 本文是FAIR的恺明团队针对自监督学习+Transformer的一篇实证研究.针对T ...

  4. Python版打字练习软件源代码,键盘练习软件源代码,含娱乐模式和训练模式

    Python版打字练习软件源代码,键盘练习软件源代码,含娱乐模式和训练模式 按ESC切换左手练习,右手练习.双手练习 完整代码下载地址:Python版打字练习软件源代码 核心代码: import ra ...

  5. 令人拍案叫绝的 Wasserstein GAN,彻底解决GAN训练不稳定问题

    [新智元导读] 本文详细解析了最近在 reddit 的 Machine Learning 版引起热烈讨论的一篇论文Wassertein GAN,该论文提出的 WGAN 相比原始 GAN 的算法实现流程 ...

  6. 周训练计划之(经典模式全身训练+有氧)

    周训练计划之(经典模式全身训练+有氧) 计划 周一 周二 周三 周四 周五 周六或周日 杠铃深蹲 休息 平板哑铃卧推 休息 硬拉 有氧 杠铃推举 休息 山羊挺身 休息 双杠臂屈伸 波比跳 弓箭步行走 ...

  7. GAN又模式坍塌(mode collapse)了。。。

    GAN模式坍塌(mode collapse)示例...

  8. 总裁演说思维模式口才训练小方法:主动问候寒暄法

    总裁演说思维模式口才训练小方法:主动问候寒暄法 主动问候寒暄法就是在路上与熟人见面时主动打招呼.主动问候寒暄,主动发起聊天.也可以叫做"主动打招呼法". 主动问候寒暄法属于闲聊法的 ...

  9. CTF竞赛模式与训练平台

    CTF竞赛主要有夺旗赛和攻防对抗赛. 夺旗赛 一般线上初选采用传统的夺旗赛模式,题目中设置一些标识,解题的目的是找到标识并提交.通常包含的题目类型包括MISC.CRYPTO.PWN.REVERSE.W ...

最新文章

  1. GROMACS运行参数之npt.mdp文件详解
  2. mac平台反编译apk,获取源码,androidmanifest和资源文件
  3. 蓝牙怎么实现传输的_不知道手机蓝牙有啥用?1分钟带你了解蓝牙这6种用法!涨知识啦...
  4. hadoop运行中报错笔记
  5. 8-spark学习笔记-sparksql
  6. SNAT和DNAT的区别
  7. 9针串口定义测试方法_一些定义–测试技术9
  8. myeclipse链接数据库,SQL语句实现增删改查
  9. Eclipce Luna 离线安装ADT23
  10. matlab单机带负荷系统模型,用MATLAB仿真实现电力系统静态稳定性分析
  11. thinkphp redis队列处理_教你用ThinkPHP中thinkphpqueue
  12. 视频课程:CMOS模拟集成电路设计--已上线
  13. 小米4Linux刷机包,小米4官方原厂固件rom线刷刷机包下载_小米4线刷官方系统包
  14. 网页资源下载 -- 水浒传全集
  15. UG+PRESSCAD五金连续模 成型模 复合模具设计视频教程
  16. mysql +cobar_数据库中间件Cobar功能探究
  17. 校园多媒体直播系统方案
  18. App逆向学习--1
  19. 压缩软件 WinRAR 去广告
  20. 从一个叫灵异拼图(the forgotten) 影片看东西方文化的差异

热门文章

  1. 前端切换视图_前端架构 101(五):从 Flux 进化到 Model-View-Presenter
  2. java 日志设计_Java日志设计实践(3) - 开发篇
  3. 信道容量受哪三个要素_影响信道容量的主要因素有哪些
  4. ENVI计算公式(一)
  5. 【转】AI-900认证考试攻略
  6. 【转】1.A(译).NET4.X 并行任务中Task.Start()的FAQ
  7. 【转】什么是staging server
  8. C#的变迁史02 - C# 2.0篇
  9. 第九节:深究并行编程Parallel类中的三大方法 (For、ForEach、Invoke)和几大编程模型(SPM、APM、EAP、TAP)
  10. 需求分析之UML用例图学习