【PaddlePaddle论文复现】LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS阅读心得

作者:Andrew Brock Jeff Donahue Karen Simonyan
------ 我基础不太好，就选择了这个稍微简单的论文作为复现。
课程链接
https://aistudio.baidu.com/aistudio/education/group/info/1340

简介

文章训练了大样本规模的生成对抗网络，并研究了针对这种规模的不稳定性。利用生成器应用正交正则化使其适合于简单的“截断技巧”，从而可以通过减少生成器输入的方差来精确控制样本保真度与变化之间的权衡。对SA-GAN模型修改，这些模型在类条件图像合成中设置了新的技术水平。得到惊人的IS 166.5，FID 7.4。

模型的修改

这篇论文没有提出新的模型,只是将原有的GAN的模型,用8倍原有的 batch size大小 ,并且将隐藏层的变量数量扩充到原有模型的4倍以后,进行训练获得了很好的图片生成的效果。

BigGAN的典型架构布局，提高batch_size到128，以及一些ResNet的修改，提高了网络运行性能和稳定性。将整个z与类嵌在一起，然后通过skip连接传递给每个残差块。

在G中，需要减少通道数量的地方，我们只保留第一组通道，而剩下的则丢弃以产生所需数量的通道。在D中，应增加通道数，我们不加扰动地传递输入通道，并将它们与1×1卷积产生的其余通道连接起来。

![高分辨率的网络修改](https://img-blog.csdnimg.cn/202008![高分辨率的网络修改]](https://img-blog.csdnimg.cn/20200806223123459.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0NzZG5wYWk=,size_16,color_FFFFFF,t_70)

工作步骤（直接翻译）

G和D网络均使用正交初始化进行初始化（Saxe等，2014）。我们使用Adam优化器（Kingma和Ba，2014），β_1= 0，β_2= 0.999，学习率恒定。对于所有分辨率的BigGAN模型，我们在D中使用2·10−4英寸，在G中使用5·10⁻⁵。对于BigGAN较深的情况，我们使用2·10⁻⁴的D和5·10⁻⁵的G的学习率×128型号，对于256×256和512×512图像，D和G均达到2.5·10⁻⁵。我们对每G步的D步数进行了实验（从1更改为6），发现每G步两个D步给出了最佳结果。我们在采样时使用G的权重的指数移动平均值，衰减率设置为0.9999。我们采用跨副本的BatchNorm（Ioffe和Szegedy，2015）的G，其中批处理统计信息汇总到所有设备上，而不是像标准实现那样是单个设备。遵循SA-GAN（Zhang等人，2018），G和D中都使用了谱归一化（Miyato等人，2018）。

截断技巧来平衡多样性和精准度

取一个用z〜N（0，I）噪声训练的模型并从一个截断的法线中采样z（其中超出范围的值将重新采样以落入该范围内）：通过以大于选定阈值的幅度对值进行重采样来截断z向量，阈值由大变小能得到得到Figure 2的a图。
一些较大模型不适合截断，在馈入截断噪声时会产生饱和伪像（图2（b））。为了解决这个问题，我们试图通过将G调整为平滑来增强对截断的适应性，以便z的整个空间都可以映射到良好的输出样本。为此，作者从正则化中去除了对角项，旨在最大程度地减少滤波器之间的成对余弦相似度，但不限制其范数，公式见下图。

崩溃分析

提高训练数据量后，增加其多样性，但是也会使模型变得不稳定，需要一些策略抑制崩溃速度，其中每个权重矩阵的前三个奇异值σ0，σ1，σ2具有最丰富的信息。
接对每个权重的顶部奇异值σ0进行正则化，或者朝固定值σregor向第二个奇异值的某个比率 r·sg（σ1）进行正则化（使用sg停止梯度操作以防止正则化增加σ1 ）。另外，我们采用部分奇异值分解代替钳制σ0。给定权重W为（其中第一奇异向量为u0和v0，σclamp为σ0钳位值，一般设为σreg或r · sg(σ1)：
对D施加足够高的惩罚，可以实现训练稳定性，但会大幅降低性能。但是仍不足以确保稳定性。因此，我们将注意力转向D。
分析D的权重频谱以了解其行为，然后通过施加其他约束来稳定训练。图3（b）显示了D的σ0的典型曲线图。与G不同，我们看到频谱有噪声，σ0σ1表现良好，并且奇异值在整个训练过程中会增长，但只会在崩溃时跳跃而不是爆炸。
使用其他正则化方法，对D施加足够高的惩罚，可以实现训练稳定性，但会大幅降低性能。我们还观察到D在训练过程中的损失接近零，但在崩溃时会急剧上升。
总结我们发现稳定性并没有到来完全来自G或D，但来自他们在对抗训练过程中的互动。总结我们发现稳定性并没有到来完全来自G或D，但来自他们在对抗训练过程中的互动。

崩溃前的干预崩溃

为了进一步阐明这些动态，我们构建了两个附加的干预实验，一个是在崩溃之前冻结G（通过停止所有参数更新）并观察D是否保持稳定，反之则在崩溃之前冻结D并观察G是否保持稳定。。我们发现，当G冻结时，D保持稳定，并缓慢地将其损失的两个分量减小到零。但是，当D冻结时，G立即急剧崩溃，与正常范围0到3相比，D的损失最大达到300。这得出两个结论：首先，如先前的研究，D必须相对于G保持最佳状态，以确保稳定性并提供有用的梯度信息。无论G的条件或优化设置如何，G都可以赢得比赛的结果是训练过程的彻底崩溃。

心得

先读懂论文，根据老师领读进一步地纠正自己阅读中的理解错误，最后写总结，写的过程中会发现自己有些模糊的东西没搞懂，这时重新阅读文献和去网上找资料。这种方法很好解决了之前自己一个人自学的时候不知道最后自己是否理解正确的问题，感谢paddlepaddle提供的平台，让我学到了好多。
另外还有许多前置论文需要去读，我对文章的理解还不到位。