【PaddlePaddle论文复现】LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS阅读心得

作者:Andrew Brock Jeff Donahue Karen Simonyan
------ 我基础不太好,就选择了这个稍微简单的论文作为复现。
课程链接
https://aistudio.baidu.com/aistudio/education/group/info/1340

简介

文章训练了大样本规模的生成对抗网络,并研究了针对这种规模的不稳定性。利用生成器应用正交正则化使其适合于简单的“截断技巧”,从而可以通过减少生成器输入的方差来精确控制样本保真度与变化之间的权衡。对SA-GAN模型修改,这些模型在类条件图像合成中设置了新的技术水平。得到惊人的IS 166.5,FID 7.4。

模型的修改

这篇论文没有提出新的模型,只是 将原有的GAN的模型,用8倍原有的 batch size大小 ,并且将隐藏层的变量 数量扩充到原有模型的4倍以后,进行训 练获得了很好的图片生成的效果。

BigGAN的典型架构布局,提高batch_size到128,以及一些ResNet的修改,提高了网络运行性能和稳定性。将整个z与类嵌在一起,然后通过skip连接传递给每个残差块。


在G中,需要减少通道数量的地方,我们只保留第一组通道,而剩下的则丢弃以产生所需数量的通道。在D中,应增加通道数,我们不加扰动地传递输入通道,并将它们与1×1卷积产生的其余通道连接起来。

![高分辨率的网络修改](https://img-blog.csdnimg.cn/202008![高分辨率的网络修改]](https://img-blog.csdnimg.cn/20200806223123459.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0NzZG5wYWk=,size_16,color_FFFFFF,t_70)

工作步骤(直接翻译)

G和D网络均使用正交初始化进行初始化(Saxe等,2014)。我们使用Adam优化器(Kingma和Ba,2014),β_1= 0,β_2= 0.999,学习率恒定。对于所有分辨率的BigGAN模型,我们在D中使用2·10−4英寸,在G中使用5·10−5。对于BigGAN较深的情况,我们使用2·10−4的D和5·10−5的G的学习率×128型号,对于256×256和512×512图像,D和G均达到2.5·10−5。我们对每G步的D步数进行了实验(从1更改为6),发现每G步两个D步给出了最佳结果。我们在采样时使用G的权重的指数移动平均值,衰减率设置为0.9999。我们采用跨副本的BatchNorm(Ioffe和Szegedy,2015)的G,其中批处理统计信息汇总到所有设备上,而不是像标准实现那样是单个设备。遵循SA-GAN(Zhang等人,2018),G和D中都使用了谱归一化(Miyato等人,2018)。

截断技巧来平衡多样性和精准度


取一个用z〜N(0,I)噪声训练的模型并从一个截断的法线中采样z(其中超出范围的值将重新采样以落入该范围内):通过以大于选定阈值的幅度对值进行重采样来截断z向量,阈值由大变小能得到得到Figure 2的a图。
一些较大模型不适合截断,在馈入截断噪声时会产生饱和伪像(图2(b))。为了解决这个问题,我们试图通过将G调整为平滑来增强对截断的适应性,以便z的整个空间都可以映射到良好的输出样本。为此,作者从正则化中去除了对角项,旨在最大程度地减少滤波器之间的成对余弦相似度,但不限制其范数,公式见下图。

崩溃分析


提高训练数据量后,增加其多样性,但是也会使模型变得不稳定,需要一些策略抑制崩溃速度,其中每个权重矩阵的前三个奇异值σ0,σ1,σ2具有最丰富的信息。
接对每个权重的顶部奇异值σ0进行正则化,或者朝固定值σregor向第二个奇异值的某个比率 r·sg(σ1)进行正则化(使用sg停止梯度操作以防止正则化增加σ1 )。另外,我们采用部分奇异值分解代替钳制σ0。给定权重W为(其中第一奇异向量为u0和v0,σclamp为σ0钳位值,一般设为σreg或r · sg(σ1):
对D施加足够高的惩罚,可以实现训练稳定性,但会大幅降低性能。但是仍不足以确保稳定性。因此,我们将注意力转向D。
分析D的权重频谱以了解其行为,然后通过施加其他约束来稳定训练。图3(b)显示了D的σ0的典型曲线图。与G不同,我们看到频谱有噪声,σ0σ1表现良好,并且奇异值在整个训练过程中会增长,但只会在崩溃时跳跃而不是爆炸。
使用其他正则化方法,对D施加足够高的惩罚,可以实现训练稳定性,但会大幅降低性能。我们还观察到D在训练过程中的损失接近零,但在崩溃时会急剧上升。
总结我们发现稳定性并没有到来完全来自G或D,但来自他们在对抗训练过程中的互动。总结我们发现稳定性并没有到来完全来自G或D,但来自他们在对抗训练过程中的互动。

崩溃前的干预崩溃

为了进一步阐明这些动态,我们构建了两个附加的干预实验,一个是在崩溃之前冻结G(通过停止所有参数更新)并观察D是否保持稳定,反之则在崩溃之前冻结D并观察G是否保持稳定。 。我们发现,当G冻结时,D保持稳定,并缓慢地将其损失的两个分量减小到零。但是,当D冻结时,G立即急剧崩溃,与正常范围0到3相比,D的损失最大达到300。这得出两个结论:首先,如先前的研究,D必须相对于G保持最佳状态,以确保稳定性并提供有用的梯度信息。无论G的条件或优化设置如何,G都可以赢得比赛的结果是训练过程的彻底崩溃。

心得

先读懂论文,根据老师领读进一步地纠正自己阅读中的理解错误,最后写总结,写的过程中会发现自己有些模糊的东西没搞懂,这时重新阅读文献和去网上找资料。这种方法很好解决了之前自己一个人自学的时候不知道最后自己是否理解正确的问题,感谢paddlepaddle提供的平台,让我学到了好多。
另外还有许多前置论文需要去读,我对文章的理解还不到位。

【PaddlePaddle论文复现】LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS阅读心得相关推荐

  1. Paper之BigGAN:ICLR 2019最新论文《LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(未完待续)

    Paper之BigGAN:ICLR 2019最新论文<LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS> ...

  2. Paper之BigGAN:《Large Scale Gan Training For High Fidelity Natural Image Synthesis》翻译与解读

    Paper之BigGAN:<Large Scale Gan Training For High Fidelity Natural Image Synthesis>翻译与解读 目录 效果 1 ...

  3. Large scale GAN training for high fidelity natural image synthesis解读

    <Large scale GANtraining for high fidelity natural image synthesis>这篇文章对训练大规模生成对抗网络进行了实验和理论分析, ...

  4. 《Large scale GAN training for high fidelity natural image synthesis》论文阅读记录

    论文连接地址:https://arxiv.org/pdf/1809.11096.pdf Github地址:https://github.com/AaronLeong/BigGAN-pytorch 目录 ...

  5. [BigGAN] Large Scale GAN Training for High Fidelity Natural Image Synthesis

    1.目的 在大型数据集上训练class-conditional GAN,并探索相关的trick 2.贡献 1)数据集的扩大使得GAN的表现也随之提升.文章的网络参数量是之前工作的2~4倍,batch ...

  6. 用于高保真自然图像合成的大规模GAN训练(Large Scale GAN Training For High Fidelity Natural Images)论文 pdf

    下载地址:https://u20150046.ctfile.com/fs/20150046-376632643 By Andrew Brock,Jeff Donahue,Karen Simonyan( ...

  7. 飞桨PaddlePaddle(论文复现)-BigGAN解读

    飞桨PaddlePaddle(论文复现)-BigGAN解读 先来看看效果(左上脚为生成的图像) 论文在现有GAN的基础上对生成样本的保真度与多样性之间的权衡进行改进 在ImageNet的128*128 ...

  8. 【PaddlePaddle论文复现营】Temporal Pyramid Network for Action Recognition

    [PaddlePaddle论文复现营]Temporal Pyramid Network for Action Recognition 写在前面的话 论文简介 从视频分类领域中的一个痛点谈起 相关工作 ...

  9. 飞桨PaddlePaddle论文复现:图像的一阶运动模型(初版)

    介绍 图片动画主要的任务是将源图像的'外表'提取出来和从驱动视频中提取出来的运动模式相结合. 本文和前任的最大区别是这个模型训练产生图像动画不需要网络有前置知识而仅仅依赖源图片和驱动视频进行生成,而且 ...

最新文章

  1. 在jsp调试后端绑定对象
  2. C# 使用Linq递归查询数据库遇到的问题及解决方法
  3. 菜鸟经验积累之JS运算
  4. 咋样回复计算机桌面删除的东西,被删除的文件怎么恢复 四个妙招巧解决【图解】...
  5. 高考与机器学习训练测试
  6. APT***的那些事
  7. 深度学习总结:pytorch构建RNN和LSTM,对比原理图加深理解
  8. 华为云技术开放日(第三季)活动报道
  9. 爱了!华为nova 5细节曝光:外观配置堪比Mate 20 Pro
  10. 禁用Chrome自动更新
  11. 15.MongoDB的一致性(读关注与写关注)
  12. 数据库-MySQL约束-笔记
  13. 封装el-select(全球国家名字及国家区号),select 输入框回显
  14. 概率统计Python计算:贝叶斯公式
  15. Vue使用微信录音并上传服务端
  16. PHP解决中文乱码问题
  17. 解一元三次方程方程问题细节探讨
  18. 【软件构造】——课程篇 高屋建瓴,从宏观角度谈软件构造
  19. C语言学习(四)字符串和格式化输入/输出
  20. 奋斗吧,程序员——第十九章 无可奈何花落去,似曾相识燕归来

热门文章

  1. Python dict_values取第一个值
  2. 阿里云存储价格对象存储OSS、文件存储NAS和块存储收费标准
  3. XDoj 1037 希希的多项式 (python)
  4. discuz应用中心,discuz应用中心问题解决
  5. 梯度下降法的理解以及马鞍点
  6. PHP输出1-20之间的奇数,php – MySQL查询仅输出奇数行
  7. 【翻译】Real Shading in Unreal Engine 4
  8. 计算机桌面移动如何解决,电脑桌面向右移动了,如何恢复?
  9. 利用OATS技术来设计Test Case
  10. 【生产排故】oracle11g升19c之ORA-00904 WM_CONCAT invalid identifie排故