用于改善质量、稳定性和多样性的可增长式GAN

GANs
NVIDIA
Fly

real or fake ?
real or fake ?

1024 x 1024 images generated using the CELEBA-HQ dataset

来源

  • 论文:Progressive Growing of GANs for Improved Quality, Stability, and Variation
  • 链接:http://research.nvidia.com/publication/2017-10_Progressive-Growing-of
  • 推荐理由: Under review as a conference paper at ICLR 2018

摘要

  • 描述了生成对抗网络的新的训练方法

  • 关键思想是通过渐进的方式训练生成器和鉴别器:从低分辨率开始,逐步添加新的层次,从而在训练进展中增加更精细的细节

  • 还提出了一种增加生成图像变化的简单方法,并且在无监督的CIFAR10中实现了创记录的8.80的初始分数。

  • 此外,描述了几个实现细节,这些细节对于抑制生成器和鉴别器之间的不健康竞争非常重要。

  • 提出了一个新的衡量GAN结果的指标,无论是在图像质量和变化方面。

  • 作为额外的贡献,构建了更高质量的CelebA数据集。

提出模型

模型图

逐层递增的网络

以往的 GAN 生成低分辨率图片稳定迅速,但生成高分辨率图片困难重重。这篇文章从简单的低分辨率图片开始同时训练生成器和判别器,然后逐层增加分辨率,让训练的难度每层只增加一点点。感觉就像是算法里面的暴力搜索到二分法搜索,大大提高了高分辨率图片的生成速度及质量。

其他的一些改进

  • 以往没有好的办法去判断 GAN 生成的图片是好是坏,很多时候需要肉眼来看,有很大的主观性,而且人能检查的样本空间不够大。文章的第 5 节介绍了如何用统计的方法来直观的判断生成样本的好坏,采用的思路是在各个尺度上抽取 7x7 个像素的局域碎片,比较生成图片与训练图片的局域结构相似性。

  • GAN 生成图像的多样性不好量化,当判别器过强时生成器可能会塌缩到单个类。这篇文章不添加任何超参数,只是将所有属性在所有空间位置的统计标准差求平均,作为卷积神经网络 Feature Map 的一个常量通道,就得到了更好的多样性 。

  • 使用了一种“local response normalization”方法来对 FeatureMap 做归一化,不清楚与 BatchNormalization 的效果相比有没有提升。

  • 在 WGAN-GP 的正规化项中使用非常大的 gamma 因子,从公式上看当生成图片与训练图片相差过大时,大的 gamma 因子可以让生成分布快速漂移到训练图像分布。

算法结果

六分钟的视频

缺点以及不足

论文最后说了一下还面临的一些情况:

与真实的写实主义相比,还有一段路要走:

  • 图片语义敏感性和理解数据集的相关结束还有很大进步空间
  • 图像的微观结构也有改进的余地

reference

http://mp.weixin.qq.com/s/1XkOEIlTD4Igr_Ws2sJvoQ
https://www.leiphone.com/news/201710/tPXkf1dcoGDqv5HD.html
http://research.nvidia.com/publication/2017-10_Progressive-Growing-of

转载于:https://www.cnblogs.com/flyu6/p/8007329.html

用于改善质量、稳定性和多样性的可增长式GAN相关推荐

  1. FEC(Forward Error Correction)前向纠错 UDP\RTP 中使用用于改善无线等网络丢包等问题--转...

    FEC(Forward Error Correction)前向纠错 UDP\RTP 中使用用于改善无线等网络丢包等问题 算法暂不介绍. 思路:FEC ENCODE 增加冗余包,当无线等网络丢包之后,接 ...

  2. Nature论文解读:用于改善加权生物网络信噪比的网络增强方法

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  3. 2018年语言模型用于改善语音识别的论文创新点总结

    语音识别框架即声学模型加语言模型. 2018-icassp-ACCELERATING RECURRENT NEURAL NETWORK LANGUAGE MODEL BASED ONLINE SPEE ...

  4. 解释用于语义面部编辑(Semantic Face Editing)的GAN的隐空间(Latent Space)

    Interpreting the Latent Space of GANs for Semantic Face Editing 公众号:EDPJ 目录 0. 摘要 1. 介绍 1.1 相关工作 2.  ...

  5. 跨越数字化周期,数据质量如何影响和驱动业务增长

    本文是根据DQMIS 2020第四届数据质量管理国际峰会数据质量业务场景应用圆桌论坛现场嘉宾讨论整理而成. 图1.1  数据质量业务场景应用圆桌论坛 (左起:<北大创新评论>执行主编谢艳老 ...

  6. 非接触超声技术用于电池质量检测

    在可持续发展理念的不断深化之下,电动汽车迎来了高速发展,其保有量也在迅速提升.据BCG预测,到2030年,电池供电的电动车(BEV)与插电式混合动力汽车(PHEV)将占据全球近四分之一的汽车市场. 随 ...

  7. 项目管理工具 web_14个用于改善项目的Web工具

    项目管理工具 web Here you can find the best services on the internet that will enhance your digital work a ...

  8. 解码大脑:改善BCI稳定性

    ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ 脑机接口(BCI)寻求在神经科学和工程系统之间搭建一座桥梁,允许神经工程师能够记录大脑中的电活动,对其进行分析以此推断出个体正在试图做什么,并使用它来控制假肢 ...

  9. 中英三校合作开发新电池结构,可用于改善可穿戴设备体验

    这种新结构增加了电池在压力下的灵活性,对于可穿戴技术的发展非常重要. 如果电池能够任意改变形状,这将大大提升可穿戴设备的柔软度,人们在使用时也会觉得更加舒适. 11月24日消息,据媒体报道,近日,在英 ...

最新文章

  1. 利用exif.js解决手机上传竖拍照片旋转90\180\270度问题
  2. Developer Express 之 XtraReport如何显示设计窗体,打开已设计过的报表
  3. Java中常见数据结构Map之LinkedHashMap
  4. Spark _15 _广播变量和累加器
  5. 【ArcGIS遇上Python】ArcGIS10.6 python批量将栅格中的特定值替换Setnull为NoData
  6. (pytorch-深度学习系列)CNN的多输入通道和多输出通道
  7. python items() 函数的使用(一分钟读懂)
  8. 表关联关系,表的复制
  9. eclipse 代码问题总结
  10. 使用pyqt开发gui(pyqt集成到pycharm)
  11. fiddler使用文档
  12. 破解Bandicam
  13. 大型粒子对撞机已被上面叫停了!何祚庥:希望杨振宁李政道有生之年重归于好...
  14. iOS app上架app store流程详解
  15. 《统计学习方法》(李航)的学习体会(一)
  16. EasyOCR,识别图片中的文字真的so easy
  17. VC++实现获取本地主机网卡信息
  18. [DataAnalysis]数据分析和大数据入门推荐书单
  19. 修改DNS—出现一个意外,不能完成更改
  20. 沙盒隔离技术的本质与背景

热门文章

  1. java 禁止使用多线程_Java多线程(四)-线程状态的转换 - Java 技术驿站-Java 技术驿站...
  2. Android之Fragment使用简介
  3. golang中的recover
  4. nagle算法和延迟ACK
  5. 不同函数之间的跳转setjmp和longjmp
  6. shell实例第18讲:利用gzexe加密shell脚本
  7. C语言中:在头文件中使用static定义变量意味着什么?
  8. 得到CRC16校验码的常见几个标准的算法及C语言实现
  9. java web一: xml
  10. Fabric Kafka入门