用于高保真自然图像合成的大规模GAN训练（Large Scale GAN Training For High Fidelity Natural Images）论文 pdf

下载地址：https://u20150046.ctfile.com/fs/20150046-376632643

By Andrew Brock，Jeff Donahue，Karen Simonyan（2018）

论文摘要

尽管生成图像建模最近取得了进展，但从ImageNet等复杂数据集成功生成高分辨率、多样化的样本仍然是一个难以实现的目标。为此，我们在最大的规模下进行了生成对抗网络的训练，并研究了这种规模下的不稳定性。我们发现，将正交正则化应用于发生器，使其服从于一个简单的“截断技巧”，可以允许通过截断潜在空间来精细控制样本保真度和多样性之间的权衡。我们的修改使得模型在类条件图像合成中达到了新的技术水平。当我们在ImageNet上以128×128分辨率进行训练时，我们的模型（BigGAN）的初始得分（IS）为166.3，Frechet初始距离（FID）为9.6。

概览

DeepMind团队发现，当前的技术足以从现有数据集(如ImageNet和JFT-300M)合成高分辨率、多样化的图像。他们特别指出，生成对抗网络(GANs)可以生成看起来非常逼真的图像，如果它们在非常大的范围内进行训练，即使用比以前实验多2到4倍的参数和8倍的批处理大小。这些大规模的GAN，或BigGAN，是类条件图像合成的最新技术。

核心思想

1.随着批（batch）大小和参数数量的增加，GAN的性能更好。

2.将正交正则化应用到生成器中，使模型响应特定的技术（“截断技巧”），该技术提供了对样本保真度和多样性之间的权衡的控制。

最重要的成果

1.证明GAN可以从scaling中获益；

2.构建允许显式、细粒度地控制样本多样性和保真度之间权衡的模型；

3.发现大规模GAN的不稳定性；

4.BigGAN在ImageNet上以128×128分辨率进行训练：初始得分（IS）为166.3，之前的最佳IS为52.52；Frechet Inception Distance (FID)为9.6，之前最好的FID为18.65。

AI社区的评价

1.该论文正在为ICLR 2019做准备；

2.自从Big Hub上线BigGAN发生器之后，来自世界各地的AI研究人员正在玩BigGAN，来生成狗，手表，比基尼图像，蒙娜丽莎，海滨以及更多主题。

未来研究方向

1.迁移到更大的数据集以减少GAN稳定性问题；

2.探索减少GAN产生的奇怪样本数量的可能性。

可能的应用

取代昂贵的手工媒体创作，用于广告和电子商务的目的。