学习笔记：Improved Techniques for Training GANs理解

论文链接：https://arxiv.org/abs/1606.03498

这是一篇对GAN的训练作出改进的文章，众所周知，GAN的训练是极其不稳定的。转载请注明。

1 主要内容

对GAN网络提出一些改进的体系特征和训练过程，然后把这些改进应用到半监督学习以及提高生成图像质量的领域上。

2 模型改进

2.1 feature matching

问题描述：生成器和判别器其实是在寻找一个纳什均衡，但梯度下降算法适应于损失函数是一个凸（凹）函数的情况，如果应用梯度下降算法，且生成器和判别器使用同一个目标函数，很有可能是此消彼长此长彼消的情况。

因此为了解决不稳定的情况，作者提出了为生成器寻找另一个目标函数的方法。新的目标函数，利用判别器的中间层的输出,使得生成图片的特征与真实图片的特征相匹配.直观上判别器的中间层其实是一个特征提取器，用来区别真实图片和生成图片的特征，作者认为这种特征的差异是值得生成器学习的。因此生成器的目标函数为，f(x)表示判别器的中间层的输出。

2.2 minibatch discrimination

问题：生成图片单一的一个主要问题在于生成器的参数设置上，也就是说生成器把不同的z映射到了相同的点，当这种情况发生时，判别器由于只单独考虑一个点，所以只会对于这些相似的点，指出相似的优化方向，因此相当于没有考虑点与点之间的相似情况，也不会告诉生成器下一步优化时使得这些点不相似。因此作者提出判别器应该考虑多个点，而不是独立的计算每个点的梯度。具体方法如下：

f_i表示，以第i个x为输入得到的长度为A的特征；乘以一个张量，得到矩阵，然后计算，相当于计算与其他点的距离，b指M的第b行，然后得到如下：

将f(xi)和o(xi)concat,作为下一层的输入，其他的和原始的GAN是一样的。

3半监督学习应用

将判别器定义成一个分类器，真实图片有K 个分类，把生成图片作为第K+1类，那么分类器的维度就变为K+1，分类器的损失函数为：

实际上

相当于原始GAN的判别器，可以作为生成器的损失函数，也就是在训练分类器的同时也可以训练生成器。

4生成图片评估

4.1MTurk

类似于图灵测验，选定一部分人，将真实图片和生成图片掺杂在一起，这些邀请人需要逐个指出给定图片是真实的还是生成的。这种方法是不可靠的，因为人的判断极易受实验设置以及反馈信息的影响。

4.2 inception score

作为图灵测验的一个替代标准，作者提出了一个inception model，这个模型以生成图片x为输入，以x的推断类标签概率为输出。作者认为良好的样本（图像看起来像来自真实数据分布的图像）预计会产生：

低熵：即高预测置信度，好样本应该包含明确有意义的目标物体。

高熵即高度变化的预测，这是一个边际分布，也就是说所有的x应该尽量分属于不同的类别，而不是属于同一类别。

因此，inception score定义为。

5 实验

5.1 MNIST数据集（在半监督分类训练的结果）

分类错误的样本数量

生成图片的质量（左边是把第一个改进应用到半监督里的生成器，右边是第二个改进）

实验验证feature matching的分类错误率比minibatch discrimination的效果要好，但是生成图片质量却不如它（不知为何，将来的工作）

5.2 CIFAR-10（同MNIST）

Inception score

5.3 SVHN

5.4 ImageNet

数据集的图片的分辨率是128*128，由于图片的多样性，所以传统的GAN网络效果并不是很好，没有较高的分辨率，没有明确的物体，左边的是DCGAN，右边是使用本文提出的改进方法得到的图片，可以看出模型学到了一些可辨识的特征，比如眼睛鼻子，但是并不能正确地组合在一起。

6结论

生成对抗网络的缺点在于不稳定的训练以及缺乏适当的评估指标。在本文中作者提出了几种技术来稳定训练，并且提出了一个评估指标（初始评分）作为比较模型质量的基础。作者指出在今后的工作中需要讨论更加严谨的理论认知。