Freeze the Discriminator: a Simple Baseline for Fine-Tuning GANs

生成式对抗网络(GANs)在计算机视觉、图形学和机器学习等领域表现出了出色的性能，但通常需要大量的训练数据和大量的计算资源。为了解决这一问题，几种方法将迁移学习技术引入GAN训练中。然而，他们要么倾向于过度拟合，要么局限于学习小的分布变化。在本文中，我们证明了简单的微调gan具有冻结的低层鉴别器表现惊人的好。这个简单的基线，即FreezeD，显著优于以前在无条件和条件gan中使用的技术。

The code and results are available at https://github.com/sangwoomo/FreezeD.

1. Introduction

已经提出了许多技术来克服这一限制，例如，转移训练有素的源模型的知识[45, 32, 44]，学习元知识以快速适应目标领域[24, 47, 42]，使用辅助任务来促进训练[7, 26, 48, 49]，改进次优模型的推理程序[2, 39, 29, 38]，使用表达式先验分布[13]，主动选择样本来为条件生成提供监督[29]，或主动抽样小批进行训练[37]。在这些方法中，转移学习[46]可以说是在有限的数据和资源下训练模型的最有希望的方法。事实上，最近深度学习的大部分成功都是建立在以监督[9]或自我监督[10, 14]的方式在大型数据集上预训练的强大骨干上。

在识别任务中转移分类器成功之后，还可以考虑将训练良好的GAN主干用于下游生成任务。虽然有几种方法提出了迁移学习方法来训练GANs[45,32,44]，但它们往往倾向于在有限的训练数据[45]下进行过拟合，或者在学习显著分布偏移时不具有鲁棒性[32,44]。

在本文中，我们提出了一个简单而有效的gan迁移学习基线。特别地，我们展示了简单的gan微调(生成器和判别器)与判别器的冻结较低层的性能惊人地好(参见图1)。直观上，鉴别器的下层学习图像的一般特征，上层学习根据提取的特征对图像进行真伪分类。我们注意到，这种特征提取器和分类器的二分法(并冻结特征提取器以进行微调)并不新鲜;它已被广泛应用于训练分类器[46]。我们确认了这一观点对gan的迁移学习也是有用的，并为gan迁移学习设置了合适的基线。

图1：在动物脸部[36]数据集中的 "狗 "类上，微调[15]和我们提出的基线FreezeD的得分趋势。虽然微调存在过拟合的问题，但FreezeD在训练GAN时显示出持续的稳定性。

我们使用不同的架构和数据集证明了简单基线（被称为FreezeD）的有效性。对于无条件的GANs，我们对StyleGAN[20]架构进行了微调，该架构在FFHQ[20]、动物脸部[36]和动漫脸部[30]数据集上进行了预训练；对于有条件的GANs，我们对SNGAN-projection[27]架构进行了微调，该架构在ImageNet[9]、牛津花[31]、CUB-200-2011[40]和Caltech-256[12]数据集上预训练。FreezeD在所有的实验设置中都优于以前的技术，例如，在动物脸部数据集的 "狗 "类上，FID[15]得分从微调的64.28分提高到61.46分（-4.4%）。

2. Methods

GANs[11]的目标是学习一个生成器(和一个相应的鉴别器)来匹配目标数据分布。在迁移学习中，我们假设可以利用预先训练的源数据分布源生成器(和相应的鉴别器)来改进目标生成器。GANs的调查见[25,22]。

首先，我们简要回顾了以往的迁移学习方法。

微调[45]:最直观、最有效的知识传递方式就是微调;将目标模型的参数初始化为源模型的预训练权值。作者报告说，微调生成器和鉴别器确实显示出最好的性能然而，微调经常遭受过度拟合的困扰;因此需要适当的regularization。
Scale/shift[32]:由于na¨ıve微调容易过度拟合，Scale/shift建议只更新归一化层(例如，批处理归一化(BN)[17])，而固定所有其他权重。然而，由于其局限性，它往往表现出较差的结果，特别是当源和目标分布之间有显著的变化时。
Generative latent optimization（GLO）[32，4]。由于GAN的损失是由判别器给出的，这对于有限的数据来说可能是不可靠的，GLO建议用监督学习来微调生成器，其中损失由L1损失和感知(perceptual )损失之和给出[19]。在这里，GLO联合优化生成器和 latent codes以避免过度拟合；一个 latent codes（及其相应的生成样本）与一个真实样本相匹配；因此，生成器可以通过插值来概括样本。虽然GLO提高了稳定性，但由于缺乏对抗性损失（以及对源鉴别器的预先了解），它往往会产生模糊的图像。
MineGAN[44]。为了避免生成器的过度拟合，MineGAN建议固定生成器并修改latent codes。为此，MineGAN训练一个矿工网络，将latent codes转换为另一个latent codes。虽然当源分布和目标分布共享支持时，这种类似重要性采样的方法是有效的，但当它们的支持不一致时，它可能不具有普遍性。

我们现在引入了一个简单的基线，FreezeD，尽管它很简单，但它的性能优于前面的方法，并为可能的未来方向提出了另外两种方法，它们可能会带来进一步的改进。我们指出，我们的目标不是提倡最先进的技术，而是建立一个简单和有效的基线。通过这样做，我们希望鼓励新技术超越所提议的基线。

FreezeD(我们提出的基线):我们发现简单地冻结鉴别器的较低层次，只微调上层，表现惊人地好。我们将这个简单而有效的基线称为FreezeD，并将在实验部分演示它相对于前面方法的一致增益。
L2-SP[23]。除了之前的方法，我们还测试了L2-SP，众所周知，它对分类器是有效的。在微调的基础上，L2-SP使目标模型不至于远离 source models。特别是，它使源模型和目标模型的参数的L2-norm正规化。在我们的实验中，我们将L2-SP应用于生成器、判别器和两者，但结果并不理想。然而，由于冻结层可以被看作是对所选层给予L2-SP的无限权重，而对其他层给予0，所以对每一层使用适当的权重可能会有更好的表现。
特征蒸馏[16,35]:我们还测试了特征蒸馏，这是最流行的分类器迁移学习方法之一。在这些变体中，我们简单地提取源模型和目标模型的激活(初始化为源模型)。我们发现特征蒸馏的结果与freeze的结果相当，但需要两次计算。研究更先进的技术(例如，[1,18,34])将是一个有趣和有前景的未来方向。

A. Ablation Study on Freezing Layers

我们在表5和表6中分别研究了StyleGAN和SNGAN-projection的判别器的冻结层的效果。在StyleGAN中，第4层始终显示出最佳性能。然而，在SNGAN-projection中，第{3、2、1}层分别对Oxford Flower、CUB-200-2011和Caltech-256数据集是最好的。这是因为Caltech-256与Oxford Flower相比更难学习（即分布转移更大）。直观地说，人们应该减少对模型的限制，以适应大的分布偏移。我们还可以看到，对于《牛津花》数据集，FreezeD的稳定性不如微调。我们观察到，特征提炼显示出更好的稳定性，同时在我们的早期实验中显示出类似的最佳性能。调查一个更复杂的方法将是一个有趣的研究方向。

表5:在Animal Face数据集的“猫”和“狗”类下StyleGAN架构上D冻结层的消融研究。第i层表示该鉴别器的前i层被冻结。第4层表现最好。

表6：在Oxford Flower, CUB-200-2011, Caltech-256数据集下对SNGAN-projection架构上D的冻结层的消融研究。第i层表示鉴别器的前i层被冻结。