β-VAE：学习具有约束框架的基本视觉概念--附件

β-VAE: LEARNING BASIC VISUAL CONCEPTS WITH A CONSTRAINED VARIATIONAL FRAMEWORK

摘要（Abstract）
A.附录（APPENDIX）
- A.1 模型框架详解（MODEL ARCHITECTURE DETAILS）
- A.2. INFOGAN训练（INFOGAN TRAINING）
- A.3. ICA 和PCA基础模型（ICA AND PCA BASELINES）
- A.4. 分离度指标（DISENTANGLEMENT METRIC DETAILS ）
- A.5.对真实数据生成因子值进行分类（ CLASSIFYING THE GROUND TRUTH DATA GENERATIVE FACTORS VALUES）
A.6.解释归一化的β（INTERPRETING NORMALISED β）
- A.7. β和ε之间的关系（RELATIONSHIP BETWEEN β AND ε）
- A.8. 数据连续性（ DATA CONTINUITY）
- A.9. β-VAE例子（ β-VAE SAMPLES）
- A.10.额外的β-VAE遍历图（ EXTRA β-VAE TRAVERSAL PLOTS）

原文作者：Irina Higgins, Loic Matthey, Arka Pal, Christopher Burgess, Xavier Glorot, Matthew Botvinick, Shakir Mohamed, Alexander Lerchner
翻译者：Wendy

摘要（Abstract）

在无监督学习的世界上独立的数据生成因素的可解释的因式分解表示形式是人工智能发展的重要先驱。该人工智能能够像人类一样学习和推理。我们引入最新的一种学习框架β-VAE，可以以完全无监督的方式自动从原始图像中发现可解释的因式分解潜在表示图像。我们的方法是修改可变自动编码器（VAE）框架。我们介绍了一个可调整的超参数β，该参数可平衡潜在通道容量和独立性约束以及重构精度。我们证明具有适当调整的β>1的β-VAE在性能上优于VAE（β=1），以及在各种数据集上进行解缠因子学习和最新无监督学习 (InfoGAN) 和半监督(DC-IGN)方法的应用（名人，脸，椅子）。此外我们设计了一种协议来定量比较不同模型学习的解缠程度，并表明我们的方法在数量上也明显优于所有基准。与InfoGAN不同，β-VAE训练稳定，对数据的假设很少，仅依赖于调整单个超参数β，可以通过使用弱标记数据的超参数搜索，或通过启发式直观检查的纯无标签数据直接对其进行优化。

A.附录（APPENDIX）

A.1 模型框架详解（MODEL ARCHITECTURE DETAILS）

在表1中可以看到本文使用的所有模型架构的摘要。

A.2. INFOGAN训练（INFOGAN TRAINING）

训练Tbl中描述的InfoGAN网络。 1在2D形状数据集上（图7），我们遵循Chen等人所述的训练范例。（2016）进行以下修改。对于互信息正则化潜在代码，我们使用了从区间（-1,1）均匀采样的5个连续变量ci。我们使用了5个噪声变量zi，因为我们发现减少噪声变量的数量可以提高此数据集生成的样本的质量。为了帮助稳定训练，我们使用了Shietal（2016）中所述的实例噪声技巧，在判别器输入中添加了高斯噪声（图像的标准差为0.2，缩放为[-1,1]）。我们遵循了Radford等人（2015年）为卷积层的体系结构，并在除生成器中的最后一个和鉴别器中的第一个之外的所有层中使用批处理归一化。

A.3. ICA 和PCA基础模型（ICA AND PCA BASELINES）

为了计算ICA基准，我们将fastICA（Pedregosa等人，2011）算法应用于白化后的像素数据。由于内存限制，我们不得不将算法应用于与三个2D对象标识中的每个标识的转换相对应的数据集子集的成对组合。我们计算了在两个二维对象的成对组合中的每一个上训练的所有三个ICA模型的解缠结度量，然后在图6中呈现这些分数的平均值。

我们对原始像素和白化像素数据执行了PCA。两种方法都得出相似的解缠度指标得分。图6报告了使用白化像素数据计算出的PCA结果，以便与ICA得分进行更直接的比较。

A.4. 分离度指标（DISENTANGLEMENT METRIC DETAILS ）

我们使用 线性分类器 来了解产生zbdiff的生成因子的身份（有关获取zbdiff样本的过程，请参见方程式（5））。我们使用 完全连接的线性分类器来预测 p（y | zbdiff），其中y是四个生成因子（位置X，位置Y，比例和旋转）之一。我们使用softmax输出非线性和负对数似然损失函数。使用Adagrad（优化算法对分类器进行训练，学习率为1e-2，直至收敛。

按照以下方式计算报告的所有非纠缠度分数结果。使用不同的随机种子训练具有相同超参数的每个模型的十个副本，以获得解缠结的表示。十个训练过的模型副本中的每一个都使用解缠度度量得分算法进行了三次评估，每次都使用不同的随机种子来初始化线性分类器。然后，我们丢弃了三十个得分中最差的50％，并报告了其余结果。这样做是为了控制训练期间发散的少数实验的异常结果。

使用以下数据计算图6中的表格（左）中报告的结果。基本事实使用独立的数据生成因子v（我们的数据集不包含任何相关的数据生成因子w）。 PCA和ICA分解保留了前十个成分（PCA成分解释了60.8％的方差）。 β-VAE（β= 4），VAE（β= 1）和未经训练的VAE具有相同的完全连接结构，具有10个潜伏单位z。 InfoGAN使用五个连续潜在值的“推断”值，这些值在训练过程中根据互信息目标进行了规范化。

A.5.对真实数据生成因子值进行分类（ CLASSIFYING THE GROUND TRUTH DATA GENERATIVE FACTORS VALUES）

为了进一步验证我们提出的解缠度度量的有效性，我们进行了额外的定量测试：我们训练了线性分类器，以预测用于生成2D形状数据集的五个数据生成因子中每个的实验真实值。尽管此测试不能直接测量解缠结（因为它不能测量潜在表示的独立性），但解缠结的表示应使这种分类变得无关紧要。在表2中可以看出，β-VAE所学习的表示形式在所有五个因子上平均是因子分类的最佳代表。紧随其后的是DC-IGN。有趣的是，ICA仅在编码对象身份方面做得很好，而PCA设法学习了很好的对象位置表示。

A.6.解释归一化的β（INTERPRETING NORMALISED β）

A.7. β和ε之间的关系（RELATIONSHIP BETWEEN β AND ε）

A.8. 数据连续性（ DATA CONTINUITY）

我们假设数据连续性在指导无监督的模型学习正确的数据流形方面起着作用。为了测试该想法，我们测量了2D形状数据集中学习的解缠程度如何随着连续性的降低而变化。我们在原始2D形状数据集的子样本上训练了β= 4的β-VAE（图7A），然后逐步降低了生成因子的抽样密度。数据连续性的减少与每个对象的两个连续变换之间的平均像素方向（汉明）距离负相关（通过对象的两个相邻变换中的每个对象占据的平均像素数进行归一化以解决对象缩放）。图8表明，随着数据连续性的减少，学习表示中的纠缠程度也下降了。此效果在额外的超参数调整之后仍然有效，并且无法仅通过数据集大小的减小来解释，同样，VAE可以从保留数据连续性但约为原始大小的55％的数据子集中学习解缠结的表示（结果未显示）。

A.9. β-VAE例子（ β-VAE SAMPLES）

在图9中可以看到来自β-VAE的样本，它们学习了解缠结（β= 4）和缠结（β= 1）表示。

A.10.额外的β-VAE遍历图（ EXTRA β-VAE TRAVERSAL PLOTS）

我们从β-VAE提供了额外的潜在遍历图，这些图学习了3D椅子（图10-11）和CelebA（图12-14）数据集的解缠表示。在这里，我们显示了来自大量种子图像的所有潜在信息的遍历。