NestedVAE: Isolating Common Factors via Weak Supervision.

摘要

公正无偏的机器学习十分重要，但数据中的偏差biases很可能被模型学到，导致后续决策过程有偏差。作者确定了减少偏差的任务与分离domain之间共有因子的联系，同时鼓励域特定的不变性。本文通过深度隐变量模型结合信息瓶颈理论，来分离common factors，适用于跨域的自然配对数据而不需要额外监管的场景。
Nested VAE试图用图像的潜在表征去重建成对的另一个图像的潜在表征。这样做分离了共同的潜在因素，并对于不在配对图像间共享的unwanted factors保持不变。具体地，通过从共享某些属性的不同域中选出图片配对，然后模型在学习过程中去“遗忘”域特定的信息，只是弱监督地、无对抗训练地学到共同因素。
另外还提出Adjusted Parity metric，跨域地评估一致性consistency和分类器性能。Nested VAE在 domain and attribute invariance, change detection, learning common factors for the prediction of biological sex方面都展现高性能

介绍

表征学习目标是学到数据变化的underlying factors，但也可能学到不想要的或混杂的因素，比如分布特定偏差。它会削弱模型在面对经验样本、分布变化、敏感偏差等情况时的概括性。
由于机器学习算法的使用而引起的系统性偏差越来越普遍，一些概念上不同的因素（种类、姿态）也纠缠一起。我们希望模型更 informative，对干扰因素invariant，across domains表现更好，并解缠独立变量因素。
本文主要贡献：① 对先前关于偏差、解缠、公平性、域/属性不变性和公共因素的工作进行了统一解释。② Nested VAE将深度、分期(amortized)变分推断和信息瓶颈(IB)理论相结合。 ③ 演示了NestedVAE通过学习域之间的公共因素在分类和回归性能方面取得显著的改进。 ④ 一种评估跨域的回归和分类parity的新度量 Adjusted Parity Metric

工作表述

模型结构示意图

根据共享属性or域将图像(或替代数据模式)配对，zi和zj分别为xi，xj的隐表征。利用信息瓶颈理论，可以从zi中导出zj的充分和最小表示zs，反之亦然。zs可能就解释为代表两个图像的common factors或common causes

问题表述

我们希望从x ~ p(x|z,c)中编码出informative的隐表征z，而且z对于无关、混杂的协变量c应该是invariant的，在一些下游的预测任务中，希望p(y^ = y|c,z) = p(y^ = y|z)，也就是z与c正交，标签y与c正交。从域不变性的角度来看，我们希望学习在不同域之间能尽可能多地迁移，其中每个域都与它自己的混杂因素或协变量相关联。换句话说，我们学习的潜在表征应该独立于滋扰或混杂因素，从而也导致下游任务不受这些因素的影响。此外，所产生的表征将表示每个域共有的潜在因素
对NestedVAE，本文引入弱监督，采用数据对的形式。假定有两个域，概率图模型如下

X1域的图像xi和X2域的图像xj，都有域特定的 specific latent factors/causes zi和zj，也有域共有的 shared factors/causes zs。从域不变的角度看，zi，zj分别代表混杂的因素ci，cj；zs对不同的域应该invariant。从因果建模角度看，zi，zj是specific causes， zs是common causes

对每对图像，我们想学到只表示配对图片common factors的zs，所以我们利用从特定配对获得的信息增益来从zi和zj推断zs，并从信息瓶颈的角度获得灵感。对shared and common factors建模马尔科夫链

数据处理不等式意味着zs不能比zi包含更多关于zj的信息。zs里面关于 zj 的信息就只能是 zi，zj 的共有信息。这样我们的任务变成了从 zi 通过 zs 来预测 zj 。如果我们假设 zi ≈ zj + ε，其中 ε 是各个域特定的随机干扰项。那么就可利用VAE通过寻求从 zj 生成 zi 来学习最小且充分的表征 zs，反之亦然。充分性描述了方程中的马尔可夫链条件，由此 I(zs;zj)=I(zi;zj)；最小性描述了冗余信息内容最少，即 zs 只包含 zi 也有的 zj 信息。

VAE

暂不详细说明

VAE与信息瓶颈结合

VAE通过信息瓶颈拉格朗日和IB理论紧密联系

H，条件分布的香农熵，等同于Eq.4重建的交叉熵，另外还有

β项应通过拉格朗日最优化来学习。
假设 zi ≈ zj + ε，用 ‘outer’ VAE学习 zi，zj；用 ‘nested’ VAE 学习共有因素zs。总的Loss函数就是两方结合：

θ和φ都是encoder和decoder的参数，共同被优化；γ和λ是超参。VAE要从 xi、xj 同时学习 zi 和 zj，并保证充分、最小的表征zs存在于两者之间。注：有时向Nested VAE提供latent codes µi、µj 而不是 zi、zj 会产生更好的性能。这与IB在推导公共因素时的应用相一致，因此与公式并不矛盾：zs是从潜在随机变量 zi 和 zj 的参数 µi、µj 之间的共同性导出的，zi、zj 已经被outer VAE先验正则化了。

对之前式子的做出调整：

先前工作

前人在 disentanglement, domain/attribute invariance, fair encodings and bias reduction, generalization, common causes这些看似迥异的目标上做了很多工作，本文进行了回顾并关注这些目标的共同点，认为它们是相辅相成的。以人脸识别为例，解缠和域不变其实息息相关。都希望任务相关的信息从无关信息(人脸角度、表情…)中分离出来。
域不变性，即在域间迁移学习，同时对每个域独特的混杂因子和协变量保持不变。当混杂因素被认为是“敏感的”属性时，实现域不变也可被认为是实现了偏差降低、公平或人口平等(demographic parity)；当混杂因素导致distribution shift时，实现不变性可被认为实现模型泛化。这样的任务要么要求混淆的信息被“遗忘”或忽略，要么要求它从域不变(即与任务相关的)因素中解缠。遗忘通常被视为有别于解缠。但本文认为它们complement each other
当前相关研究和方法在监督的程度上也不尽相同，高质量标签费时费力不一定可行，完全无监督的解缠方法的效果受随机种子的影响可能与架构和设计的差异一样大。本文提出折中方案——弱监督。（注：弱监督中 label只与有限的factors关联；半监督中的label是完整信息的，但仅限一部分数据）
另外，对抗式训练难以训练，不太可靠。先前工作也指出它并不必需，其他非对抗式方法能达到更好效果。作者基于VAE系列的成功，提出了新方法。之前最接近的工作是Joint Autoencoders for Disentanglement (JADE)

评估

在多个任务上评估NestedVAE的效果，与β-VAE，infoVAE，DIP-VAE-I, DIP-VAE-II 进行了比对

结论

NestedVAE学习特定于域的协变量不变的表征，同时能够分离跨域的common causes。该方法将VAE模型理论与信息瓶颈原理相结合，对具有common factors的图像对进行训练，其中一对图像中的两幅图像来自不同域。结果表明，NestedVAE在实现域不变性、变化检测和性别预测方面具有优越的性能。我们还提出了adjusted parity metric，以便于在具有显著不同分类性能的方法之间进行比较。

NestedVAE背后的原理可以应用于更exotic的VAE，甚至可以应用于非VAE。进一步的工作应该探索这些原则在不同模型中的应用。