以不变应万变：因果启发的稳定学习年度研究进展（下篇）

【前沿进展】机器学习技术在计算机视觉、自然语言处理等领域得到了广泛的应用。然而，当下的机器学习技术大多以挖掘数据的关联性为基础，可能会带来稳定性、可解释性、公平性等方面的一系列不足。因此，如何将因果统计融入机器学习的框架，成为了一个具有挑战性的基础问题。稳定学习的目标正是寻找机器学习和因果统计的共同基础。

上期推文中，我们分享了来自清华大学计算机系长聘副教授、智源青年科学家崔鹏，以及清华大学计算机系张兴璇博士、徐韧喆博士，浙江大学计算机学院副教授况琨四位学者的观点。本期我们将继续为大家带来，清华大学计算机系刘家硕博士和何玥博士在报告会上的分享。

本期整理自智源LIVE，报告详情、视频回放和PPT下载：

https://event.baai.ac.cn/activities/181

演讲者：崔鹏、况琨、张兴璇、徐韧喆、刘家硕、何玥

整理：熊宇轩

编辑：李梦佳

清华大学刘家硕：从异质性数据到分布外泛化

分布外泛化的背景

经验损失风险最小化（ERM）是目前最常用的优化算法，该算法优化的是所有数据点的平均损失，所有样本的权重都是1/N。如上图所示，当数据中存在异质性时，数据集中的样本分布并不均衡。因此，通过 ERM 算法进行优化可能会更加关注出现较多的群体，而忽视出现较少的群体对损失的影响。

具体而言，在真实场景中，我们采集到的不同来源的数据分布可能不均衡，存在一定的异质性。通过 ERM 对模型进行优化时，尽管可以在整体上获得较高的准确率，但这可能是由于模型对数据集中多数群体的预测性能很完美，而在少数群体上的预测效果并不一定很好。

如上图所示，当训练数据分布与测试数据分布一致时，若使用 ERM 算法进行优化，模型的泛化性能是有理论保证的。然而，如果数据的分布出现了偏移，则 ERM 算法的得到的模型的泛化性能可能较差。

因此，我们应该充分考虑数据的异质性，设计更加合理的风险最小化方法，为不同的样本点施加合适的权重，使得模型对多数群体和少数群体都有较好的预测能力，从而提升模型的泛化性能。

如上图所示，OOD 泛化问题旨在保证模型在发生分布偏移时的泛化能力，即通过「min-max」优化找到一组参数，使得模型在最差的环境下的表现性能能够接受。考虑到分布偏移的情况，在不同环境下采集到的数据的 X 和 Y 的联合分布也有所区别。

异质性风险最小化

我们从不变性学习的角度试图解决 OOD 泛化问题。在此，我们假设随机变量满足以下假设：（1）不变性假设：在不同的环境下，特征与标签 Y 的关系是稳定不变的（2）充分性假设：标签 Y 可以完全由产生。基于以上两点假设，使用特征做预测可以以较高的准确率实现跨环境的稳定预测，是一种具有因果效应的不变特征。

要想找到上述不变特征，我们需要对环境有很强的约束。现有的许多不变性学习方法都会针对从多个环境中寻找符合上述性质的特征。然而，在真实情况下，许多数据集是收集自多个不同数据源的混合数据，我们往往很难为环境保留明确且对模型学习真正有效的标签。

针对混杂环境下数据存在异质性的现象，刘家硕博士等人提出了异质性风险最小化框架（HRM）。首先，我们假设数据中存在跨环境变化十分剧烈的部分，不同环境下的与 Y 的关系存在差异。

接着，我们将异质性风险最小化问题定义为：给定存在异质性的混合数据集D，在缺乏环境标签的条件下，旨在学习到不变性特征的集合，使模型具有更好的 OOD 泛化能力。

如上图所示，HRM 算法框架包含以下两个模块：（1）异质性识别模块（2）不变性预测模块。在不断的迭代中，上述两个模块会相互促进。

具体而言，我们首先通过模块学习混合数据集中不稳定的特征，识别出数据中具有异质性的环境，得到具有强异质性的环境。接着，我们通过不变性学习模块学习中不变的特征。

数据中存在相互依赖的变化的部分和不变的部分，我们对学到的不变特征进行转化，可以得到变化的特征，二者相互促进。为了得到较好的理论性质，作者在本文中重点关注较为简单的数据，通过上图中的简单特征选择过程得到和。（详细算法细节见论文：https://arxiv.org/abs/2105.03818）

核异质风险最小化

HRM 算法无法处理复杂的数据（例如，图片、文本）。在 KerHRM 中，刘家硕博士等人将 HRM 算法拓展至更加复杂的数据类型上。

在 HRM 算法流程的基础之上，刘家硕博士等人在 KerHRM 中引入了神经正切核（NTK）。根据 NTK 理论，神经网络（例如，MLP）的操作等价于在复杂的特征空间中进行线性回归。

如上图中的公式(5)所示，假设神经网络的参数为 w，输入数据为 X。对在的位置的做泰勒展开，根据模型参数的一阶泰勒展开式可以发现的作用相当于在梯度项上做线性操作。因此，通过 NTK 技术，我们可以将复杂的神经网络操作转变为在神经正切特征上进行线性回归。

通过上述方式，我们可以将 HRM 应用到较为复杂的数据上，同时保留 HRM 框架的特性。KerHRM通过构造一组正交的核区分数据中稳定和不稳定的部分（详细算法见论文：https://arxiv.org/abs/2110.12425）。

仿真实验：Colored MNIST

本文作者采用与论文「Invariant RiskMinimization」中相同的实验设定，测试了 KerHRM 方法在 Colored MNIST 数据集上的性能。在该实验环境下，作者将 MNIST 中 0-4 的数字标记为「0」类，将「5-9」的数字标记为「1」类，从而将十分类问题改造为了二分类问题。接着，作者将「0」类中大部分的图片染成某种颜色，将「1」类中大部分的图片染成另一种颜色，从而构建了数字标签和颜色之间的虚假关联。在测试时，我们将图片的染色情况翻转过来，此时传统的机器学习模型的性能往往会大幅下降。

实验结果如上图所示，随着迭代轮数的增加，KerHRM 框架学习到的环境的异质性逐渐变大，测试时的预测准确率也递增。同时，训练时和测试时准确率的差距在逐渐缩小。可见，OOD 泛化的性能和我们构造的环境的异质性程度呈十分强的正相关，异质性对于 OOD 泛化性能十分重要。因此，环境标签的质量（异质性）对于泛化性能也会有很大的影响。

小结

KerHRM 框架仍然具有一些不足之处。尽管通过引入了 NTK，但是仍然难以处理现代深度学习模型面对的大型的图片、长文本等更加复杂的数据。如何将现代深度学习模型引入到 KerHRM 框架中仍然有待探索。

此外，对 OOD 泛化问题的研究，仍然面临以下开放性问题：

（1）如何形式化定义OOD 泛化问题？如何度量其可学习性。

（2）需要在多复杂的环境下研究 OOD 泛化问题？

（3）现有的数据集是否支持我们验证 OOD 泛化能力？

（4）如何通过引入与训练模型处理更加复杂的数据？

清华大学何玥：分布外泛化图像数据集——NICO

非独立同分布图像分类

图像分类是计算机视觉领域中最基础、最重要的任务之一。在传统的独立同分布假设下，通过最小化训练集上的经验损失，现有的深度学习模型已经可以在测试时达到很好的预测性能。然而，在真实情况下采集到的数据集很难满足独立同分布假设，训练集几乎不可能覆盖所有的测试样本中的数据分布情况。此时，如果我们依然通过最小化模型在训练集上的经验损失来优化模型，往往会导致模型在测试时的性能严重下降。

如上图所示，训练数据和测试数据中猫和狗所处的背景差异很大，并不满足独立同分布假设，深度学习模型可能会错误地将背景当做对图片进行分类的标准。而人类对此类分类问题则天然地具有很强的泛化能力，好的分类模型也应该对这种背景分布的变化不敏感。

我们将该问题称为非独立同分布的图像分类问题，其中训练集和测试集中的数据分布不同。此类问题包含两种子任务：（1）Targeted Non-I.I.D 图像分类：测试集中的部分信息已知，我们可以借助迁移学习等方法将当前训练好的模型迁移到目标域的数据分布上，实现较好的预测性能（2）General Non-I.I.D 图像分类：利用不变性等机制，将学习到的模型以较高准确率泛化到任意未知数据分布上。

实际上，非独立同分布场景下的学习问题对计算机视觉任务十分重要。在自动驾驶、自动救援等场景下，我们希望模型能够迅速识别不常见但非常危险的情况。

衡量数据分布差异

为了刻画分布之间的差异，我们定义了一种名为「NI」的指标。在计算 NI 的过程中，我们利用预训练好的通用视觉模型提取图像特征，然后在特征层面上计算两个分布之间的一阶矩距离，并采用分布的方差进行归一化。大量实验证明，NI 对图像分布差异的描述是较为鲁棒的。此外，在有限采样的情况下，数据分布偏差无处不在，随着数据分布偏差变强，分类模型的错误率也不断提升。

实际上，分布偏移现象广泛的存在PASCAL VOC、ImageNet、MSCOCO 等标杆数据集中。以 ImageNet 为例，我们首先选取了 10 个常见的动物类别，然后针对每类动物选取不同的子类，形成了不同的三个数据集 A、B、C。

接着，我们采集了一些固定的测试样本。通过测量 NI，我们发现不同的数据集存在数据分布偏差，但是这种偏差较弱，且这种数据偏差不可控，分布偏差的大小随机。为了推动 OOD 泛化在视觉领域的研究，我们构建了存在明显的数据分布偏差，且偏差可调节的视觉数据集——NICO。

NICO数据集

首先，我们考虑从图片中分解出主体和上下文的视觉概念。如上图所示，主体可能为猫或狗，上下文可能为主体的姿态、背景、颜色等概念。通过在训练和测试中组合不同的主体和上下文，我们可以形成数据分布的差异。

上下文概念来自于真实世界，我们可以从很多角度描述上下文，进而描述一种有偏的数据分布。当上下文和主体的组合有意义时，我们可以很容易地收集到足够多的图像。

目前公开的 NICO 数据集具有如上图所示的层次结构。动物和交通工具两个超类包含 9-10 个主体类别，每个主体类别拥有一系列上下文概念。我们希望上下文尽可能多样，且主体与上下文的组合有意义，各个上下文之间有一定的重叠。此外，我们要求每类主体和上下文组合的样本数量尽可能均衡，不同上下文之间的差异尽可能大。

和独立同分布的经典数据集相比，由于 NICO 引入了上下文概念，且图像是非中心化、非规则的，所以 NICO 数据集上的图像分类任务更加具有挑战性。

面对有限样本，无论如何采样都会产生一定程度的数据分布偏差，这是由图像本身的性质，以及采样规模的差异造成的。在 NICO 数据集中，我们通过随机采样的方式模拟近似独立同分布的场景。与ImageNet 数据集相比，确实 NICO 引入了非中心化性质/上下文概念，其识别任务更加困难。

OOD 泛化——比例偏差

当测试数据和训练数据分布存在「比例偏差」时，我们要求训练集和测试集数据都包含所有类别上下文，但是我们在训练和测试中选择不同的上下文作为主导上下文（在整采集的图像中占比较高）。通过在训练和测试中设置不同的主导上下文，我们可以自然地形成数据分布的差异。

在这里，我们还定义了「主导率」（Dominant Ratio）指标来刻画具有主导上下文的样本量具有其它上下文的样本量的比例。如上图所示，随着主导率的提升，训练和测试数据之间的分布差异越来越大，对模型准确率的影响也越来越大，

OOD 泛化——成分偏差

「成分偏差」模拟了我们在训练数据、测试数据采样时的时空限制。在该设定下，训练集并不包含所有类别的上下文，有一些测试集中的上下文是训练中未曾见过的。随着训练集包含上下文的种类减少，测试集和训练集的数据分布差异递增，模型学习的效果也越来越差。

为了实现更大的数据分布偏差，我们还可以组合成分偏差和比例偏差。我们可以要求某些类别上下文在训练集包含的上下文中占据主导地位，即通过同时调节训练集可见上下文的数量和主导率控制数据分布偏差的程度，进而观察模型在不同数据偏差场景下表现出的性能。

OOD 泛化——对抗攻击

在「对抗偏差」场景下，我们选择某些类样本作为正类，其它类别的样本作为负类。接着，我们定义某种上下文只出现在训练集的正类中，以及测试集的负类中。此时，模型就会错误地将该上下文与正类联系到一起，从而在测试时取得较差的性能。我们将这种上下文称为混淆上下文，随着混淆上下文比例的增加，模型对正类的学习越来越容易受到虚假关联的影响。

小结

综上所述，在不同的场景下，我们通过这种有效的调节手段（例如，主导率、上下文个数、混淆上下文的比例），利用 NICO 数据集形成显著的数据分布差异，并控制这种差异的大小，从而支持各种 OOD 场景下的研究。研究者们可以利用 NICO 数据集设计有效的算法实现一般性的非独立同分布图像分类，学习具有不变性的模型。

最近，崔鹏老师演技组开始对 NICO 进行扩充，旨在满足研究者对更深、更大规模模型的训练。具体而言，新 NICO 数据集中的样本类别具有更多的层次，各层次的类别尽可能均匀、多样。此外，新的NICO 数据集还将上下文细分为「公有上下文」（所有类别都包含的上下文概念）、「私有上下文」（某些类别特有的上下文）。

为了更好地构建公有上下文，我们认为公有上下文相当于一系列等价类，即每一类共有上下文并不一定具体对应某个词，而是对应于具有共性的词的集合。通过这些词的共性，我们可以引入数据分布的偏差，找到有偏的数据环境。目前，我们是计划将 NICo 扩展到大概 80 个主体类别，10 类公有上下文，每个类别至少有 10 类私有上下文。

崔鹏老师研究组计划依托NICO 扩展版数据集发起跨分布泛化的视觉识别挑战赛。该挑战赛下设两个赛道，旨在测试模型在未知环境上的泛化性能：（1）域泛化：模型训练时利用对齐的、有域标签的上下文（2）一般性分布外泛化：模型训练时每类样本上下文标签未知。

NICO 数据集下载地址：http://nico.thumedialab.com/