前沿进展】机器学习技术在计算机视觉、自然语言处理等领域得到了广泛的应用。然而,当下的机器学习技术大多以挖掘数据的关联性为基础,可能会带来稳定性、可解释性、公平性等方面的一系列不足。因此,如何将因果统计融入机器学习的框架,成为了一个具有挑战性的基础问题。稳定学习的目标正是寻找机器学习和因果统计的共同基础。

上期推文中,我们分享了来自清华大学计算机系长聘副教授、智源青年科学家崔鹏,以及清华大学计算机系张兴璇博士、徐韧喆博士,浙江大学计算机学院副教授况琨四位学者的观点。本期我们将继续为大家带来,清华大学计算机系刘家硕博士和何玥博士在报告会上的分享。

本期整理自智源LIVE,报告详情、视频回放和PPT下载:

https://event.baai.ac.cn/activities/181

演讲者:崔鹏、况琨、张兴璇、徐韧喆、刘家硕、何玥

整理:熊宇轩

编辑:李梦佳


01

清华大学刘家硕:从异质性数据到分布外泛化

分布外泛化的背景

经验损失风险最小化(ERM)是目前最常用的优化算法,该算法优化的是所有数据点的平均损失,所有样本的权重都是1/N。如上图所示,当数据中存在异质性时,数据集中的样本分布并不均衡。因此,通过 ERM 算法进行优化可能会更加关注出现较多的群体,而忽视出现较少的群体对损失的影响。

具体而言,在真实场景中,我们采集到的不同来源的数据分布可能不均衡,存在一定的异质性。通过 ERM 对模型进行优化时,尽管可以在整体上获得较高的准确率,但这可能是由于模型对数据集中多数群体的预测性能很完美,而在少数群体上的预测效果并不一定很好。

如上图所示,当训练数据分布与测试数据分布一致时,若使用 ERM 算法进行优化,模型的泛化性能是有理论保证的。然而,如果数据的分布出现了偏移,则 ERM 算法的得到的模型的泛化性能可能较差。

因此,我们应该充分考虑数据的异质性,设计更加合理的风险最小化方法,为不同的样本点施加合适的权重,使得模型对多数群体和少数群体都有较好的预测能力,从而提升模型的泛化性能。

如上图所示,OOD 泛化问题旨在保证模型在发生分布偏移时的泛化能力,即通过「min-max」优化找到一组参数,使得模型在最差的环境下的表现性能能够接受。考虑到分布偏移的情况,在不同环境下采集到的数据的 X 和 Y 的联合分布也有所区别。

异质性风险最小化

我们从不变性学习的角度试图解决 OOD 泛化问题。在此,我们假设随机变量满足以下假设:(1)不变性假设:在不同的环境下,特征与标签 Y 的关系是稳定不变的(2)充分性假设:标签 Y 可以完全由产生。基于以上两点假设,使用特征做预测可以以较高的准确率实现跨环境的稳定预测,是一种具有因果效应的不变特征。

要想找到上述不变特征,我们需要对环境有很强的约束。现有的许多不变性学习方法都会针对从多个环境中寻找符合上述性质的特征。然而,在真实情况下,许多数据集是收集自多个不同数据源的混合数据,我们往往很难为环境保留明确且对模型学习真正有效的标签。

针对混杂环境下数据存在异质性的现象,刘家硕博士等人提出了异质性风险最小化框架(HRM)。首先,我们假设数据中存在跨环境变化十分剧烈的部分,不同环境下的 与 Y 的关系存在差异。

接着,我们将异质性风险最小化问题定义为:给定存在异质性的混合数据集D,在缺乏环境标签的条件下,旨在学习到不变性特征的集合,使模型具有更好的 OOD 泛化能力。

如上图所示,HRM 算法框架包含以下两个模块:(1)异质性识别模块(2)不变性预测模块。在不断的迭代中,上述两个模块会相互促进。

具体而言,我们首先通过模块学习混合数据集中不稳定的特征,识别出数据中具有异质性的环境,得到具有强异质性的环境。接着,我们通过不变性学习模块学习中不变的特征

数据中存在相互依赖的变化的部分和不变的部分,我们对学到的不变特征进行转化,可以得到变化的特征,二者相互促进。为了得到较好的理论性质,作者在本文中重点关注较为简单的数据,通过上图中的简单特征选择过程得到。(详细算法细节见论文:https://arxiv.org/abs/2105.03818

核异质风险最小化

HRM 算法无法处理复杂的数据(例如,图片、文本)。在 KerHRM 中,刘家硕博士等人将 HRM 算法拓展至更加复杂的数据类型上。

在 HRM 算法流程的基础之上,刘家硕博士等人在 KerHRM 中引入了神经正切核(NTK)。根据 NTK 理论,神经网络(例如,MLP)的操作等价于在复杂的特征空间中进行线性回归。

如上图中的公式(5)所示,假设神经网络的参数为 w,输入数据为 X。对的位置的做泰勒展开,根据模型参数的一阶泰勒展开式可以发现的作用相当于在梯度项上做线性操作。因此,通过 NTK 技术,我们可以将复杂的神经网络操作转变为在神经正切特征上进行线性回归。

通过上述方式,我们可以将 HRM 应用到较为复杂的数据上,同时保留 HRM 框架的特性。KerHRM通过构造一组正交的核区分数据中稳定和不稳定的部分(详细算法见论文:https://arxiv.org/abs/2110.12425)。

仿真实验:Colored MNIST

本文作者采用与论文「Invariant RiskMinimization」中相同的实验设定,测试了 KerHRM 方法在 Colored MNIST 数据集上的性能。在该实验环境下,作者将 MNIST 中 0-4 的数字标记为「0」类,将「5-9」的数字标记为「1」类,从而将十分类问题改造为了二分类问题。接着,作者将「0」类中大部分的图片染成某种颜色,将「1」类中大部分的图片染成另一种颜色,从而构建了数字标签和颜色之间的虚假关联。在测试时,我们将图片的染色情况翻转过来,此时传统的机器学习模型的性能往往会大幅下降。

实验结果如上图所示,随着迭代轮数的增加,KerHRM 框架学习到的环境的异质性逐渐变大,测试时的预测准确率也递增。同时,训练时和测试时准确率的差距在逐渐缩小。可见,OOD 泛化的性能和我们构造的环境的异质性程度呈十分强的正相关,异质性对于 OOD 泛化性能十分重要。因此,环境标签的质量(异质性)对于泛化性能也会有很大的影响。

小结

KerHRM 框架仍然具有一些不足之处。尽管通过引入了 NTK,但是仍然难以处理现代深度学习模型面对的大型的图片、长文本等更加复杂的数据。如何将现代深度学习模型引入到 KerHRM 框架中仍然有待探索。

此外,对 OOD 泛化问题的研究,仍然面临以下开放性问题:

(1)如何形式化定义OOD 泛化问题?如何度量其可学习性。

(2)需要在多复杂的环境下研究 OOD 泛化问题?

(3)现有的数据集是否支持我们验证 OOD 泛化能力?

(4)如何通过引入与训练模型处理更加复杂的数据?

02

清华大学何玥:分布外泛化图像数据集——NICO

非独立同分布图像分类

图像分类是计算机视觉领域中最基础、最重要的任务之一。在传统的独立同分布假设下,通过最小化训练集上的经验损失,现有的深度学习模型已经可以在测试时达到很好的预测性能。然而,在真实情况下采集到的数据集很难满足独立同分布假设,训练集几乎不可能覆盖所有的测试样本中的数据分布情况。此时,如果我们依然通过最小化模型在训练集上的经验损失来优化模型,往往会导致模型在测试时的性能严重下降。

如上图所示,训练数据和测试数据中猫和狗所处的背景差异很大,并不满足独立同分布假设,深度学习模型可能会错误地将背景当做对图片进行分类的标准。而人类对此类分类问题则天然地具有很强的泛化能力,好的分类模型也应该对这种背景分布的变化不敏感。

我们将该问题称为非独立同分布的图像分类问题,其中训练集和测试集中的数据分布不同。此类问题包含两种子任务:(1)Targeted Non-I.I.D 图像分类:测试集中的部分信息已知,我们可以借助迁移学习等方法将当前训练好的模型迁移到目标域的数据分布上,实现较好的预测性能(2)General Non-I.I.D 图像分类:利用不变性等机制,将学习到的模型以较高准确率泛化到任意未知数据分布上。

实际上,非独立同分布场景下的学习问题对计算机视觉任务十分重要。在自动驾驶、自动救援等场景下,我们希望模型能够迅速识别不常见但非常危险的情况。

衡量数据分布差异

为了刻画分布之间的差异,我们定义了一种名为「NI」的指标。在计算 NI 的过程中,我们利用预训练好的通用视觉模型提取图像特征,然后在特征层面上计算两个分布之间的一阶矩距离,并采用分布的方差进行归一化。大量实验证明,NI 对图像分布差异的描述是较为鲁棒的。此外,在有限采样的情况下,数据分布偏差无处不在,随着数据分布偏差变强,分类模型的错误率也不断提升。

实际上,分布偏移现象广泛的存在PASCAL VOC、ImageNet、MSCOCO 等标杆数据集中。以 ImageNet 为例,我们首先选取了 10 个常见的动物类别,然后针对每类动物选取不同的子类,形成了不同的三个数据集 A、B、C。

接着,我们采集了一些固定的测试样本。通过测量 NI,我们发现不同的数据集存在数据分布偏差,但是这种偏差较弱,且这种数据偏差不可控,分布偏差的大小随机。为了推动 OOD 泛化在视觉领域的研究,我们构建了存在明显的数据分布偏差,且偏差可调节的视觉数据集——NICO。

NICO数据集

首先,我们考虑从图片中分解出主体和上下文的视觉概念。如上图所示,主体可能为猫或狗,上下文可能为主体的姿态、背景、颜色等概念。通过在训练和测试中组合不同的主体和上下文,我们可以形成数据分布的差异。

上下文概念来自于真实世界,我们可以从很多角度描述上下文,进而描述一种有偏的数据分布。当上下文和主体的组合有意义时,我们可以很容易地收集到足够多的图像。

目前公开的 NICO 数据集具有如上图所示的层次结构。动物和交通工具两个超类包含 9-10 个主体类别,每个主体类别拥有一系列上下文概念。我们希望上下文尽可能多样,且主体与上下文的组合有意义,各个上下文之间有一定的重叠。此外,我们要求每类主体和上下文组合的样本数量尽可能均衡,不同上下文之间的差异尽可能大。

和独立同分布的经典数据集相比,由于 NICO 引入了上下文概念,且图像是非中心化、非规则的,所以 NICO 数据集上的图像分类任务更加具有挑战性。

面对有限样本,无论如何采样都会产生一定程度的数据分布偏差,这是由图像本身的性质,以及采样规模的差异造成的。在 NICO 数据集中,我们通过随机采样的方式模拟近似独立同分布的场景。与ImageNet 数据集相比,确实 NICO 引入了非中心化性质/上下文概念,其识别任务更加困难。

OOD 泛化——比例偏差

当测试数据和训练数据分布存在「比例偏差」时,我们要求训练集和测试集数据都包含所有类别上下文,但是我们在训练和测试中选择不同的上下文作为主导上下文(在整采集的图像中占比较高)。通过在训练和测试中设置不同的主导上下文,我们可以自然地形成数据分布的差异。

在这里,我们还定义了「主导率」(Dominant Ratio)指标来刻画具有主导上下文的样本量具有其它上下文的样本量的比例。如上图所示,随着主导率的提升,训练和测试数据之间的分布差异越来越大,对模型准确率的影响也越来越大,

OOD 泛化——成分偏差

「成分偏差」模拟了我们在训练数据、测试数据采样时的时空限制。在该设定下,训练集并不包含所有类别的上下文,有一些测试集中的上下文是训练中未曾见过的。随着训练集包含上下文的种类减少,测试集和训练集的数据分布差异递增,模型学习的效果也越来越差。

为了实现更大的数据分布偏差,我们还可以组合成分偏差和比例偏差。我们可以要求某些类别上下文在训练集包含的上下文中占据主导地位,即通过同时调节训练集可见上下文的数量和主导率控制数据分布偏差的程度,进而观察模型在不同数据偏差场景下表现出的性能。

OOD 泛化——对抗攻击

在「对抗偏差」场景下,我们选择某些类样本作为正类,其它类别的样本作为负类。接着,我们定义某种上下文只出现在训练集的正类中,以及测试集的负类中。此时,模型就会错误地将该上下文与正类联系到一起,从而在测试时取得较差的性能。我们将这种上下文称为混淆上下文,随着混淆上下文比例的增加,模型对正类的学习越来越容易受到虚假关联的影响。

小结

综上所述,在不同的场景下,我们通过这种有效的调节手段(例如,主导率、上下文个数、混淆上下文的比例),利用 NICO 数据集形成显著的数据分布差异,并控制这种差异的大小,从而支持各种 OOD 场景下的研究。研究者们可以利用 NICO 数据集设计有效的算法实现一般性的非独立同分布图像分类,学习具有不变性的模型。

最近,崔鹏老师演技组开始对 NICO 进行扩充,旨在满足研究者对更深、更大规模模型的训练。具体而言,新 NICO 数据集中的样本类别具有更多的层次,各层次的类别尽可能均匀、多样。此外,新的NICO 数据集还将上下文细分为「公有上下文」(所有类别都包含的上下文概念)、「私有上下文」(某些类别特有的上下文)。

为了更好地构建公有上下文,我们认为公有上下文相当于一系列等价类,即每一类共有上下文并不一定具体对应某个词,而是对应于具有共性的词的集合。通过这些词的共性,我们可以引入数据分布的偏差,找到有偏的数据环境。目前,我们是计划将 NICo 扩展到大概 80 个主体类别,10 类公有上下文,每个类别至少有 10 类私有上下文。

崔鹏老师研究组计划依托NICO 扩展版数据集发起跨分布泛化的视觉识别挑战赛。该挑战赛下设两个赛道,旨在测试模型在未知环境上的泛化性能:(1)域泛化:模型训练时利用对齐的、有域标签的上下文(2)一般性分布外泛化:模型训练时每类样本上下文标签未知。

NICO 数据集下载地址:http://nico.thumedialab.com/

以不变应万变:因果启发的稳定学习年度研究进展(下篇)相关推荐

  1. 以不变应万变:因果启发的稳定学习年度研究进展(上篇)

    [前沿进展]机器学习技术在计算机视觉.自然语言处理等领域得到了广泛的应用.然而,当下的机器学习技术大多以挖掘数据的关联性为基础,可能会带来稳定性.可解释性.公平性等方面的一系列不足.因此,如何将因果统 ...

  2. struts——struts在升级,作为程序员,该怎样以不变应万变?

    struts在升级,作为程序员,该怎样以不变应万变? 怎样学习新版本struts? 今天无意中翻看了一下struts2.0,结果发现它与struts1.1有很大的变化,可以说已经变的面目全非了.作为程 ...

  3. 第24课 《前端之路,以不变应万变》

    今天的内容有些借鉴于业内大佬的内容,由于本人技术实在太渣,几乎没有可以用来演讲的素材.抱歉 大家好,我是来自存勖科技的Rocken.我今天演讲的内容是:前端的未来. 大家都知道,前端所依托的基础直到上 ...

  4. 以“不变”方能应“万变”,以“有心”必能筑“无界”

    2016年或可称为金融科技从概念走向应用的元年,服务边界延伸 金融与互联网不断相互渗透,为人们创造更舒适便捷的生活环境,多元化跨界融合正成为行业发展的一个重要命题. 对于传统金融,"跨界&q ...

  5. 沈阳大学计算机考研,计算机专业考研成功经验谈:掌握方法,以不变应万变

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 计算机专业考研成功经验谈:掌握方法,以不变应万变 万学•海文 听说最近计算机要统考的消息,不知道对于师弟师妹们究竟是好还是坏.不管怎样,政策的变化年年在变 ...

  6. verilog异步复位jk触发器_以不变应万变的异步FIFO面试宝典(二)

    异步FIFO面试宝典(二) 上一期为童鞋们带来了FIFO工作的基本原理,本期将继续与各位童鞋探讨FIFO类面试相关问题.首先让我们回顾一下上一期的课后思考题: 如果读时钟域速度较快.写时钟域速度较慢( ...

  7. 云计算变革时代的坚守,九州云“以不变应万变”

    2018年,作为全球部署最广泛的开源云基础设施软件,OpenStack也迎来了它的8岁生日.从诞生至今的8年里,OpenStack不仅成为了全球数据中心和云计算建设的实施标准,吸引了600多家全球领先 ...

  8. 点石互动--石头之用户搜索行为与关键词分析(四):不变应万变

    点石互动 石头 发表于 06月 21, 2007 系列文章三说了,人人都是神算师.但是有人开始感叹,那些招数似乎对杂货店比如沃尔玛更适用:什么时间火什么,就主推什么.而现实总是让人不如意,大多时候我们 ...

  9. 以“智变”应万变,揭秘新华三六大数字化解决方案!

    数字化时代已来临. 在通信网络.社交媒介.基础建设不断演进的进程下,万物互联加速扩展,不仅从基础建设层面改变了人们生活方式,也激发了不少传统的企业开始重新思考原有运作的业务及商业模式,并纷纷投入数字化 ...

最新文章

  1. 算法题:“找出单身狗”--找出一个数组中只出现一次的数字
  2. 观点丨麦肯锡:怎么理解“人工智能最大挑战与机会”
  3. <Module>的类型初始值设定项引发异常
  4. jenkins内存溢出的一些解决过程
  5. SAP里面 转储请求和转储单全称和缩写是什么
  6. spring 注释_Spring@主要注释
  7. javascript window.open
  8. 简述使用计算机对会计工作的影响,简述使用计算机对会计工作的影响。
  9. 项目不能上线,是开发的锅,还是产品的错?
  10. 徐工施维英:基于帆软搭建数字化驾驶舱,提高生产效率50%
  11. python和java哪个好学-到底学python好还是学java比较好 哪个容易学习点
  12. Atitit  OOCSS vs bem
  13. java 新项目计划_项目计划 - KerryJava - 博客园
  14. php编译gd支持gif,我可以使用php和gd检测GIF动画吗?
  15. yyuc php,yyuc框架介绍
  16. xmlspy php,XML Spy实例代码详解(图)
  17. 一次失败的华为校园大使面试经历
  18. nginx正向代理——实现上网功能
  19. zing生成带logo的二维码
  20. java wildcard_java泛型 wildcard

热门文章

  1. memcache函数整理
  2. oracle的to_char如何优化,性能 – 如何优化在date子句中包含to_char的Oracle查询
  3. 引号快捷键_干货收藏|excel2016常用快捷键
  4. oracle文件夹cwallet,Oracle Wallet
  5. 小米note3无线显示电脑连接服务器,小米note3如何连接电脑 小米note3连接电脑没反应怎么办...
  6. Android怎么不显示手机模型,以编程方式获取Android手机模型
  7. java中用于选择按钮的语句_java程序员考试套题1
  8. pytorch bert文本分类_一起读Bert文本分类代码 (pytorch篇 四)
  9. Rational Rose打开方式
  10. oracle 取日期 加天,oracle日期,获取年月日等函数、日期函数、时区