NestedVAE: Isolating Common Factors via Weak Supervision.

摘要

  公正无偏的机器学习十分重要,但数据中的偏差biases很可能被模型学到,导致后续决策过程有偏差。作者确定了减少偏差的任务 与 分离domain之间共有因子的联系,同时鼓励域特定的不变性。   本文通过深度隐变量模型结合信息瓶颈理论,来分离common factors,适用于跨域的自然配对数据而不需要额外监管的场景。
Nested VAE试图用图像的潜在表征去重建成对的另一个图像的潜在表征。这样做分离了共同的潜在因素,并对于不在配对图像间共享的unwanted factors保持不变。 具体地,通过从共享某些属性的不同域中选出图片配对,然后模型在学习过程中去“遗忘”域特定的信息,只是弱监督地、无对抗训练地学到共同因素。
  另外还提出Adjusted Parity metric,跨域地评估一致性consistency和分类器性能。Nested VAE在 domain and attribute invariance, change detection, learning common factors for the prediction of biological sex方面都展现高性能

介绍

  表征学习目标是学到数据变化的underlying factors,但也可能学到不想要的或混杂的因素,比如分布特定偏差。它会削弱模型在面对经验样本、分布变化、敏感偏差等情况时的概括性。
  由于机器学习算法的使用而引起的系统性偏差越来越普遍,一些概念上不同的因素(种类、姿态)也纠缠一起。我们希望模型更 informative,对干扰因素invariant,across domains表现更好,并解缠独立变量因素。
  本文主要贡献:① 对先前关于偏差、解缠、公平性、域/属性不变性和公共因素的工作进行了统一解释。② Nested VAE将深度、分期(amortized)变分推断和信息瓶颈(IB)理论相结合。 ③ 演示了NestedVAE通过学习域之间的公共因素在分类和回归性能方面取得显著的改进。 ④ 一种评估跨域的回归和分类parity的新度量 Adjusted Parity Metric

工作表述

模型结构示意图


根据共享属性or域将图像(或替代数据模式)配对,zi和zj分别为xi,xj的隐表征。利用信息瓶颈理论,可以从zi中导出zj的充分和最小表示zs,反之亦然。zs可能就解释为代表两个图像的common factors或common causes

问题表述

我们希望从x ~ p(x|z,c)中编码出informative的隐表征z,而且z对于无关、混杂的协变量c应该是invariant的,在一些下游的预测任务中,希望p(y^ = y|c,z) = p(y^ = y|z),也就是z与c正交,标签y与c正交。 从域不变性的角度来看,我们希望学习在不同域之间能尽可能多地迁移,其中每个域都与它自己的混杂因素或协变量相关联。换句话说,我们学习的潜在表征应该独立于滋扰或混杂因素,从而也导致下游任务不受这些因素的影响。此外,所产生的表征将表示每个域共有的潜在因素
对NestedVAE,本文引入弱监督,采用数据对的形式。 假定有两个域,概率图模型如下


X1域的图像xi和X2域的图像xj,都有域特定的 specific latent factors/causes zi和zj,也有域共有的 shared factors/causes zs。从域不变的角度看,zi,zj分别代表混杂的因素ci,cj;zs对不同的域应该invariant。从因果建模角度看,zi,zj是specific causes, zs是common causes

  对每对图像,我们想学到只表示配对图片common factors的zs,所以我们利用从特定配对获得的信息增益来从zi和zj推断zs,并从信息瓶颈的角度获得灵感。对shared and common factors建模马尔科夫链


数据处理不等式意味着zs不能比zi包含更多关于zj的信息。zs里面关于 zj 的信息就只能是 zi,zj 的共有信息。这样我们的任务变成了从 zi 通过 zs 来预测 zj 。如果我们假设 zi ≈ zj + ε,其中 ε 是各个域特定的随机干扰项。那么就可利用VAE通过寻求从 zj 生成 zi 来学习最小且充分的表征 zs,反之亦然。充分性描述了方程中的马尔可夫链条件,由此 I(zs;zj)=I(zi;zj);最小性描述了冗余信息内容最少,即 zs 只包含 zi 也有的 zj 信息。

VAE

暂不详细说明

VAE与信息瓶颈结合

VAE通过信息瓶颈拉格朗日和IB理论紧密联系

H,条件分布的香农熵,等同于Eq.4重建的交叉熵,另外还有


β项应通过拉格朗日最优化来学习。
假设 zi ≈ zj + ε,用 ‘outer’ VAE学习 zi,zj;用 ‘nested’ VAE 学习共有因素zs。总的Loss函数就是两方结合:

θ和φ都是encoder和decoder的参数,共同被优化;γ和λ是超参。VAE要从 xi、xj 同时学习 zi 和 zj,并保证充分、最小的表征zs存在于两者之间。 注:有时向Nested VAE提供latent codes µi、µj 而不是 zi、zj 会产生更好的性能。这与IB在推导公共因素时的应用相一致,因此与公式并不矛盾:zs是从潜在随机变量 zi 和 zj 的参数 µi、µj 之间的共同性导出的,zi、zj 已经被outer VAE先验正则化了。

对之前式子的做出调整:

先前工作

  前人在 disentanglement, domain/attribute invariance, fair encodings and bias reduction, generalization, common causes这些看似迥异的目标上做了很多工作,本文进行了回顾并关注这些目标的共同点,认为它们是相辅相成的。 以人脸识别为例,解缠和域不变其实息息相关。都希望任务相关的信息从无关信息(人脸角度、表情…)中分离出来。
  域不变性,即在域间迁移学习,同时对每个域独特的混杂因子和协变量保持不变。当混杂因素被认为是“敏感的”属性时,实现域不变也可被认为是实现了偏差降低、公平或人口平等(demographic parity);当混杂因素导致distribution shift时,实现不变性可被认为实现模型泛化。这样的任务要么要求混淆的信息被“遗忘”或忽略,要么要求它从域不变(即与任务相关的)因素中解缠。遗忘通常被视为有别于解缠。但本文认为它们complement each other
  当前相关研究和方法在监督的程度上也不尽相同,高质量标签费时费力不一定可行,完全无监督的解缠方法的效果受随机种子的影响可能与架构和设计的差异一样大。 本文提出折中方案——弱监督。 (注:弱监督中 label只与有限的factors关联;半监督中的label是完整信息的,但仅限一部分数据)
  另外,对抗式训练难以训练,不太可靠。先前工作也指出它并不必需,其他非对抗式方法能达到更好效果。 作者基于VAE系列的成功,提出了新方法。之前最接近的工作是Joint Autoencoders for Disentanglement (JADE)

评估

在多个任务上评估NestedVAE的效果,与β-VAE,infoVAE,DIP-VAE-I, DIP-VAE-II 进行了比对

结论

NestedVAE学习特定于域的协变量不变的表征,同时能够分离跨域的common causes。该方法将VAE模型理论与信息瓶颈原理相结合,对具有common factors的图像对进行训练,其中一对图像中的两幅图像来自不同域。结果表明,NestedVAE在实现域不变性、变化检测和性别预测方面具有优越的性能。我们还提出了adjusted parity metric,以便于在具有显著不同分类性能的方法之间进行比较。

NestedVAE背后的原理可以应用于更exotic的VAE,甚至可以应用于非VAE。进一步的工作应该探索这些原则在不同模型中的应用。

NestedVAE: Isolating Common Factors via Weak Supervision.相关推荐

  1. WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记

    WeaQA:Weak Supervision via Captions for Visual Question Answering论文笔记 一.Abstract 二.引言 三.相关工作 3.1 VQA ...

  2. [论文阅读笔记44]Named Entity Recognition without Labelled Data:A Weak Supervision Approach

    一,题目 Named Entity Recognition without Labelled Data:A Weak Supervision Approach 无标记数据的命名实体识别: 一种弱监督方 ...

  3. Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)

    Abstract & Introduction & Related Work 研究任务 无标注数据NER学习 已有方法和相关工作 Unsupervised domain adaptat ...

  4. Named Entity Recognition without Labelled Data:A Weak Supervision Approach论文详读

    Named Entity Recognition without Labelled Data: A Weak Supervision Approach 无标记数据的命名实体识别:一种弱监督方法 创新点 ...

  5. Learning by Fixing: Solving Math Word Problems with Weak Supervision论文阅读

    Abstract 这篇文章是发表在AAAI 2021. MWP问题一直都是当成full-supervised task来完成,把表达式当成是label,problem description当成是训练 ...

  6. Learning 3D Shape Completion from Laser Scan Data with Weak Supervision

    摘要 来自局部点云的3D形状完成是计算机视觉和计算机图形学中的一个基本问题. 最近的方法可能被描述为基于数据驱动或基于学习的方法. 数据驱动的方法依赖于形状模型,其参数已针对观察进行了优化. 相比之下 ...

  7. 15:Named Entity Recognition without Labelled Data: A Weak Supervision Approach

    1.ner问题 1.在目标域没有手工标记的数据时,NER怎么进行问题? 2.研究的目标域因为没有标注数,不可作迁移学习? 1.提出弱监督方案:依赖于广泛的标签函数来自动注释目标域的文本,然后使用Mar ...

  8. 大合集!80 篇 CVPR2020 论文分方向整理: 目标检测/图像分割/姿态估计等(附链接&下载)...

    来源:极市平台 本文约2500字,建议阅读5分钟 本文整理和分类80篇CVPR2020论文. 标签:深度学习 CVPR2020在2月24日公布了所有接受论文ID,从论文ID公布以来,我们一直在对CVP ...

  9. CVPR2020最全整理:分方向论文下载,Github源码、论文解读等[计算机视觉][目标检测]

    CVPR2020在2月24日公布了所有接受论文ID,相关报道:1470篇!CVPR2020结果出炉,你中了吗?(附部分论文链接/开源代码/解读).自论文ID公布以来,许多开发者都分享了自己的优秀工作. ...

最新文章

  1. 数组字段查询不包含_不可不知的可变Java长数组
  2. 洛谷P3779 [SDOI2017]龙与地下城(概率论+Simpson+FFT)
  3. EndNote的PDF Handing功能, 让你的PDF管理井井有条
  4. 如何通过shell脚本操作MongoDB
  5. 用户超5亿,三年投10亿,开发者如何抢滩支付宝小程序蓝海?
  6. 【bzoj3555】[Ctsc2014]企鹅QQ 简单哈希
  7. vue 入门环境搭建
  8. treegrid 如何获取getchanges inserted_如何避开Vue性能优化之路的荆棘?
  9. VC中对CString 的读写(ini文件)
  10. SharePoint 2013让页面显示错误
  11. 公司只有1个测试,领导却让我同时操作1000个手机号
  12. python集合和序列解包
  13. [APIO2009]抢掠计划 ($Tarjan$,最长路)
  14. 怎么把知网的外文文献翻译成中文_中国知网上的汉语文献的英文版在哪里找
  15. 消费心理学(05):确定效应
  16. 全国快递物流查询-快递查询接口-阿里云代码封装
  17. MQTT协议(四) 【PUBLISH】发布消息
  18. error:failed to run html help compiler on index.hhp
  19. date_histogram
  20. 系统开发方法和开发模型

热门文章

  1. 办理社保时参保类型那里是选新参统还是转入?
  2. linux保存屏幕亮度,笔记本在Ubuntu下保存屏幕亮度的方法
  3. 第46章 Django完结篇,系统上线
  4. 【神经网络与深度学习-TensorFlow实践】-中国大学MOOC课程(十四)(卷积神经网络))
  5. 电力工程中能够快速判断电缆故障点的电缆路径探测仪 ----TFN FB28
  6. linux应用程序开发_开发应用程序
  7. EI——Towards Environment Independent Device Free Human Activity Recognition
  8. 如何制作一个图像识别app
  9. 什么是 Shell ?(超详细)
  10. 【Python】dlib 无需编译安装 dlib-19.23.0-cp39-cp39-win_amd64.whl