β-VAE: LEARNING BASIC VISUAL CONCEPTS WITH A CONSTRAINED VARIATIONAL FRAMEWORK

  • 摘要(Abstract)
  • A.附录(APPENDIX)
    • A.1 模型框架详解(MODEL ARCHITECTURE DETAILS)
    • A.2. INFOGAN训练(INFOGAN TRAINING)
    • A.3. ICA 和PCA基础模型(ICA AND PCA BASELINES)
    • A.4. 分离度指标(DISENTANGLEMENT METRIC DETAILS )
    • A.5.对真实数据生成因子值进行分类( CLASSIFYING THE GROUND TRUTH DATA GENERATIVE FACTORS VALUES)
  • A.6.解释归一化的β(INTERPRETING NORMALISED β)
    • A.7. β和ε之间的关系(RELATIONSHIP BETWEEN β AND ε)
    • A.8. 数据连续性( DATA CONTINUITY)
    • A.9. β-VAE例子( β-VAE SAMPLES)
    • A.10.额外的β-VAE遍历图( EXTRA β-VAE TRAVERSAL PLOTS)

原文作者:Irina Higgins, Loic Matthey, Arka Pal, Christopher Burgess, Xavier Glorot, Matthew Botvinick, Shakir Mohamed, Alexander Lerchner
翻译者:Wendy

摘要(Abstract)

  在无监督学习的世界上独立的数据生成因素的可解释的 因式分解表示形式是人工智能发展的重要先驱。该人工智能能够像人类一样学习和推理。我们引入最新的一种学习框架β-VAE,可以以完全无监督的方式自动从原始图像中发现可解释的因式分解潜在表示图像。我们的方法是修改可变自动编码器(VAE)框架。我们介绍了一个可调整的超参数β,该参数可平衡潜在通道容量和独立性约束以及重构精度。我们证明具有适当调整的β>1的β-VAE在性能上优于VAE(β=1),以及在各种数据集上进行解缠因子学习和最新无监督学习 (InfoGAN) 和半监督(DC-IGN)方法的应用(名人,脸,椅子)。此外我们设计了一种协议来定量比较不同模型学习的解缠程度,并表明我们的方法在数量上也明显优于所有基准。与InfoGAN不同,β-VAE训练稳定,对数据的假设很少,仅依赖于调整单个超参数β,可以通过使用弱标记数据的超参数搜索,或通过启发式直观检查的纯无标签数据直接对其进行优化。

A.附录(APPENDIX)

A.1 模型框架详解(MODEL ARCHITECTURE DETAILS)

  在表1中可以看到本文使用的所有模型架构的摘要。

A.2. INFOGAN训练(INFOGAN TRAINING)

  训练Tbl中描述的InfoGAN网络。 1在2D形状数据集上(图7),我们遵循Chen等人所述的训练范例。 (2016)进行以下修改。 对于互信息正则化潜在代码,我们使用了从区间(-1,1)均匀采样的5个连续变量ci。 我们使用了5个噪声变量zi,因为我们发现减少噪声变量的数量可以提高此数据集生成的样本的质量。 为了帮助稳定训练,我们使用了Shietal(2016)中所述的实例噪声技巧,在判别器输入中添加了高斯噪声(图像的标准差为0.2,缩放为[-1,1])。 我们遵循了Radford等人 (2015年)为卷积层的体系结构,并在除生成器中的最后一个和鉴别器中的第一个之外的所有层中使用批处理归一化。

A.3. ICA 和PCA基础模型(ICA AND PCA BASELINES)

  为了计算ICA基准,我们将fastICA(Pedregosa等人,2011)算法应用于白化后的像素数据。 由于内存限制,我们不得不将算法应用于与三个2D对象标识中的每个标识的转换相对应的数据集子集的成对组合。 我们计算了在两个二维对象的成对组合中的每一个上训练的所有三个ICA模型的解缠结度量,然后在图6中呈现这些分数的平均值。

  我们对原始像素和白化像素数据执行了PCA。 两种方法都得出相似的解缠度指标得分。 图6报告了使用白化像素数据计算出的PCA结果,以便与ICA得分进行更直接的比较。

A.4. 分离度指标(DISENTANGLEMENT METRIC DETAILS )

  我们使用 线性分类器 来了解产生zbdiff的生成因子的身份(有关获取zbdiff样本的过程,请参见方程式(5))。 我们使用 完全连接的线性分类器来预测 p(y | zbdiff),其中y是四个生成因子(位置X,位置Y,比例和旋转)之一。 我们使用softmax输出非线性和负对数似然损失函数。 使用Adagrad(优化算法对分类器进行训练,学习率为1e-2,直至收敛。

  按照以下方式计算报告的所有非纠缠度分数结果。 使用不同的随机种子训练具有相同超参数的每个模型的十个副本,以获得解缠结的表示。 十个训练过的模型副本中的每一个都使用解缠度度量得分算法进行了三次评估,每次都使用不同的随机种子来初始化线性分类器。 然后,我们丢弃了三十个得分中最差的50%,并报告了其余结果。 这样做是为了控制训练期间发散的少数实验的异常结果。

  使用以下数据计算图6中的表格(左)中报告的结果。 基本事实使用独立的数据生成因子v(我们的数据集不包含任何相关的数据生成因子w)。 PCA和ICA分解保留了前十个成分(PCA成分解释了60.8%的方差)。 β-VAE(β= 4),VAE(β= 1)和未经训练的VAE具有相同的完全连接结构,具有10个潜伏单位z。 InfoGAN使用五个连续潜在值的“推断”值,这些值在训练过程中根据互信息目标进行了规范化。

A.5.对真实数据生成因子值进行分类( CLASSIFYING THE GROUND TRUTH DATA GENERATIVE FACTORS VALUES)

  为了进一步验证我们提出的解缠度度量的有效性,我们进行了额外的定量测试:我们训练了线性分类器,以预测用于生成2D形状数据集的五个数据生成因子中每个的实验真实值。尽管此测试不能直接测量解缠结(因为它不能测量潜在表示的独立性),但解缠结的表示应使这种分类变得无关紧要。 在表2中可以看出,β-VAE所学习的表示形式在所有五个因子上平均是因子分类的最佳代表。 紧随其后的是DC-IGN。 有趣的是,ICA仅在编码对象身份方面做得很好,而PCA设法学习了很好的对象位置表示。

A.6.解释归一化的β(INTERPRETING NORMALISED β)

A.7. β和ε之间的关系(RELATIONSHIP BETWEEN β AND ε)

A.8. 数据连续性( DATA CONTINUITY)

  我们假设数据连续性在指导无监督的模型学习正确的数据流形方面起着作用。为了测试该想法,我们测量了2D形状数据集中学习的解缠程度如何随着连续性的降低而变化。我们在原始2D形状数据集的子样本上训练了β= 4的β-VAE(图7A),然后逐步降低了生成因子的抽样密度。数据连续性的减少与每个对象的两个连续变换之间的平均像素方向(汉明)距离负相关(通过对象的两个相邻变换中的每个对象占据的平均像素数进行归一化以解决对象缩放)。图8表明,随着数据连续性的减少,学习表示中的纠缠程度也下降了。此效果在额外的超参数调整之后仍然有效,并且无法仅通过数据集大小的减小来解释,同样,VAE可以从保留数据连续性但约为原始大小的55%的数据子集中学习解缠结的表示(结果未显示)。

A.9. β-VAE例子( β-VAE SAMPLES)

  在图9中可以看到来自β-VAE的样本,它们学习了解缠结(β= 4)和缠结(β= 1)表示。

A.10.额外的β-VAE遍历图( EXTRA β-VAE TRAVERSAL PLOTS)

  我们从β-VAE提供了额外的潜在遍历图,这些图学习了3D椅子(图10-11)和CelebA(图12-14)数据集的解缠表示。 在这里,我们显示了来自大量种子图像的所有潜在信息的遍历。


β-VAE:学习具有约束框架的基本视觉概念--附件相关推荐

  1. β-VAE:学习具有约束框架的基本视觉概念

    β-VAE: LEARNING BASIC VISUAL CONCEPTS WITH A CONSTRAINED VARIATIONAL FRAMEWORK 摘要(Abstract) 1. 引言(IN ...

  2. CV:计算机视觉技最强学习路线之CV简介(传统视觉技术/相关概念)、早期/中期/近期应用领域(偏具体应用)、经典CNN架构(偏具体算法)概述、常用工具/库/框架/产品、环境安装、常用数据集、编程技巧

    CV:计算机视觉技最强学习路线之CV简介(传统视觉技术/相关概念).早期/中期/近期应用领域(偏具体应用).经典CNN架构(偏具体算法)概述.常用工具/库/框架/产品.环境安装.常用数据集.编程技巧 ...

  3. 论文阅读笔记(9):加权稀疏子空间表示——子空间聚类、约束聚类和主动学习的统一框架

    论文阅读笔记(9):WEIGHTED SPARSE SUBSPACE REPRESENTATION--A UNIFIED FRAMEWORK FOR SUBSPACE CLUSTERING, CONS ...

  4. 十一.激光惯导LIO-SLAM框架学习之LIO-SAM框架---框架介绍和运行演示

    专栏系列文章如下: 一:Tixiao Shan最新力作LVI-SAM(Lio-SAM+Vins-Mono),基于视觉-激光-惯导里程计的SLAM框架,环境搭建和跑通过程_goldqiu的博客-CSDN ...

  5. 十.激光SLAM框架学习之LeGO-LOAM框架---算法原理和改进、项目工程代码

    专栏系列文章如下: 一:Tixiao Shan最新力作LVI-SAM(Lio-SAM+Vins-Mono),基于视觉-激光-惯导里程计的SLAM框架,环境搭建和跑通过程_goldqiu的博客-CSDN ...

  6. 六.激光SLAM框架学习之A-LOAM框架---项目工程代码介绍---4.laserMapping.cpp--后端建图和帧位姿精估计(优化)

    专栏系列文章如下: 一:Tixiao Shan最新力作LVI-SAM(Lio-SAM+Vins-Mono),基于视觉-激光-惯导里程计的SLAM框架,环境搭建和跑通过程_goldqiu的博客-CSDN ...

  7. 五.激光SLAM框架学习之A-LOAM框架---项目工程代码介绍---3.laserOdometry.cpp--前端雷达里程计和位姿粗估计

    专栏系列文章如下: 一:Tixiao Shan最新力作LVI-SAM(Lio-SAM+Vins-Mono),基于视觉-激光-惯导里程计的SLAM框架,环境搭建和跑通过程_goldqiu的博客-CSDN ...

  8. CVPR2021 | 视觉推理解释框架VRX:用结构化视觉概念作为解释网络推理逻辑的「语言」

    本文提出了一个视觉推理解释框架 (VRX: Visual Reasoning eXplanation),将人们容易理解的.high-level 的结构化的视觉概念作为「语言」,通过回答为什么是 A,为 ...

  9. CVPR 2021 | 视觉推理解释框架VRX:用结构化视觉概念作为解释网络推理逻辑的「语言」...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:葛云皓  |  编辑:Amusi 本文提出了一个视觉推理解释框架 (VRX: Visual Reaso ...

  10. 深入学习SAP UI5框架代码系列之五:SAP UI5控件的实例数据修改和读取逻辑

    这是Jerry 2021年的第6篇文章,也是汪子熙公众号总共第277篇原创文章. 系列目录 (0) SAP UI5应用开发人员了解UI5框架代码的意义 (1) SAP UI5 module懒加载机制 ...

最新文章

  1. Ubuntu10.04安装Flash插件
  2. centos和ubuntu安装卸载软件(rpm/dpkg)
  3. 9.QT事件机制源码时序分析(上)
  4. 解决Linux中使用google chrome浏览器出现:ERR_PROXY_CONNECTION_FAILED 代理错误,导致不能够上网
  5. 个性化推荐系统该如何评估,四种不同策略的角度
  6. 剑指Offer25 合并两个排序的链表
  7. easyui datagrid 表头与数据错位
  8. Win7 下打开wifi共享的方法
  9. 使用arpspoof实现内网ARP欺骗
  10. Navicat连不上Ubuntu?
  11. python 导入包 导入模块
  12. php获取用户当前坐标,web端定位:获取当前地理位置
  13. 让你此生难成大器的七宗罪
  14. 当心DevOps虚假指标
  15. 【程序员日记】快乐的一周嘛(第8期)(财富、快乐、技术)
  16. edge 打开PDF文件显示无法加载插件
  17. 如何做一个自己的网站?
  18. 第一次使用虚拟机(VMware)
  19. MATLAB利用仿射变换实现图像的缩放,旋转,剪切,平移操作
  20. 【提交】commit

热门文章

  1. Matlab影像像素坐标得到经纬度/经纬度转影像坐标(已知经纬度获取影像DN值)
  2. PDF批量合并拆分并
  3. 谢逸计算机网络,第一届中国计算机实践教育学术会议在南京成功举办
  4. 【盘点】2014年跨境进口型电商十大模式
  5. 【js与jquery】产品详情页面常用的js特效
  6. linux卸载软件wine,Ubuntu 卸载wine
  7. Cygwin安装教程并构建WFDB软件包
  8. java 中英日期转换器_Java SimpleDateFormat中英文时间格式化转换详解
  9. 如何说服你的同事使用TDD
  10. 3万一5万新能源电动汽车,3万内的新能源电动轿车