文章目录

  • 前言
  • 一、β-vae的提出
  • 二、β-vae框架推导
    • 1.假设
    • 2.推导
  • 三、DISENTANGLEMENT METRIC

前言

文章:β-VAE: LEARNING BASIC VISUAL CONCEPTS WITH A CONSTRAINED VARIATIONAL FRAMEWORK
原文链接:beta-vae
本文是在传统VAE的基础上,对VAE的loss进行了改进,在loss的第二项KL散度项加上一个超参数β,作者发现,随着增加β,传统的VAE有了disentanglement的特性,并做了大量的实验验证。
在我看来,全篇文章主要做了两件事情:

  1. 在VAE的基础上,增加超参数β,发现了disentanglement的特性(很可惜没有很好的解释原因是什么。)
  2. 提出一个disentanglement的度量方法

一、β-vae的提出

β-vae实际上非常简单,就是在传统vae的基础上,对VAE的loss进行了改进,在loss的第二项KL散度项加上一个超参数β。所以说,你需要先弄明白vae,这里推荐你看一下苏剑林老师的文章,这篇文章我感觉是讲vae讲的最好的一篇。
首先看一下传统VAE的loss:

分为两个部分,前面是重构项,后面是kl散度。
beta-vae的loss:
就是在kl散度项加了一个超参数β。

二、β-vae框架推导

1.假设

设D={X,V,W}是由图像x∈RN和两组地面真实数据生成因子组成的集合:条件独立因子v∈RK,其中logp(v|x)=Pklogp(vk|x);和条件相关因子w∈RH。我们假设图像x是由真实世界模拟器使用相应的地面真实数据生成因子生成的:
p(x|v,w)=Sim(v,w)。
我们想要开发一个无监督的深度生成模型,仅使用X的样本,可以学习数据x和一组生成潜在因子z(z∈RM,其中M≥K)的联合分布,这样z就可以生成观测数据x;即p(x|z)≈p(x|v,w)=Sim(v,w)。因此,一个合适的目标是使在潜在因子x的整个分布中,预期的观测数据x的边际(对数)似然值最大化:

2.推导

对于一个给定的观测x,我们用概率分布qφ(z|x)来描述潜在因子z的推断后验构型。我们的目的是确保推断出的潜在因子qφ(z|x)以解纠缠的方式捕获生成因子v。有条件依赖的数据生成因子w可以保持纠缠在z的一个单独子集中,该子集中不用来表示v。为了鼓励在推断的qφ(z|x)中的这种分离性质,我们通过尝试将其与先验的p(z)匹配来对其引入一个约束。它既可以控制潜在信息瓶颈的能力,又体现了上述统计独立性的需求。
因此,将先验设置为一个各向同性单位高斯(p(z)=N(0,I)),可以满足这一点。
对于β-vae的损失来说:

β是正则化系数,它约束了潜在信息通道z的容量,并由于高斯先验p(z)的各向同性,对学习到的后验施加隐式独立压力。
最终损失函数为:

当在信息保存(重建成本作为正则化)和潜在信道容量限制(β>1)之间找到正确的平衡时,就会出现解纠缠表示。文中通过实验选择的是β=4的时候效果最好。

三、DISENTANGLEMENT METRIC

关于disentanglement的度量方法是比较少的,文章中提出了自己的度量方法,本质是一个线性分类器。
算法流程:

如图所示:

我来解释一下这个方法,因为一开始的时候我也没有看懂。首先要明确的是,这个方法的本质是一个分类器。
先看上图的最左边,数据是以数据对的形式存在的,每组数据都有两个样本,一共有L组。其中,所有数据的scale是一样的,可以从图中看出,不管是心形、椭圆、还是正方体。这就确保了对于隐变量来说,其中的一维是固定的。
接着是将样本以对的形式输入到编码器中,得到Z,一组当中,Z做减法。然后将所有组的Zdiffer求均值。将这个均值输入到最后的分类器中,分类器的目标是预测对给定zb保持不变的生成因子的索引y。

Beta-VAE论文阅读笔记相关推荐

  1. 《Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs》论文阅读笔记

    <Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs>论文阅读笔记 主要挑战贡献: KG上的推理挑战主要 ...

  2. Learning Multiview 3D point Cloud Registration论文阅读笔记

    Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

  3. 对抗训练-smart 论文阅读笔记

    对抗训练-smart 论文阅读笔记 SMART: Robust and Efficient Fine-Tuning for Pre-trained NaturalLanguage Models thr ...

  4. 论文阅读笔记:看完也许能进一步了解Batch Normalization

    提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 介绍 BN之前的一些减少Covariate Shift的方法 BN算法描述 Batch No ...

  5. 论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning

    论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning 本文通过神经网络利用了减少轮数的 Speck 的差分性质.为此,作者对神经网络 ...

  6. 论文阅读笔记 | 目标检测算法——PP-YOLOv2

    如有错误,恳请指出. 文章目录 1. Introduction 2. Revisit PP-YOLO 2.1 Pre-Processing 2.2 Baseline Model 2.3 Trainin ...

  7. 《Segment as Points for Efficient Online Multi-Object Tracking and Segmentation》论文阅读笔记

    <Segment as Points for Efficient Online Multi-Object Tracking and Segmentation>论文阅读笔记 1.介绍 2.相 ...

  8. 论文阅读笔记(3):A Nullspace Property for Subspace-Preserving Recovery

    论文阅读笔记(3):保子空间恢复的零空间性质 前言 摘要 1. 简介 2. 准备工作和问题提出 2.1. 符号表示和序言 2.2. 稀疏子空间分类与聚类 3. 保子空间恢复的零空间性质 定义1: 定理 ...

  9. Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization论文阅读笔记

    Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization论文阅读笔记 目录 Arbitrary Style ...

  10. CenterNet:Objects as Points论文阅读笔记

    CenterNet论文阅读笔记 (一)Title (二)Summary (三)Research Objective (四)Problem Statement (五)Method 5.1 Loss Fu ...

最新文章

  1. 弄懂“进程”(上):3个组成部分、4个基本特征、4个基本状态
  2. legacy引导gpt分区_windows分区模式和启动模式(UEFI+GPT或Legacy+MBR组合)
  3. [BZOJ3600]没有人的算术
  4. 神经网络与机器学习 笔记—LMS(最小均方算法)和学习率退火
  5. Django项目工程配置工程日志
  6. 7种 Java 设计模式,你会几种?
  7. IntelliJ IDEA for Mac在MacOS模式下的版本控制/本地历史记录快捷键(VCS and Local History Shortcut)
  8. 【渝粤教育】广东开放大学 软件工程 形成性考核 (50)
  9. chrome 开发工具_我最喜欢的Chrome开发工具提示和技巧
  10. freetextbox的问题两个
  11. 常遇问题及一些可能的解决方案
  12. jquery 搜索框自动提示
  13. java操作集合中 concurrentModifyException 异常的原因分析
  14. Excel VBA实现 通过文件名查找全路径
  15. ORB-SLAM 解读(六)ORB特征点构建BoW
  16. 从技术角度,设备过保就坏,是怎么实现的
  17. githut配置完ssh后,Host key verification failed.
  18. 3dsMax学习笔记06_用VRayMtl材质制作室外雕塑
  19. NOIP2011(提高组)DAY2---观光公交(vijosP1741)
  20. 对于开发软件的NABCD分析

热门文章

  1. Ubuntu部署YAPI
  2. DirectVobSub(VsFilter)的基本原理和实现实现
  3. 8个免费、可商用的视频素材网站,一定要收藏
  4. 无法复制文件到U盘解决办法
  5. jvm学习——jvm内存区域
  6. 破而后立,破除陈旧,认识自我,而后顶天立地!
  7. 微信公众号禁止浏览器打开
  8. Docker系列 利用RSShub搭建个人RSS源 从此万物皆RSS
  9. 什么是ISP,他的工作原理是怎样的
  10. Elk-Metricbeat配置Tomcat的日志分析 (Metricbeat-part3)