白悦、许迪 变分自编码器(VAE)与生成对抗网络(GAN)是复杂分布上无监督学习主流的两类方法。近日,谷歌大脑 Ilya Tolstikhin 等人提出了又一种新思路:Wasserstein 自编码器,其不仅具有 VAE 的一些优点,更结合了 GAN 结构的特性,可以实现更好的性能。该研究的论文《Wasserstein Auto-Encoders》已被即将在 4 月 30 日于温哥华举行的 ICLR 2018 大会接收。

表示学习(representation learning)领域最初由监督式方法实现,使用超大标注数据集得到了突出的结果。而之前通过无监督方式生成的模型往往使用概率方法处理低维数据。近年来,这两种方法逐渐结合。在交叉点形成的新领域,出现变分自动编码器(VAE)[1] 这一成熟的方法,虽然理论成熟,但应用于自然图像时会生成模糊的样本。相比之下,生成对抗网络(GAN)[3] 在模型采样的图像的视觉质量方面更加突出,但它的缺点是没有编码器,更难训练,并且有「模式崩溃」(mode collapse)的问题,最终的模型无法捕获真实数据分布的所有变化。此前的研究中,研究人员已经分析过很多 GAN 结构和 VAE、GAN 组合结构的问题,但我们还没有发现一个把 GAN 和 VAE 的优点适当结合的统一框架。

谷歌大脑的这项工作建立在 L. Mescheder 等人 [11] 提出的理论分析的基础上。根据 Wasserstein GAN 和 VEGAN,我们从最佳传输(OT:optimal transport)的角度来看生成建模。最佳传输成本(The OT cost)[5] 是一种测量概率分布之间距离的方法,且比其它方法(包括与原始 GAN 算法相关的 f 增益(f-divergences))的拓扑更弱。这在应用里面非常重要,因为在输入空间 X 中,数据通常是靠低维流形支持的。因此,更强烈的距离概念(如捕获分布间密度比率的 f 增益)往往最大,没有给训练提供有用的梯度。相比之下,有人称 OT 会有更好的表现 [4, 7],尽管在其 GAN 类的实现中,需要在目标中增加约束项或正则项。

这篇文章中,我们的目标是最小化实际(但未知)的数据分布 PX 、由隐藏代码(latent codes)Z ∈ Z 的先验分布规定的隐变量模型 PG 和数据点 X ∈(X|Z)的生成模型 PG(X|Z) 之间的 OT Wc(PX, PG)。我们的主要贡献如下(参见图 1):

Wasserstein 自动编码器(WAE),一个新的正则化自动编码器家族(算法 1,2 和等式 4),可以最小化任何成本函数 c 的最佳传输 Wc(PX,PG)。与 VAE 类似,WAE 的目标由两项组成:c-重构成本(c-reconstruction cost)和一个正则化矩阵,正则化矩阵用于惩罚 Z:PZ 中的两个分布和编码数据点的分布矛盾,即 QZ := EPX [Q(Z|X)]。当 c 是成本的平方,DZ 是 GAN 目标时,WAE 与 [2] 中的对抗自编码器一致。

WAE 通过成本平方 c(x, y) = ||x−y||2 在 MNIST 和 CelebA 数据集上进行评估。研究员的实验表明,WAE 保持了 VAE 的良好特性(训练稳定,编码器-解码器架构和一个好的潜在流形结构),同时生成了质量更好的样本,接近 GAN 生成的样本。

我们提出并检验了两个不同的正规化矩阵 DZ(PZ,QZ)。一个基于 GAN 和隐空间(latent space)Z 的对抗训练,另一个利用最大均值差异(maximum mean discrepancy),可以很好地用于匹配高维标准正态分布 PZ[8]。

最后,《From optimal transport to generative modeling: the VEGAN cookbook》[11] 中和用来推导 WAE 目标的理论考虑本身可能会很有趣。特别是,定理 1 表明在生成模型的情况下,Wc(PX,PG)的原始形式相当于涉及优化概率编码器 Q(Z | X)优化的问题。

本文结构如下。第二部分我们回顾了一个新的自动编码器公式,用来计算 PX 和 [11] 中推导的隐变量模型 PG 之间的 OT。放宽了最终的约束优化问题(Wasserstein 自动编码器的目标)。我们得出了两种不同的正则化矩阵,得出 WAE-GAN 和 WAE-MMD 算法。第三部分讨论相关的工作。第四部分是实验结果,并以未来工作有前景的方向结束。

图 1:VAE 和 WAE 最小化两项:重构成本、惩罚 PZ 和编码器 Q 引起的分布之间的差异的正则矩阵。对 PX 的不同输入样本 x,VAE 使 Q(Z|X = x) 与 PZ 匹配。如图(a),其中每个红色的球与 PZ(图中的白色图形)匹配。红色的球开始交叉,这也是问题开始重建的时候。相反,如图(b),WAE 使连续混合(continuous mixture)QZ := ∫Q(Z|X)dPX 与 PZ(图中绿色的球)匹配。因此,不同样本的隐藏代码都有机会远离对方,从而更好地重建。

算法 1. Wasserstein 自动编码器和基于 GAN 惩罚的算法(WAE-GAN)。算法 2. Wasserstein 自动编码器和基于 MMD 惩罚的算法(WAE-MMD)。

图 2:在 MNIST 数据集上训练的 VAE(左列),WAE-MMD(中间列)和 WAE-GAN(右列)。在「测试重建」中,奇数行对应于实际的测试点。

图 3:在 CelebA 数据集上训练的 VAE(左列),WAE-MMD(中间列)和 WAE-GAN(右列)。在「测试重建」中,奇数行对应于实际的测试点。

表 1:CelebA 中样本的 FID 得分(数字越小越好)。

论文:Wasserstein Auto-Encoders

论文链接:https://arxiv.org/abs/1711.01558

摘要:我们提出了 Wasserstein 自动编码器(WAE)——一种用于构建数据分布生成模型的新算法。WAE 将模型分布与目标分布之间的 Wasserstein 距离的惩罚形式最小化,导出了与变分自动编码器(VAE)所使用的不同的正则化矩阵 [1]。此正则化矩阵鼓励编码的训练分布与之前的相匹配。我们比较了我们的算法和其它几种技术,表明它是对抗自动编码器(AAE)的推广 [2]。我们的实验表明,WAE 具有 VAE 的许多特性(训练稳定,编码器-解码器架构,良好的潜在流形结构),同时生成了通过 FID 得分衡量的质量更好的样本。

https://www.jiqizhixin.com/articles/google-brain-Wasserstein-Auto-Encoders

谷歌大脑Wasserstein自编码器:新一代生成模型算法相关推荐

  1. 关于GAN的七个问题:谷歌大脑工程师带你梳理生成对抗网络

    https://www.toutiao.com/a6678477083334672903/ 鱼羊 发自 纽凹非寺 量子位 报道 | 公众号 QbitAI 比起自己埋头写论文,聊聊自己感兴趣的方向,期待 ...

  2. ICLR 2020:从去噪自编码器到生成模型

    作者丨苏剑林 单位丨追一科技 研究方向丨NLP,神经网络 个人主页丨kexue.fm 在我看来,几大顶会之中,ICLR 的论文通常是最有意思的,因为它们的选题和风格基本上都比较轻松活泼.天马行空,让人 ...

  3. 玻尔兹曼机、深度信念网络、编码器等生成模型

    受限玻尔兹曼机 -训练方式:对比散度方法(示例代码如下,原博客为https://blog.csdn.net/slx_share/article/details/92072228?ops_request ...

  4. 谷歌大脑AutoML最新进展:用进化算法发现神经网络架构

    来源:AI中国 大脑的进化进程持续已久,从5亿年前的蠕虫大脑到现如今各种现代结构.例如,人类的大脑可以完成各种各样的活动,其中许多活动都是毫不费力的.例如,分辨一个视觉场景中是否包含动物或建筑物对我们 ...

  5. OpenMMLab 生成模型算法库发布,打工人也能玩转图像生成!

    ❕❕❕ 看这里看这里看这里 Hello,各位小伙伴们好.今天想跟大家介绍一下我们 OpenMMLab 的新成员: ✨ MMGeneration ✨ MMGeneration 基于 PyTorch 和 ...

  6. 谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型

    来源:机器之心 本文约1700字,建议阅读5分钟继imagen后,谷歌又推出了文本,如想生成模拟Parti. 继 Imagen 后,谷歌又推出了文本 - 图像生成模型 Parti. 你见过一只小狗破壳 ...

  7. EAE:自编码器 + BN + 最大熵 = 生成模型

    ©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 生成模型一直是笔者比较关注的主题,不管是 NLP 和 CV 的生成模型都是如此. 这篇文章里,我们介绍一个 ...

  8. Wasserstein距离在生成模型中的应用

    作者丨黄若孜 学校丨复旦大学软件学院硕士生 研究方向丨推荐系统 前言 本文是关于 Wasserstein 距离在生成模型中的应用的一个总结,第一部分讲 Wasserstein 距离的定义和性质,第二部 ...

  9. 前谷歌大脑员工创业公司获4000万美元融资,Hinton、李飞飞等支持

    来源:新智元 [导读]NLP模型提供商Cohere宣布获得4000万美元A轮融资.该公司由谷歌大脑前员工创立,核心模型源自Transformer,并获得了Geoffrey Hinton,李飞飞等AI界 ...

最新文章

  1. r语言 编辑 d3.js_d3.js的语言介绍
  2. 数据质量和模型调优哪个更重要?
  3. Windows Home Server 2011 RC 安装体验
  4. 【跃迁之路】【530天】刻意练习系列289(2018.07.20)
  5. 两个js文件同时执行,解决覆盖问题
  6. 论https和http谁对网站优化更友好
  7. HTML的map-area的使用
  8. node08-express
  9. vue.js 四(指令和自定义指令)
  10. flash动画制作成品_Flash如何制作沿曲线移动的箭头动画
  11. Centos 安装 K8S
  12. Proe调入ansys中单位的协调
  13. 前端数据可视化—Echart——笔记整理
  14. Wintel机器代码反反转练习(C/C++逆向)
  15. AndroidUI:Android的Holo Theme
  16. 多米诺骨牌java_通过递归和回溯找到所有可能的多米诺骨牌链
  17. uboot分析第一阶段学习笔记
  18. 八卦는 生命의 運動 (韓長庚 易學原理總論)
  19. 软件推荐 scrcpy
  20. AttacKG: Constructing Technique Knowledge Graph from Cyber Threat Intelligence Reports 源码复现

热门文章

  1. 连接第二个 insance 到 first_local_net - 每天5分钟玩转 OpenStack(83)
  2. PHPExel导出报表--导出类
  3. W-D-S-UART编程
  4. latex二元关系符号
  5. 32和64位系统各内置类型所占字节大小(int char long double 指针等)
  6. 改变服务器控件的显示属性,2.6.1 设置Style特性和其他属性
  7. 科大星云诗社动态20210908
  8. Python的第一个程序 Hello world
  9. 3DSlicer15:Scripted Module
  10. 3DSlicer4:模块管理(二)场景视图、体数据、体绘制