最优传输理论是连接几何和概率的桥梁, 它用几何的方法为概率分布的建模和衡量概 率分布之间的距离提供了强有力的工具。最 近,最优传输理论的概念和方法日益渗透进 机器学习领域,为机器学习原理的解释提供 了新的视角,为机器学习算法的改进提供了 新的指导方向。

本文介绍最优传输理论的基本概念和原 理,解释如何用最优传输理论的框架来表示 概率分布,度量概率分布间的距离,如何降 维逼近,并进一步解释这些手法在机器学习 中的应用,给出机器学习原理和特点的最优 传输理论阐释。

1.1 最优传输理论与 WGAN 模型

1. 生成对抗网络简介

训练模型生成对抗网络 (GAN, Generative Adversarial Networks)[1] 是一个“自 相矛盾”的系统,就是“以己之矛,攻己之盾”, 在矛盾中发展,使得矛更加锋利,盾更加强 韧。这里的矛被称为判别器(Descriminator), 这里的盾被称为生成器(Generator)。如图 1~3 所示。

生成器 G 一般是将一个随机变量(例如 高斯分布,或者均匀分布),通过参数化的 概率生成模型(通常是用一个深度神经网来 进行参数化),进行概率分布的逆变换采样, 从而得到一个生成的概率分布。如图 2 所示。 判别器 D 也通常采用深度卷积神经网。


我们的目的是要找出给定的真实数据内 部的统计规律,将其概率分布表示为 Pr。为 此制作了一个随机变量生成器 G,G 能够产生 随机变量,其概率分布是 Pg,我们用 Pg 来尽 量接近 Pr。为了区分真实概率分布 Pr 和生成 概率分布 Pg,又制作了一个判别器 D,D 用 来判别一个样本是来自真实数据,还是来自 G 生成的伪造数据。为了使 GAN 中的判别器尽 可能将真实样本判为正例,将生成样本判为负 例,Goodfellow 设计了如下的损失函数(loss function):

这里第一项不依赖于生成器 G。 此式也可用 于定义 GAN 中生成器的损失函数。

矛盾的交锋过程如下:在训练过程中, 判别器 D 和生成器 G 交替学习,最终达到纳 什均衡(零和游戏)。在均衡状态,判别器 无法区分真实样本和生成样本,此时的生成 概率分布 Pg,可以被视作是真实概率分布 Pr 的一个良好逼近。如图 1~3 所示。

GAN 具有非常重要的优越性:当真实 数据的概率分布 Pr 不可计算时,依赖于数 据内在解释的传统生成模型无法被直接应 用。但是 GAN 依然可以被使用,这是因 为 GAN 引入了内部对抗的训练机制,能 够逼近难以计算的概率分布。Yann LeCun 一直积极倡导 GAN,因为 GAN 为无监督 学习提供了一个强有力的算法框架,而无 监督学习被广泛认为是通往人工智能的重 要一环。

原始 GAN 形式具有致命缺陷:判别器 越好,生成器的梯度消失越严重。我们固定 生成器 G 来优化判别器 D。考察任意一个样 本 x,其对判别器损失函数的贡献是

在这种情况下(判别器最优),如果 Pr 和 Pg 的支撑集合 (support) 交集为零测度,则生成 器的损失函数恒为 0,梯度消失。

本质上,JS 散度给出了概率分布 Pr 、 Pg 之间的差异程度,亦即概率分布间的度 量。我们可以用其他的度量来替换 JS 散度。Wasserstein 距离就是一个好的选择,因为 即便 Pr 、Pg 的交集为零测度,它们之间的 Wasserstein 距离依然非零。这样我们就得到 了 Wasserstein GAN 的模式 [2-3]。Wasserstein 距离的好处在于,即便 Pr、 Pg 两个分布之间 没有重叠,Wasserstein 距离依然能够度量它们的远近。

为此,我们引入最优传输的几何理论 (Optimal Mass Transportation),这个理论可视 化了 W-GAN 的关键概念,例如概率分布、 概率生成模型(生成器)、Wasserstein 距离。 更为重要的,这套理论中所有的概念、原理 都是透明的。例如,对于概率生成模型,理 论上我们可以用最优传输的框架取代深度神 经网络来构造生成器,从而使得机器学习的 黑箱变得透明。

2. 最优传输理论梗概


蒙 日-安 培 方 程 解 的 存 在 性、 唯 一 性 等价于经典的凸几何中的亚历山大定理 (Alexandrov Theorem)。


3. W-GAN 中关键概念可视化

W-GAN 模型中,关键的概念包括概率分 布(概率测度)、概率测度间的最优传输映 射(生成器)、概率测度间的Wasserstein距离。 下面我们详细解释每个概念的含义、所对应 的构造方法和相应的几何意义。

概率分布 GAN 模型中有两个至关重要 的概率分布(probability measure),一个 是真实数据的概率分布 Pr;一个是生成数 据的概率分布 Pg。另外,生成器的输入随 机变量可以是任意标准概率分布,例如高 斯分布、均匀分布等。

概率测度可以看成是一种推广的面积(或 者体积)。我们可以用几何变换随意构造一 个概率测度。如图 5 所示,我们用三维扫描 仪获取一张人脸曲面,那么人脸曲面上的面 积就是一个概率测度。我们缩放变换人脸曲 面,使得总面积等于 π;然后,用保角变换 将人脸曲面映射到平面圆盘。如图 5 所示, 保角变换将人脸曲面上的无穷小圆映到平面 上的无穷小圆,但是,小圆的面积发生了变化。 每对小圆的面积比率定义了平面圆盘上的概 率密度函数。











4. 小结

在 W-GAN 模型中,通常生成器和判别 器是用深度神经网络来实现的。根据最优传 输理论,可以用 Briener 势函数来代替深度 神经网络这个黑箱,从而使得整个系统变得透明。在另一层面上,深度神经网络本质上 是在训练概率分布间的传输映射,因此有可 能隐含地在学习最优传输映射,或者等价地 Brenier 势能函数。对这些问题的深入了解, 将有助于我们看穿黑箱。和图6中的例子类似, 图 12 显示了用最优传输映射计算的曲面保面 积参数化。最优传输理论在任意维空间都成立, 图 13 显示了一个三维体的最优传输例子。

中国人工智能学会通讯——最优传输理论在机器学习中的应用 1.1 最优传输理论与 WGAN 模型...相关推荐

  1. 中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )...

    到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它 ...

  2. 中国人工智能学会通讯——深蓝、沃森与AlphaGo

    在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深 ...

  3. 中国人工智能学会通讯——基于视频的行为识别技术 1.7 视频的深度分段网络...

    1.7 视频的深度分段网络 下面介绍另外一个工作,是我们和 CUHK.ETH 联合开展的,这个工作考 虑视频的分段特性,我们知道视频可以分 成很多段,每一段有不同的内容.我们 开发了一个深度模型,对不 ...

  4. 中国人工智能学会通讯——智能系统测评:挑战和机遇

    上面的四个报告从四个维度讨论了智能系统测评的不同方面--产业.基础.基础和伦理.我受中国人工智能学会的委托,组织这次分论坛,为此对这个领域做了一些调研和思考,从现状和挑战这两个方面做了一些初步总结. ...

  5. 《中国人工智能学会通讯》——4.18 粒计算简介

    4.18 粒计算简介 粒计算 (GrC,Granular Computing) 是一个新兴的.多学科交叉的研究领域,是当前计算智能领域中模拟人类思维和解决复杂问题的新方法,它涵盖了所有有关粒度的理论. ...

  6. 中国人工智能学会通讯——从语料库中习得的语义包含类人的偏见

    摘要:机器学习是一种通过发现现有数据的模式来获得人工智能的方法.在这篇文章中,我们证明将机器学习应用于普通人类语言会产生类人的语义偏见.我们采用被广泛使用的纯统计机器学习模型,利用内隐联想测试的测量方 ...

  7. 《中国人工智能学会通讯》——4.27 电子数据取证理论与技术

    4.27 电子数据取证理论与技术 电子数据取证的概念 电子数据取证是指恢复已被破坏的计算机数据及提供相关的电子数据证据.利用计算机软硬件技术,以符合法律规范的方式对计算机入侵.破坏.欺诈.攻击等违法犯 ...

  8. 中国人工智能学会通讯——机器人组件技术在智能制造系统中的应用

    摘要:随着工业4.0时代的到来,如何将传统工厂改造成为个性化.网络化.柔性生产的智能制造系统成为了当前的研究热点.本文从智能制造系统和智能机器人系统的相似性出发,构建了基于机器人组件技术的智能制造系统 ...

  9. 中国人工智能学会通讯——后深度学习时代的人工智能

    1956 年,在美国达特茅斯学院举行的一次会议上,"人工智能"的研究领域正 式确立.60 年后的今天,人工智能的发展正进入前所未有的大好时期.我今天作的报告,将通过分析时代的特点, ...

最新文章

  1. Go操作mysql实现增删改查及连接池
  2. strcat strcpy 源代码,用指针去实现
  3. SAP CRM Business Partner 自动决定Determination的执行逻辑
  4. Taro+react开发(15)--对应文件编译
  5. html背景颜色白色半透明,HTML – 背景颜色:透明意味着什么?
  6. Windows10+CUDA8.0+VS2015+CUDNN5下配置caffe
  7. EasyRecovery,拯救那些遗失的文件
  8. 反序列化时出现“base-64 字符数组的无效长度”错误提示的解决
  9. android 视频地址解析,Android使用webview解析视频并播放
  10. 程序员自学软件编程开发的“3 个技巧”,掌握好,菜鸟变大神
  11. 国际版firefox安装方法
  12. C语言斐波那契数列的非递归实现
  13. win10设置vmware 虚拟机开机自启动
  14. 官场直升机 鸿蒙笔著,鸿蒙笔会征文一等奖作品 《啼笑缘》续集
  15. position sticky
  16. 逆势获投1亿,火眼金睛下的云适配BRaaS新模式引关注
  17. 美版t430笔记本win8系统下装Ubuntu的一些尝试和遇到的问题
  18. 怎么把ofd转换成PDF文件?分享给你个好用的方法。
  19. 使用awk处理多行fasta文件拆分为单个fasta文件,并去掉后缀^M
  20. android ram rom测试工具,RAM与ROM测试方法

热门文章

  1. 从 C++ 到 Objective-C 的快速指南 【已翻译100%】
  2. mysql中binlog_format模式与配置详解
  3. 协议森林13 9527 (DNS协议)
  4. WebView实例开发之人人网Oauth2认证
  5. Android-用ListView显示SDCard文件列表
  6. android 代码 日历 重复事件设置,日历重复/重复事件 - 最佳存储方法
  7. MySQL高级 - 案例 - 系统性能优化 - 索引优化
  8. Redis中的I/O 多路复用(I/O Multiplexing)
  9. list 数据类型的应用场景
  10. vue指令-循环指令