WGAN的成功,可能跟Wasserstein距离没啥关系
©PaperWeekly 原创 · 作者|苏剑林
单位|追一科技
研究方向|NLP、神经网络
WGAN,即 Wasserstein GAN,算是 GAN 史上一个比较重要的理论突破结果,它将 GAN 中两个概率分布的度量从 f 散度改为了 Wasserstein 距离,从而使得 WGAN 的训练过程更加稳定,而且生成质量通常也更好。
Wasserstein 距离跟最优传输相关,属于 Integral Probability Metric(IPM)的一种,这类概率度量通常有着更优良的理论性质,因此 WGAN 的出现也吸引了很多人从最优传输和 IPMs 的角度来理解和研究 GAN 模型。
然而,最近 Arxiv 上的论文《Wasserstein GANs Work Because They Fail (to Approximate the Wasserstein Distance)》[1] 则指出,尽管 WGAN 是从 Wasserstein GAN 推导出来的,但是现在成功的 WGAN 并没有很好地近似 Wasserstein 距离,相反如果我们对 Wasserstein 距离做更好的近似,效果反而会变差。
事实上,笔者一直以来也有这个疑惑,即 Wasserstein 距离本身并没有体现出它能提升 GAN 效果的必然性,该论文的结论则肯定了该疑惑,所以 GAN 能成功的原因依然很迷。
基础与回顾
本文是对 WGAN 训练过程的探讨,并不算入门文章。关于初学 GAN,欢迎参考互怼的艺术:从零直达 WGAN-GP;而关于 f 散度与 GAN 之间的联系,可以参考 f-GAN 简介:GAN 模型的生产车间和 Designing GANs:又一个 GAN 生产车间;至于WGAN的理论推导,可以参考从Wasserstein距离、对偶理论到 WGAN;对于 GAN 的训练过程分析,还可以参考从动力学角度看优化算法:GAN 的第三个阶段。
一般来说,GAN 对应着一个 min-max 过程:
当然,一般来说判别器和生成器的损失函数可能不一样,但上述形式已经足够有代表性了。最原始的 GAN 一般称为 vanilla GAN,其形式为:
可以参考《Towards Principled Methods for Training Generative Adversarial Networks》[2] 、令人拍案叫绝的 Wasserstein GAN [3] 或笔者的相关 GAN [4] 文章证明,vanilla GAN 实际上相对于在缩小两个分布之间的 JS 散度。
而 JS 散度是 f 散度的一种,所有的 f 散度都具有一个问题,那就是在两个分布几乎没有交集的时候,散度为一个常数,这意味着梯度为零,而我们是使用梯度下降求解的,所以这意味着我们无法很好地完成优化。为此,WGAN [5] 应运而生,它利用 Wasserstein 距离来设计了新的 GAN:
跟之前的 GAN 的明显区别是,WGAN 显式地给判别器 D 加上了 L 约束 。由于 Wasserstein 距离几乎对任意两个分布(哪怕没有交集)都有比较良好的定义,因此 WGAN 理论上就解决了传统的基于 f 散度的 GAN 的梯度消失、训练不稳定等问题。
给判别器加上 L 约束主要有两个主要方案:一是谱归一化(Spectral Normalization,SN),可以参考深度学习中的 Lipschitz 约束:泛化与生成模型,现在很多 GAN(不限于 WGAN)为了稳定训练,都往判别器甚至生成器上都加入谱归一化了;
二是梯度惩罚(Gradient Penalty,GP),其中有包括以 1 为中心的惩罚(WGAN-GP)和以 0 为中心的惩罚(WGAN-div)两种,可以参考WGAN-div:一个默默无闻的 WGAN 填坑者,目前的结果表明零中心惩罚具有比较好的理论性质和效果。
效果 ≠ 近似
事实上“WGAN 并没有很好近似 Wasserstein 距离”这个现象也不是第一次被关注了,比如 2019 年就有论文《How Well Do WGANs Estimate the Wasserstein Metric?》[6] 系统地讨论过这一点。而本文要介绍的论文,则通过比较严谨地设置实验来确定 WGAN 效果的好坏与 Wasserstein 距离近似程度的联系。
首先,论文比较了梯度惩罚(GP)与一种称为 的方法在实现WGAN时的效果。 同样提出自论文《How Well Do WGANs Estimate the Wasserstein Metric?》[6] ,它相比梯度惩罚能更好地近似 Wasserstein 距离。下面两个图也表明了这一点:
然而, 的生成效果,却并不如梯度惩罚:
当然,原论文选这个图真是让人哭笑不得,事实上 WGAN-GP 的效果可以比上面右图好得多。于是,我们可以暂时下结论:
效果好的 WGAN 在训练过程中并没有很好地近似 Wasserstein 距离;
更好地近似 Wasserstein 距离究竟对提升生成效果并没有帮助。
理论 ≠ 实验
现在就让我们来思考一下问题出在哪。我们知道,不管是原始 (2)还是 (3)又或者其他 GAN,在实验的时候,都有两个共同特点:
和 是交替训练的;
每次都只是随机选一个 batch 来训练。
这两点有什么问题呢?
第一,其实几乎所有的 GAN 都会写成 ,这是因为理论上来说,需要先精确完成 ,然后再去 ,才是在优化 GAN 对应的概率度量,如果只是交替优化,那么理论上就不可能很精确地逼近概率度量。
哪怕 WGAN 因为用了 Wasserstein 距离不怕消失,所以交替训练时通常会多训练几步 D(或者 D 用更大的学习率),但依旧不可能精确逼近 Wasserstein 距离,这是差距来源之一。
第二,随机采样一个 batch 来训练,而不是全量训练样本,这导致的一个结果是“训练集里边随机选两个 batch 的 Wasserstein 距离,还大于训练集的 batch 与其平均样本之间的 Wasserstein 距离”,如下图所示:
▲ 左:真实样本batch,中:平均样本,右:样本聚类中心。看Wasserstein距离的话,真实样本还不如后面两个模糊样本
这就说明了,基于 batch 训练的情况下,如果你希望得到更真实的样本,那么必然不是在优化 Wasserstein 距离,如果你在很精确地优化 Wasserstein 距离,那么就得不到更真实的样本,因为模糊的平均样本的 Wasserstein 距离还更小。
数学 ≠ 视觉
从数学上来看,Wasserstein 距离的性质确实是非常漂亮的,某种意义上来说它是度量任意两个分布之间差距的最佳方案。但是数学归数学,Wasserstein 距离最“致命”的地方在于它是依赖于具体的度量的:
也就是说,我们需要给定一个能度量两个样本差距的函数 d(x,y)。然而,对于很多场景,比如两张图片,度量函数的设计本身就是难中之难。WGAN 直接使用了欧氏距离 ,尽管在数学上是合理的,但在视觉效果上却是不合理的,我们肉眼认为的两张更相似的图片,它的欧氏距离未必更小。
所以如果很精确地去近似 Wasserstein 距离,反而会带来视觉效果上的变差。原论文也做了实验,通过 对 Wasserstein 距离做更好的近似,那么模型的生成效果其实跟 K-Means 聚类中心是类似的,而 K-Means 也正是使用了欧式距离作为度量:
▲ c-transform效果与K-Means的相似性
所以,现在 WGAN 成功的原因就很迷了:WGAN 是基于 Wasserstein 距离推导出来的,然后在实现上却跟 Wasserstein 距离有点差距,而这个差距很可能才是 WGAN 成功的关键。
原论文认为 WGAN 的最关键之处是引入了 L 约束,往任意一个 GAN 变种里边引入 L 约束(谱归一化或梯度惩罚),多多少少都能使得效果和稳定性有点提升,因此 L 约束才是提升的要点,而并不是想象中的 Wasserstein 距离。
但这更多的只是一个结论,还不是理论上的分析。看来对 GAN 的深入理解,还是任重而道远。
简单的总结
本文主要分享了最近的一篇论文,里边指出对 Wasserstein 距离的近似与否,跟 WGAN 的效果好坏并没有必然联系,如何更好地理解 GAN 的理论与实践,依然是一种艰难的任务。
参考文献
[1] https://arxiv.org/abs/2103.01678
[2] https://arxiv.org/abs/1701.04862
[3] https://zhuanlan.zhihu.com/p/25071913
[4] https://kexue.fm/tag/GAN/
[5] https://arxiv.org/abs/1701.07875
[6] https://arxiv.org/abs/1910.03875
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
???? 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
???? 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
WGAN的成功,可能跟Wasserstein距离没啥关系相关推荐
- 当支持向量机遇上神经网络:这项研究揭示了SVM、GAN、Wasserstein距离之间的关系...
选自arXiv 作者:Alexia Jolicoeur-Martineau 编辑:小舟.蛋酱 转载自公众号:机器之心 SVM 是机器学习领域的经典算法之一.如果将 SVM 推广到神经网络,会发生什么呢 ...
- svm分类代码_当支持向量机遇上神经网络:SVM、GAN距离之间的关系
选自arXiv 作者:Alexia Jolicoeur-Martineau 编辑:小舟.蛋酱 SVM 是机器学习领域的经典算法之一.如果将 SVM 推广到神经网络,会发生什么呢? 支持向量机(Supp ...
- 从Wasserstein距离、对偶理论到WGAN
作者丨苏剑林 单位丨广州火焰信息科技有限公司 研究方向丨NLP,神经网络 个人主页丨kexue.fm 2017 年的时候笔者曾写过互怼的艺术:从零直达WGAN-GP,从一个相对通俗的角度来介绍了 WG ...
- wasserstein距离_EMD(earth mover#x27;s distances)距离
对于离散的概率分布,Wasserstein距离也被描述为推土距离(EMD).如果我们将分布想象为两个有一定存土量的土堆,那么EMD就是将一个土堆 转换 为另一个土堆所需的最小总工作量.工作量的定义是 ...
- 使用Wasserstein距离鉴别器的无监督图对齐
来源:专知本文为论文,建议阅读5分钟 图对齐的目的是识别跨多个图的节点对应,这在各个领域具有重要意义. 图对齐的目的是识别跨多个图的节点对应,这在各个领域具有重要意义.由于监督信息往往是不可获取的,无 ...
- Wasserstein距离在生成模型中的应用
作者丨黄若孜 学校丨复旦大学软件学院硕士生 研究方向丨推荐系统 前言 本文是关于 Wasserstein 距离在生成模型中的应用的一个总结,第一部分讲 Wasserstein 距离的定义和性质,第二部 ...
- 信息量、熵、交叉熵、KL散度、JS散度、Wasserstein距离
信息量.熵.交叉熵.KL散度.JS散度 文章目录 信息量.熵.交叉熵.KL散度.JS散度 前言 一.信息量 二.熵 三.交叉熵 四.KL散度 五.JS散度 六. Wasserstein距离 1.解决的 ...
- 区别:KL散度,JS散度,Wasserstein距离(EMD)
1 .KL散度(相对熵): 性质: ①描述两个概率分布P,Q之间的差异 ②非负性:当且仅当两分布相同,相对熵等于0 ③非对称性:D(p||q)≠D(q||p) ④不是距离,且不满足三角不等式 ⑤相对熵 ...
- KL,JS,Wasserstein距离
最近在学GAN和WGAN,遇到了KL散度,JS散度,Wasserstein距离(又叫EM距离)三个衡量概率分布相似度的度量方法.虽然之前也有接触KL,但是为了以后查找方便,还是决定做个记录总结. 本博 ...
最新文章
- 深度丨深度强化学习研究的短期悲观与长期乐观(长文)
- Spring boot的Thymeleaf使用
- iOS拓展---碰到奇葩需求
- poj 1265-Area解题报告
- 日志查找常用命令-超实用
- linux 日志输出中文乱码_linux 日志中文乱码
- 解除移动硬盘或u盘的占用无法安全弹出问题
- 计算机电路板工作原理,电磁炉万能电路板工作原理(图)
- PHP工程师接私单操作流程
- 学习笔记28(凹凸贴图,法线贴图,位移贴图)
- 根据订单号查询并复制一行
- 织梦Dedecms主要文件夹目录及模板文件说明
- 图片生成 php源码_php图像验证码生成代码
- C# CultureInfo列表
- pipeline入门(课程贴-未实践)
- 小程序复制文字、保存图片
- 广州昊志,深圳爱贝科电主轴常用巴鲁夫BALLUAF电感式开关BES03Z8 、BES00FW 、BES00FT、BES00HJ参数
- MegaFace 人脸数据集 戴眼镜数据集
- docker容器优雅停机
- fhuidalshfj
热门文章
- 云原生架构下的持续交付实践
- webbrowser控件 有数据 但页面空白_如何在Excel中实现可以切换不同数据系列的滚珠图?...
- Ajax系列之三:UpdatePanel
- 第一行代码:以太坊(1)-创建自己的私有区块链
- Python基础(三)深浅拷贝、函数、文件处理、三元运算、递归、冒泡排序
- mysql的部分命令图解
- WM_CTLCOLOR消息
- hdu 2025 查找最大元素 (水)
- 【转】Scott_ASP.NET MVC框架(第三部分) 把ViewData从控制器传到视图
- 文件 在线压缩 技术