为什么交叉熵可以用来当损失

主要写一下思路,不做具体的详解。
1. 信息量-log(p)---->信息熵-plog(p) (信息量的期望)
    此时只有一个分布
2. 进一步引入KL散度,此时是两个分布了,此时用p表示真实分布,q表示预测的分布
      plog(p/q)

KL散度又称为相对熵,或者信息增益,两个概率分布P和q差别的非对称性的度量

3. 在机器学习和深度学习中,我们所希望的就是模型学习到的分布Pmodel尽可能的接近于数据真实的分布Preal。

那么根据KL散度,我们最小化 Pmodel和Ptraining的KL散度即可。

然后我们对KL散度做一个变化如下,公式中p就表示Ptraining,q就表示模型学习导的分布Pmodel。

在机器(深度)学习中,训练数据的分布p(x)已经固定下来,那么 是一个定值,因此我们最小化KL散度,就近似等于最小化交叉熵

优化交叉熵损失,等价于优化KL散度,表示的是用预测的分布q来表示真实分布p所带来的信息量的损失,是从信息熵的角度来进行衡量的。

如果预测分布越接近于真实的分布,那么这个信息量的损失就应该尽可能小,当这个信息量的损失最小的时候,我们就可以认为预测的分布是近似于实际的分布的。

与MMD的区别

首先先介绍一下MMD距离

1.我们可以用随机变量的矩来描述一个随机变量,比如一阶中心矩是均值,二阶中心矩是方差等等。如果两个分布的均值和方差都相同的话,它们应该很相似,比如同样均值和方差的高斯分布和拉普拉斯分布。但是很明显,均值和方差并不能完全代表一个分布,这时候我们就需要更高阶的矩来描述一个分布。

2.MMD的基本思想就是,如果两个随机变量的任意阶都相同的话,那么两个分布就是一致的。而当两个分布不相同的话,那么使得两个分布之间差距最大的那个矩应该被用来作为度量两个分布的标准。

3.进一步地,就是通过一个核函数,将两个随机变量映射到同一个域,并且使这两个随机变在这个域的均值距离最大,然后这个距离就可以用来衡量两个随机变量分布的距离。

一句话总结MMD的大致过程:求两堆数据在高维空间(找到一个映射到高维的核函数f)中的均值的距离,不过这个高维空间必须最能体现出两个分布均值的差异(即最大均值差异) ,是一种核学习方法

介绍了KL散度和MMD,那么两者的区别就比较容易理解了:

为什么交叉熵可以用来当损失?与MMD的区别?相关推荐

  1. 均方误差越大越好_直观理解为什么分类问题用交叉熵损失而不用均方误差损失?...

    交叉熵损失与均方误差损失 常规分类网络最后的softmax层如下图所示,传统机器学习方法以此类比, 一共有\(K\)类,令网络的输出为\([\hat{y}_1,\dots, \hat{y}_K]\), ...

  2. 相对熵与交叉熵_详解机器学习中的熵、条件熵、相对熵、交叉熵

    目录 信息熵 条件熵 相对熵 交叉熵 总结 一  信息熵 (information entropy) 熵 (entropy) 这一词最初来源于热力学.1948年,克劳德·爱尔伍德·香农将热力学中的熵引 ...

  3. 交叉熵损失函数原理详解,KL散度

    https://blog.csdn.net/b1055077005/article/details/100152102 https://blog.csdn.net/tsyccnh/article/de ...

  4. 为什么交叉熵(cross-entropy)可以用于计算代价?

    先给出一个"接地气但不严谨"的概念表述: 熵:可以表示一个事件A的自信息量,也就是A包含多少信息. KL散度:可以用来表示从事件A的角度来看,事件B有多大不同. 交叉熵:可以用来表 ...

  5. 信息量、信息熵、KL散度、交叉熵

    一.信息量 定义: 香农(C. E. Shannon)信息论应用概率来描述不确定性.信息是用不确定性的量度定义的.一个消息的可能性愈小,其信息愈多:而消息的可能性愈大,则其信息量愈少:事件出现的概率小 ...

  6. Pytorch深度学习笔记(02)--损失函数、交叉熵、过拟合与欠拟合

    目录 一.损失函数 二.交叉熵损失函数详解 1.交叉熵 2.信息量 3.信息熵 4.相对熵(KL散度) 5.交叉熵 6.交叉熵在单分类问题中的应用 7.总结: 三.过拟合和欠拟合通俗解释 1.过拟合 ...

  7. 损失函数-交叉熵的推导和二分类交叉熵

    交叉熵 期望: 期望就是所有随机变量的均值. E(X)=X1*P(X1)+X2*P(X2)+X3*P(X3) 熵: 熵表示所有信息量的期望. 信息量如何计算呢? 概率值取Log,然后加个负号,就是信息 ...

  8. 动手学深度学习——softmax回归之OneHot、softmax与交叉熵

    目录 一.从回归到多类分类 1. 回归估计一个连续值 2. 分类预测一个离散类别 二.独热编码OneHot 三.校验比例--激活函数softmax 四.损失函数--交叉熵 五.总结 回归可以用于预测多 ...

  9. 解释机器学习中的熵、联合熵、条件熵、相对熵和交叉熵

    原文地址:https://www.cnblogs.com/kyrieng/p/8694705.html 1.信息熵 (information entropy) 熵 (entropy) 这一词最初来源于 ...

最新文章

  1. java arraylist 序列化_专题二、ArrayList序列化技术细节详解
  2. ASP.NET MVC 音乐商店 - 1 创建项目
  3. 中兴高达和中兴啥关系_41家通信传输设备公司研发投入排名:中兴通讯、烽火通信最敢投...
  4. VTK:平行坐标视图用法实战
  5. [html] html5的游戏引擎你了解多少?都有哪些比较好用的引擎呢?
  6. java mvc 导出excel_Java springMVC POI 导出 EXCEL
  7. mac系统用什么linux远程工具,推荐几个Mac/Linux下比较好用的工具
  8. 利用python进行回归分析
  9. kaggle之共享单车案例
  10. 面试时候HR问你的职业规划?
  11. 19-21Consent Page页实现
  12. 凸集函数之基本属性和示例
  13. Java并发技术学习总结
  14. java abc排序_Java实现按照大小写字母顺序排序的方法
  15. 你浏览器的书签栏还够用么? - 程序员学点xx 特辑
  16. 魔兽世界服务器卡顿原理,暴雪解释《魔兽世界》怀旧服卡顿原因 这款插件你还在用吗?...
  17. 分布式系统下的纠删码技术(一) -- Erasure Code (EC)
  18. 什么是3D偏差分析?浩辰3D偏差分析应用技巧
  19. 计算机毕设 SpringBoot+Vue民宿管理系统 民宿预订系统 智能民宿系统 民宿订房系统Java Vue MySQL数据库 远程调试 代码讲解
  20. Deep InfoMax (DIM)

热门文章

  1. 当mathpix 免费次数用完了怎么办?
  2. 《电子商务与企业经营管理》
  3. 香港中文大学9(深圳)医学院李丛磊组招收博后/科研助理/博士生
  4. 博阳全渠道会员营销平台-升级通知
  5. lol无限乱斗服务器,LOL2019新模式无限乱斗怎么玩 LOL无限乱斗玩法攻略
  6. 速卖通商品详情API接口(商品详情页面数据接口)
  7. python识别人脸的年龄和性别_人脸识别是如何判断性别和年龄的?
  8. 微信小程序中,将一张图设置成背景图的几种方式
  9. 电磁场与仿真软件(35)
  10. JAVA判断当前日期是否是工作日,还是节假日