对于连续型随机变量,假设P为随机变量X的概率分布,则p(x)为随机变量X在X = x处的概率
三者都是用来衡量两个概率分布P(x)和Q(x)之间的差异性的指标

KL散度
KL散度(Kullback–Leibler divergence)又称KL距离,相对熵。D(P∣∣Q)=∫−∞∞P(x)logP(x)Q(x)D(P||Q)=\int_{-\infty}^\infty P(x)log\frac{P(x)}{Q(x)}D(P∣∣Q)=∫−∞∞​P(x)logQ(x)P(x)​

  • 不对称性:即D(P||Q)!=D(Q||P)
  • 非负性:即D(P||Q)>0
  • P(x)和Q(x)的相似度越高,KL散度越小。

JS散度
JS散度(Jensen-Shannon divergence)也称JS距离,是KL散度的一种变形。
JS(P∣∣Q)=12KL(P(x)∣∣P(x)+Q(x)2)+12KL(Q(x)∣∣P(x)+Q(x)2)JS(P||Q)=\frac{1}{2}KL(P(x)||\frac{P(x)+Q(x)}{2})+\frac{1}{2}KL(Q(x)||\frac{P(x)+Q(x)}{2})JS(P∣∣Q)=21​KL(P(x)∣∣2P(x)+Q(x)​)+21​KL(Q(x)∣∣2P(x)+Q(x)​)

  • 值域范围:JS散度的值域范围是[0,1],相同为0,相反为1。
  • 对称性:JS(P||Q)=JS(Q||P)

信息熵

  • 随机变量X在x处的香农信息量为:−log(p(x))-log(p(x))−log(p(x)),确定性越大,信息量越小。
  • 信息熵H(p)H(p)H(p)是香农信息量−log(p(x))-log(p(x))−log(p(x))的数学期望,即所有 X= x 处的香农信息量的和,由于每一个x的出现概率不一样,需要用p(x) 加权求和。H(P)=−P(x)logP(x)H(P)=-P(x)logP(x)H(P)=−P(x)logP(x)信息熵是用于刻画消除随机变量X的不确定性所需要的总体信息量的大小。

交叉熵(Cross Entropy)
在神经网络中,交叉熵可以作为损失函数,因为它可以衡量P和Q的相似性。H(P,Q)=−P(x)logQ(x)H(P,Q)=-P(x)logQ(x)H(P,Q)=−P(x)logQ(x)
交叉熵和相对熵的关系:D(P∣∣Q)=H(P,Q)−H(P)D(P||Q)=H(P,Q)-H(P)D(P∣∣Q)=H(P,Q)−H(P)

KL散度、JS散度和交叉熵相关推荐

  1. 【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度

    1 信息熵 熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质 单调性,发生概率越高的事件,其 ...

  2. 信息量、熵、交叉熵、KL散度、JS散度杂谈

    信息量.熵.交叉熵.KL散度.JS散度杂谈 信息量 任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同.如昨天下雨这个已知事件,因为已经发生,既定事实,那 ...

  3. 信息量、熵、交叉熵、KL散度、JS散度、Wasserstein距离

    信息量.熵.交叉熵.KL散度.JS散度 文章目录 信息量.熵.交叉熵.KL散度.JS散度 前言 一.信息量 二.熵 三.交叉熵 四.KL散度 五.JS散度 六. Wasserstein距离 1.解决的 ...

  4. 熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵

    封面镇楼 目录 一.熵 二.联合熵 三.相对熵(KL散度) 四.交叉熵 五.JS散度 六.互信息 七.条件熵 八.总结 一.熵 对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...

  5. 为什么交叉熵和KL散度在作为损失函数时是近似相等的

    来源:DeepHub IMBA 本文约900字,建议阅读5分钟 在本文中,我们将介绍熵.交叉熵和 Kullback-Leibler Divergence [2] 的概念,并了解如何将它们近似为相等. ...

  6. 信息量、信息熵、KL散度、交叉熵

    一.信息量 定义: 香农(C. E. Shannon)信息论应用概率来描述不确定性.信息是用不确定性的量度定义的.一个消息的可能性愈小,其信息愈多:而消息的可能性愈大,则其信息量愈少:事件出现的概率小 ...

  7. “交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”

    [本文内容是对下面视频的整理和修正] "交叉熵"如何做损失函数?打包理解"信息量"."比特"."熵"."KL散 ...

  8. python衡量数据分布的相似度/距离(KL/JS散度)

    背景 很多场景需要考虑数据分布的相似度/距离:比如确定一个正态分布是否能够很好的描述一个群体的身高(正态分布生成的样本分布应当与实际的抽样分布接近),或者一个分类算法是否能够很好地区分样本的特征(在两 ...

  9. KL散度、JS散度与wasserstein距离

    KL散度 KL散度又称为相对熵,信息散度,信息增益.公式定义如下: KL散度可称为KL距离,但它并不满足距离的性质: (1)KL散度不是对称的: (2)KL散度不满足三角不等式. JS散度 JS散度度 ...

  10. KL/JS散度及Python实现

    1. KL散度与JS散度的公式与代码的简要实现 import numpy as np import scipy.stats as ss np.random.seed(42)# 随机生成:两个离散分布 ...

最新文章

  1. swift 中showAlertTitle的使用
  2. java判断一个对象是否为空_Java中判断对象是否为空的方法的详解
  3. 阿里云oss云存储图片上传在wangEditor富文本编辑器上的集成
  4. Hibernate Validation与Spring整合各注解的用法Demo
  5. sqlserver中实现split分割字符串函数
  6. 10.16 多校联测
  7. Linux 下mysql5.7安装搬运 该安装说明坑最少
  8. Android httpUrlConnection的基本使用
  9. 第三次学JAVA再学不好就吃翔(part77)--迭代器遍历
  10. 交公粮了:国庆在家我都逛哪些技术网站?
  11. lodash 数组元素查找 findIndex
  12. 黄哲铿:妙用“缓存”,应对亿级流量峰值(文末赠书)
  13. RocketMQ的一些基本概念和RocketMQ特性的讲解
  14. JQUERY1.9学习笔记 之内容过滤器(三) has选择器
  15. mysql workbench第二栏图标中英文意思
  16. HTML 列表 olullidldtdd
  17. matlab 多维svm分类代码,SVM多分类(matlab)
  18. 2022美国大学生数学建模竞赛(美赛)思路代码
  19. layui框架静态表格怎么写
  20. 小说php 站点源码下载,PTCMS小说站源码

热门文章

  1. 复变函数论里的欧拉公式
  2. python 求解二次规划(quadprog)
  3. 天天生鲜(Django4.0版本) + 开发遇到的问题及解决
  4. 小米无线网卡linux,NanoPi NEO安装小米随身WiFi
  5. Chrome 离线下载最佳方法
  6. js 中json对象转字符串
  7. Vivado的安装以及使用_入门
  8. QT5.11安装教程
  9. AdBlock插件自定义拦截规则
  10. 银行转账java代码事务实现_Spring事务银行转账示例