KL散度、JS散度和交叉熵
对于连续型随机变量,假设P为随机变量X的概率分布,则p(x)为随机变量X在X = x处的概率
三者都是用来衡量两个概率分布P(x)和Q(x)之间的差异性的指标
KL散度
KL散度(Kullback–Leibler divergence)又称KL距离,相对熵。D(P∣∣Q)=∫−∞∞P(x)logP(x)Q(x)D(P||Q)=\int_{-\infty}^\infty P(x)log\frac{P(x)}{Q(x)}D(P∣∣Q)=∫−∞∞P(x)logQ(x)P(x)
- 不对称性:即D(P||Q)!=D(Q||P)
- 非负性:即D(P||Q)>0
- P(x)和Q(x)的相似度越高,KL散度越小。
JS散度
JS散度(Jensen-Shannon divergence)也称JS距离,是KL散度的一种变形。
JS(P∣∣Q)=12KL(P(x)∣∣P(x)+Q(x)2)+12KL(Q(x)∣∣P(x)+Q(x)2)JS(P||Q)=\frac{1}{2}KL(P(x)||\frac{P(x)+Q(x)}{2})+\frac{1}{2}KL(Q(x)||\frac{P(x)+Q(x)}{2})JS(P∣∣Q)=21KL(P(x)∣∣2P(x)+Q(x))+21KL(Q(x)∣∣2P(x)+Q(x))
- 值域范围:JS散度的值域范围是[0,1],相同为0,相反为1。
- 对称性:JS(P||Q)=JS(Q||P)
信息熵
- 随机变量X在x处的香农信息量为:−log(p(x))-log(p(x))−log(p(x)),确定性越大,信息量越小。
- 信息熵H(p)H(p)H(p)是香农信息量−log(p(x))-log(p(x))−log(p(x))的数学期望,即所有 X= x 处的香农信息量的和,由于每一个x的出现概率不一样,需要用p(x) 加权求和。H(P)=−P(x)logP(x)H(P)=-P(x)logP(x)H(P)=−P(x)logP(x)信息熵是用于刻画消除随机变量X的不确定性所需要的总体信息量的大小。
交叉熵(Cross Entropy)
在神经网络中,交叉熵可以作为损失函数,因为它可以衡量P和Q的相似性。H(P,Q)=−P(x)logQ(x)H(P,Q)=-P(x)logQ(x)H(P,Q)=−P(x)logQ(x)
交叉熵和相对熵的关系:D(P∣∣Q)=H(P,Q)−H(P)D(P||Q)=H(P,Q)-H(P)D(P∣∣Q)=H(P,Q)−H(P)
KL散度、JS散度和交叉熵相关推荐
- 【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度
1 信息熵 熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质 单调性,发生概率越高的事件,其 ...
- 信息量、熵、交叉熵、KL散度、JS散度杂谈
信息量.熵.交叉熵.KL散度.JS散度杂谈 信息量 任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同.如昨天下雨这个已知事件,因为已经发生,既定事实,那 ...
- 信息量、熵、交叉熵、KL散度、JS散度、Wasserstein距离
信息量.熵.交叉熵.KL散度.JS散度 文章目录 信息量.熵.交叉熵.KL散度.JS散度 前言 一.信息量 二.熵 三.交叉熵 四.KL散度 五.JS散度 六. Wasserstein距离 1.解决的 ...
- 熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
封面镇楼 目录 一.熵 二.联合熵 三.相对熵(KL散度) 四.交叉熵 五.JS散度 六.互信息 七.条件熵 八.总结 一.熵 对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...
- 为什么交叉熵和KL散度在作为损失函数时是近似相等的
来源:DeepHub IMBA 本文约900字,建议阅读5分钟 在本文中,我们将介绍熵.交叉熵和 Kullback-Leibler Divergence [2] 的概念,并了解如何将它们近似为相等. ...
- 信息量、信息熵、KL散度、交叉熵
一.信息量 定义: 香农(C. E. Shannon)信息论应用概率来描述不确定性.信息是用不确定性的量度定义的.一个消息的可能性愈小,其信息愈多:而消息的可能性愈大,则其信息量愈少:事件出现的概率小 ...
- “交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”
[本文内容是对下面视频的整理和修正] "交叉熵"如何做损失函数?打包理解"信息量"."比特"."熵"."KL散 ...
- python衡量数据分布的相似度/距离(KL/JS散度)
背景 很多场景需要考虑数据分布的相似度/距离:比如确定一个正态分布是否能够很好的描述一个群体的身高(正态分布生成的样本分布应当与实际的抽样分布接近),或者一个分类算法是否能够很好地区分样本的特征(在两 ...
- KL散度、JS散度与wasserstein距离
KL散度 KL散度又称为相对熵,信息散度,信息增益.公式定义如下: KL散度可称为KL距离,但它并不满足距离的性质: (1)KL散度不是对称的: (2)KL散度不满足三角不等式. JS散度 JS散度度 ...
- KL/JS散度及Python实现
1. KL散度与JS散度的公式与代码的简要实现 import numpy as np import scipy.stats as ss np.random.seed(42)# 随机生成:两个离散分布 ...
最新文章
- swift 中showAlertTitle的使用
- java判断一个对象是否为空_Java中判断对象是否为空的方法的详解
- 阿里云oss云存储图片上传在wangEditor富文本编辑器上的集成
- Hibernate Validation与Spring整合各注解的用法Demo
- sqlserver中实现split分割字符串函数
- 10.16 多校联测
- Linux 下mysql5.7安装搬运 该安装说明坑最少
- Android httpUrlConnection的基本使用
- 第三次学JAVA再学不好就吃翔(part77)--迭代器遍历
- 交公粮了:国庆在家我都逛哪些技术网站?
- lodash 数组元素查找 findIndex
- 黄哲铿:妙用“缓存”,应对亿级流量峰值(文末赠书)
- RocketMQ的一些基本概念和RocketMQ特性的讲解
- JQUERY1.9学习笔记 之内容过滤器(三) has选择器
- mysql workbench第二栏图标中英文意思
- HTML 列表 olullidldtdd
- matlab 多维svm分类代码,SVM多分类(matlab)
- 2022美国大学生数学建模竞赛(美赛)思路代码
- layui框架静态表格怎么写
- 小说php 站点源码下载,PTCMS小说站源码