原文地址:https://www.cnblogs.com/kyrieng/p/8694705.html

1、信息熵 (information entropy)

熵 (entropy) 这一词最初来源于热力学。1948年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,所以也被称为香农熵 (Shannon entropy),信息熵 (information entropy)。本文只讨论信息熵。首先,我们先来理解一下信息这个概念。信息是一个很抽象的概念,百度百科将它定义为:指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容。那信息可以被量化么?可以的!香农提出的“信息熵”概念解决了这一问题。

一条信息的信息量大小和它的不确定性有直接的关系。我们需要搞清楚一件非常非常不确定的事,或者是我们一无所知的事,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们就不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。比如,有人说广东下雪了。对于这句话,我们是十分不确定的。因为广东几十年来下雪的次数寥寥无几。为了搞清楚,我们就要去看天气预报,新闻,询问在广东的朋友,而这就需要大量的信息,信息熵很高。再比如,中国男足进军2022年卡塔尔世界杯决赛圈。对于这句话,因为确定性很高,几乎不需要引入信息,信息熵很低。

考虑一个离散的随机变量 xx,由上面两个例子可知,信息的量度应该依赖于概率分布 p(x),因此我们想要寻找一个函数 I(x),它是概率 p(x) 的单调函数,表达了信息的内容。怎么寻找呢?如果我们有两个不相关的事件 x 和 y,那么观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和,即:

因为两个事件是独立不相关的,因此 p(x,y)=p(x)p(y)。根据这两个关系,很容易看出 I(x)一定与 p(x) 的对数有关 (因为对数的运算法则是。因此,我们有

其中负号是用来保证信息量是正数或者零。而 log 函数基的选择是任意的(信息论中基常常选择为2,因此信息的单位为比特bits;而机器学习中基常常选择为自然常数,因此单位常常被称为奈特nats)。I(x) 也被称为随机变量 x 的自信息 (self-information),描述的是随机变量的某个事件发生所带来的信息量。图像如图:

最后,我们正式引出信息熵。 现在假设一个发送者想传送一个随机变量的值给接收者。那么在这个过程中,他们传输的平均信息量可以通过求 关于概率分布 p(x)p(x) 的期望得到,即:

H(X) 就被称为随机变量 x 的熵,它是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望

从公式可得,随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大,且 0≤H(X)≤logn。稍后证明。将一维随机变量分布推广到多维随机变量分布,则其联合熵 (Joint entropy) 为:

注意点:1、熵只依赖于随机变量的分布,与随机变量取值无关,所以也可以将 X 的熵记作 H(p)。2、令0log0=0(因为某个取值概率可能为0)。

那么这些定义有着什么样的性质呢?考虑一个随机变量 x。这个随机变量有4种可能的状态,每个状态都是等可能的。为了把 xx 的值传给接收者,我们需要传输2比特的消息。

现在考虑一个具有4种可能的状态 {a,b,c,d}的随机变量,每个状态各自的概率为

这种情形下的熵为:

我们可以看到,非均匀分布比均匀分布的熵要小。现在让我们考虑如何把变量状态的类别传递给接收者。与之前一样,我们可以使用一个2比特的数字来完成这件事情。然而,我们可以利用非均匀分布这个特点,使用更短的编码来描述更可能的事件,使用更长的编码来描述不太可能的事件。我们希望这样做能够得到一个更短的平均编码长度。我们可以使用下面的编码串(哈夫曼编码):0、10、110、111来表示状态 {a,b,c,d}。传输的编码的平均长度就是:

这个值与上方的随机变量的熵相等。熵和最短编码长度的这种关系是一种普遍的情形。Shannon 编码定理https://baike.baidu.com/item/Shannon%20%E7%BC%96%E7%A0%81%E5%AE%9A%E7%90%86/15585931?fr=aladdin 表明熵是传输一个随机变量状态值所需的比特位下界(最短平均编码长度)。因此,信息熵可以应用在数据压缩方面。这里这篇文章http://www.ruanyifeng.com/blog/2014/09/information-entropy.html讲的很详细了,我就不赘述了。

证明0≤H(X)≤logn

利用拉格朗日乘子法证明:

因为 p(1)+p(2)+⋯+p(n)=1p(1)+p(2)+⋯+p(n)=1

所以有

2、条件熵 (Conditional entropy)

条件熵 H(Y|X) 表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。条件熵 H(Y|X) 定义为 X 给定条件下 Y 的条件概率分布的熵对  X 的数学期望:


条件熵 H(Y|X)相当于联合熵 H(X,Y)减去单独的熵 H(X),即

H(Y|X)=H(X,Y)−H(X),证明如下:

举个例子,比如环境温度是低还是高,和我穿短袖还是外套这两个事件可以组成联合概率分布 H(X,Y),因为两个事件加起来的信息量肯定是大于单一事件的信息量的。假设 H(X) 对应着今天环境温度的信息量,由于今天环境温度和今天我穿什么衣服这两个事件并不是独立分布的,所以在已知今天环境温度的情况下,我穿什么衣服的信息量或者说不确定性是被减少了。当已知 H(X)这个信息量的时候,H(X,Y) 剩下的信息量就是条件熵:

H(Y|X)=H(X,Y)−H(X)

因此,可以这样理解,描述 X 和 Y 所需的信息是描述 X 自己所需的信息,加上给定  X 的条件下具体化  Y 所需的额外信息。关于条件熵的例子可以看这篇文章,讲得很详细。https://zhuanlan.zhihu.com/p/26551798

3、信息增益

信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好,在概率中定义为:待分类的集合的熵和选定某个特征的条件熵之差(这里只的是经验熵或经验条件熵,由于真正的熵并不知道,是根据样本计算出来的),公式如下:

                

注意:这里不要理解偏差,因为上边说了熵是类别的,但是在这里又说是集合的熵,没区别,因为在计算熵的时候是根据各个类别对应的值求期望来等到熵。

4、相对熵 (Relative entropy),也称KL散度 (Kullback–Leibler divergence)

设 p(x)、q(x)是 离散随机变量 X 中取值的两个概率分布,则 p 对 q 的相对熵是:

性质:

1、如果 p(x) 和 q(x)两个分布相同,那么相对熵等于0

2、,相对熵具有不对称性。大家可以举个简单例子算一下。

3、证明如下(利用Jensen不等式https://en.wikipedia.org/wiki/Jensen%27s_inequality):

因为:

所以:

总结:相对熵可以用来衡量两个概率分布之间的差异,上面公式的意义就是求 p 与 q之间的对数差在 p 上的期望值

5、交叉熵 (Cross entropy)

现在有关于样本集的两个概率分布 p(x) 和 q(x),其中  p(x)为真实分布, q(x)非真实分布。如果用真实分布p(x) 来衡量识别一个样本所需要编码长度的期望(平均编码长度)为:

如果使用非真实分布 q(x)来表示来自真实分布 p(x)的平均编码长度,则是:。(因为用 q(x)来编码的样本来自于分布 q(x) ,所以 H(p,q) 中的概率是 p(x))。此时就将H(p,q) 称之为交叉熵。举个例子。考虑一个随机变量 x,真实分布p(x)=(1/2,1/4,1/8,1/8),非真实分布 q(x)=(1/4,1/4,1/4,1/4), 则H(p)=1.75 bits(最短平均码长),交叉熵 。由此可以看出根据非真实分布 q(x) 得到的平均码长大于根据真实分布 p(x)p(x) 得到的平均码长。

我们再化简一下相对熵的公式:

有没有发现什么?

熵的公式 

交叉熵的公式 

所以有:

(当用非真实分布 q(x)得到的平均码长比真实分布p(x) 得到的平均码长多出的比特数就是相对熵)

又因为

所以 H(p,q)≥H(p)(当 p(x)=q(x)时取等号,此时交叉熵等于信息熵)

并且当 H(p)为常量时(注:在机器学习中,训练数据分布是固定的),最小化相对熵 DKL(p||q) 等价于最小化交叉熵 H(p,q)也等价于最大化似然估计

在机器学习中,我们希望在训练数据上模型学到的分布 P(model) 和真实数据的分布 P(real) 越接近越好,所以我们可以使其相对熵最小。但是我们没有真实数据的分布,所以只能希望模型学到的分布 P(model) 和训练数据的分布 P(train)尽量相同。假设训练数据是从总体中独立同分布采样的,那么我们可以通过最小化训练数据的经验误差来降低模型的泛化误差。即:

  1. 希望学到的模型的分布和真实分布一致,P(model)≃P(real)
  2. 但是真实分布不可知,假设训练数据是从真实数据中独立同分布采样的,P(train)≃P(real)
  3. 因此,我们希望学到的模型分布至少和训练数据的分布一致,P(train)≃P(model)

根据之前的描述,最小化训练数据上的分布  P(train)与最小化模型分布 P(model) 的差异等价于最小化相对熵,即 。此时, P(train)就是中的 p,即真实分布,P(model) 就是 q。又因为训练数据的分布 p 是给定的,所以求 等价于求 H(p,q)。得证,交叉熵可以用来计算学习模型分布与训练分布之间的差异。交叉熵广泛用于逻辑回归的Sigmoid和Softmax函数中作为损失函数使用。这篇文章先不说了。

6、总结

  1. 信息熵是衡量随机变量分布的混乱程度,是随机分布各事件发生的信息量的期望值,随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大;信息熵推广到多维领域,则可得到联合信息熵;条件熵表示的是在 X 给定条件下,Y 的条件概率分布的熵对 X的期望。
  2. 相对熵可以用来衡量两个概率分布之间的差异。
  3. 交叉熵可以来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。

或者:

  1. 信息熵是传输一个随机变量状态值所需的比特位下界(最短平均编码长度)。
  2. 相对熵是指用 q 来表示分布 p  额外需要的编码长度。
  3. 交叉熵是指用分布 q 来表示本来表示分布 p 的平均编码长度。

7、参考

1、吴军《数学之美》

2、李航《统计学习方法》

3、马春鹏《模式识别与机器学习》

3、https://www.zhihu.com/question/41252833 如何通俗的解释交叉熵与相对熵

4、https://www.zhihu.com/question/65288314/answer/244557337为什么交叉熵(cross-entropy)可以用于计算代价?

5、https://baike.baidu.com/item/%E4%BA%A4%E5%8F%89%E7%86%B5/8983241?fr=aladdin 交叉熵的百度百科解释

6、https://blog.csdn.net/saltriver/article/details/53056816信息熵到底是什么

解释机器学习中的熵、联合熵、条件熵、相对熵和交叉熵相关推荐

  1. 熵 Entropy -- 香农熵、相对熵、交叉熵、条件熵

    快速概览: 香农熵 -- 熵的定义 交叉熵 -- 一般可做为分类模型的损失函数 (交叉熵是由相对熵转化过来的,交叉熵 = 相对熵 - 熵 ),对于采样的数据(训练集,熵H 是定值,故交叉熵 和 相对熵 ...

  2. 机器学习中的各种损失函数(Hinge loss,交叉熵,softmax)

    机器学习中的各种损失函数 SVM multiclass loss(Hinge loss) 这是一个合页函数,也叫Hinge function,loss 函数反映的是我们对于当前分类结果的不满意程度.在 ...

  3. 熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵

    封面镇楼 目录 一.熵 二.联合熵 三.相对熵(KL散度) 四.交叉熵 五.JS散度 六.互信息 七.条件熵 八.总结 一.熵 对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...

  4. 联合熵、条件熵、互信息、相对熵、交叉熵的详解

    本篇博客,我们将介绍联合熵.条件熵.互信息.相对熵.交叉熵,如果对熵的概念还有不清楚的朋友,可以看一下这一篇博客,信息熵是什么呢? https://blog.csdn.net/ding_program ...

  5. 信息熵,条件熵,相对熵,交叉熵

    转自详解机器学习中的熵.条件熵.相对熵和交叉熵 信息是一个很抽象的概念,百度百科中的定义: 信息是指音讯.消息.通讯系统传输和处理的对象,泛指人类社会传播的一切内容 那信息可以被量化么?可以的!香农提 ...

  6. 机器学习常见损失函数,二元交叉熵,类别交叉熵,MSE,稀疏类别交叉熵

    一 损失函数介绍 损失函数用于描述模型预测值与真实值的差距大小.一般有有两种常见的算法--均值平方差(MSE)和交叉熵.下面来分别介绍每个算法的具体内容. 1 均值平方差 均值平方差(Mean Squ ...

  7. 通俗解释机器学习中的召回率、精确率、准确率

    赶时间的同学们看这里:提升精确率是为了不错报.提升召回率是为了不漏报 网络上很多地方分不清准确率和精确率,在这里先正确区分一下精确率和准确率,以及他们的别称 切入正题 很多人分不清召回率和精确率的区别 ...

  8. 相对熵与交叉熵_熵、KL散度、交叉熵

    公众号关注 "ML_NLP"设为 "星标",重磅干货,第一时间送达! 机器学习算法与自然语言处理出品 @公众号原创专栏作者 思婕的便携席梦思 单位 | 哈工大S ...

  9. 信息量、熵、相对熵与交叉熵的理解

    一.信息量 信息奠基人香农(Shannon)认为"信息是用来消除随机不确定性的东西".也就是说衡量信息量大小就看这个信息消除不确定性的程度. "太阳从东方升起了" ...

  10. Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数

    文章目录 一.逻辑回归参数估计基本思路 1. 构建损失函数 2. 损失函数求解 二.利用极大似然估计进行参数估计 三.熵.相对熵与交叉熵 1. 熵(entropy)的基本概念与计算公式 2. 熵的基本 ...

最新文章

  1. 搭建PHP环境遇到的问题!!
  2. kuangbin专题16B(kmp模板)
  3. 人人都能搞懂的AI(四)- AI对社会的影响
  4. Cisco堆叠交换机序号的改变
  5. OA学习笔记-001-项目介绍
  6. noip2011提高组day1+day2解题报告
  7. 阿里大神的刷题笔记.pdf
  8. Java singleton初始化顺序研究
  9. Java面向对象进阶
  10. 单例模式--工厂模式
  11. response对象的使用
  12. 《软件测试》第五次作业
  13. 在PS里怎样使图层居中对齐?
  14. Jaxb2 转换XML文档
  15. 7月11日自助装机配置专家点评
  16. keil警告提示: last line of file ends without a newline
  17. 解决MySQL报ValueError(“Could not process parameters“)错误
  18. QA团队和测试团队的关系
  19. Servlet注解和可插拔性(第八篇)
  20. OSPF协议介绍➌(认证、汇总扩展、LSDB的保护特性、缺省路由、附录E、选路规则、SPF算法、NP+E位、FA地址)

热门文章

  1. HTTP协议-Cookie和Session详解
  2. 网络存储技术Windows server 2012 (项目二十二 远程异地灾备中心的部署)
  3. Python百度地图API,通过区县、村镇地址获取完整省市区行政区划
  4. 什么是多态?为什么要使用多态?什么时候用多态?多态是如何实现的?使用多态有什么好处?
  5. JavaScript数组的push()等方法的使用
  6. 线性代数(二十四) : 行列式的展开式—拉普拉斯公式
  7. 土是独体字结构吗_“之”是独体字吗?还是上体结构的合体字?
  8. 【华为机试真题 Python】跳格子游戏
  9. 数字逻辑设计基础(何建新)第三章
  10. SQLPro Studio for Mac(可视化数据库管理工具)