本文是在研究KL散度的图中又巩固了一下信息熵,KL散度是机器学习中经常会遇到的度量方法,它度量了两个分布之间的距离,它来源于信息熵,也是香农信息论的产物之一。

(本文参考资料:

https://www.dazhuanlan.com/2019/08/29/5d66f40a70e43/ 有关KL散度的介绍和详细推导

https://www.cnblogs.com/daguonice/p/11179662.html 信息熵的简单理解

以及他们的引用文章)

信息熵


信息熵是一个很玄乎的东西,他(香农)很聪明的描述了一个事物包含的信息。

什么是信息熵?


信息熵描述了一个事件的不确定性熵是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望。所谓不确定性,我们可以把它理解成可能性。这个定义我们可以反向理解:

信息的意义是消除不确定性。- 这句话很好理解吧 - 这句话理解起来没问题吧。那你看我前面说的是不是废话,你觉得这是无用信息,因为它没有传递出更多的内容,对不确定性的消除为0。

下面我们看一个例子:

某日,郭逼说:“今天太阳东边升起!”

我:“...”

我很无语,因为这句话没有信息,太阳从东边升起本身就是一个发生概率基本为100%的事件,这个事件没有其他的信息。而如果:

某日,郭逼说:“今天太阳西边升起!!!”

我:“???”

我感到很震惊,为什么太阳会从西边升起?这可能是因为:地球反转太阳换位置郭逼疯了郭逼傻了,etc.

那么这句话的信息量十分大,因为郭逼说出这句话的前提有多种可能性,也就是所谓的“信息量很大”

也就是说,如果一个事件的信息量越大,那么对应的信息熵也越大

有一个非常好的视频也推荐给大家:https://www.zhihu.com/question/22178202

总结一下视频内容:

如果我们要通过1斤肉块,去测量5斤大米有多重,我们会说,这袋大米有5个肉块那么沉。

同样的,我们要通过一个已知信息事件,去测量待测事件信息。如:

我们已知一个抛硬币正反面的信息(2个不确定性)可通过1个bit表示,我们如何测量掷一个色子的信息?

一个筛子的可能性有6种,所以 1个掷色子的信息量 = 3 个抛硬币的信息量

错!因为他们之间不是简单的加 减运算,而是指数运算,抛3个硬币会产生个不确定的结果,所以最终我们使用log2的关系去衡量他们的结果,所以掷色子的信息量是。但前提是:每种不确定性都是等可能性的!

如果概率不相等呢?我们继续讨论。

信息熵的建模


于是,我们开始对信息熵进行建模,假设:

郭逼说:太阳从西边升起 这个事件为X事件,则引起这个事件的原因可能为X1, X2, X3, ..., XN

我们假设事件X的原因(或者可能性或者不确定性)为集合{X1, X2, X3, ..., XN},且xi之间互相独立不相关,那么我们使用

代表事件xi的信息熵,则两个互相独立事件同时发生的信息熵为:

在这个定义下,我们可以联想到条件概率:

这说明 H → P 之间的关系可以用log函数来表示。而我们在思考问题时, 我们认为发生概率越小的事情,信息熵越大。那么信息熵的表示应为一个单调递减函数。

结合上面抛硬币的例子,我们继续思考:

对于抛硬币事件,它的信息量是1bit,那么对于一个发生概率为16.5%的事件,它的信息量是多少?

思考:对于发生概率为1%的事件,可以看作一个事件A对应的100种等可能事件(事件集合B = {B1, ..., B100})的一份,则我们可以沿用等可能事件的算法,算出A事件的信息量为  ,而A事件可以看作所有等可能事件的加权平均,所以B集合中任意一个事件的信息熵为:

这时我们突然发现,计算信息熵的公式就在眼前:

如果不用bit,这里的log2可以是任意对数函数。注意:这里A描述了一个事件

而对随机变量 X 而言,它有各种不确定性,包含了{x1, ..., xn}个事件,则随机变量X的信息熵为:

,

即每个事件的熵的加权平均。这就是信息熵!

*补充:信息熵和信息量,香农信息量与一个事件的概率有关,信息熵与一个事件的概率分布有关。

信息熵:什么是信息熵?相关推荐

  1. 最大信息熵增益_信息熵(Entropy)、信息增益(Information Gain)

    1. 信息熵:H(X) 描述X携带的信息量. 信息量越大(值变化越多),则越不确定,越不容易被预测. 对于抛硬币问题,每次有2种情况,信息熵为1 对于投骰子问题,每次有6中情况,信息熵为1.75 下面 ...

  2. 熵(Entropy)、信息熵增益、信息熵增率和基尼(Gini)指数

    文章中的这些概念为衡量特征(属性)选择的方法,特征选择在于选取对训练数据具有分类能力的特征,提高决策树学习的效率,特征选择是决定用哪个特征来划分特征空间. 文章目录 信息熵(information e ...

  3. python计算信息熵_Python计算信息熵实例

    计算信息熵的公式:n是类别数,p(xi)是第i类的概率 假设数据集有m行,即m个样本,每一行最后一列为该样本的标签,计算数据集信息熵的代码如下: from math import log def ca ...

  4. 信息熵概念随笔——信息熵、信息的熵

    之前碰到有人问,信息熵的事,问到,有的地方说信息熵是用来描述事物的不确定程度,取值范围0-1:为什么在计算信息熵的时候,结果却是大于1的.其实,这里涉及到了信息熵不同角度的概念问题,我就从我所了解的两 ...

  5. 【机器学习入门】(4) 决策树算法理论:算法原理、信息熵、信息增益、预剪枝、后剪枝、算法选择

    各位同学好,今天我向大家介绍一下python机器学习中的决策树算法的基本原理.内容主要有: (1) 概念理解:(2) 信息熵:(3) 信息增益:(4) 算法选择:(5) 预剪枝和后剪枝. python ...

  6. 信息熵与自然语言处理

    本文主要观点来自吴军的<数学之美> 什么是信息熵 信息(Information)是我们天天提到的一个词,信息可以帮助我们减少事物的不确定性.我们要搞清楚一件完全不知道的事物就需要大量的信息 ...

  7. 【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度

    1 信息熵 熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质 单调性,发生概率越高的事件,其 ...

  8. matlab图像信息熵交叉熵,【机器学习】信息量,信息熵,交叉熵,KL散度和互信息(信息增益)...

    首先先强烈推荐一篇外文博客Visual Information Theory这个博客的博主colah是个著名的计算机知识科普达人,以前很是著名的那篇LSTM讲解的文章也是他写的.这篇文章详细讲解了信息 ...

  9. 信息量、信息熵、KL散度、交叉熵

    一.信息量 定义: 香农(C. E. Shannon)信息论应用概率来描述不确定性.信息是用不确定性的量度定义的.一个消息的可能性愈小,其信息愈多:而消息的可能性愈大,则其信息量愈少:事件出现的概率小 ...

  10. 信息熵(Information Entropy)

    为什么80%的码农都做不了架构师?>>>    什么是熵 熵(entropy)指的是体系的混乱的程度,它在控制论.概率论.数论.天体物理.生命科学等领域都有重要应用,在不同的学科中也 ...

最新文章

  1. 一个完整的python项目源码-Python实例练手项目汇总(附源码)
  2. Android系统中标准Intent的使用
  3. 图解排序算法之谈「选择排序」
  4. Android开源底部导航,一个开源JPTabBar for Android,炫酷的底部导航栏
  5. css3小球坠落,CSS3 圆球体内的小球碰撞运动
  6. 11.14/11.15 Apache和PHP结合 11.16/11.17 Apache默认虚拟主机
  7. SAP UI5 Web Component里最简单的React列表控件的用法
  8. Github 王炸功能!Copilot 替代打工人编程?
  9. chrome只能装在c盘吗_电脑硬盘使用与文件整理入门——逃离C盘?
  10. 苹果电脑上超级好用的双栏文件管理器Commander One PRO版推荐给大家!
  11. 【图说word】 宏
  12. redis运行redis-server.exe错误
  13. word20161219
  14. Python细节面试题--小整数对象池和大整数对象池
  15. 第1章 操作系统引论课后答案
  16. 如何比对excel表格两列数据中的相同部分或重复部分
  17. 数学建模——摘要写作
  18. 手机人像摄影入门简易四步法
  19. 抑制剂以及抗体偶联物在免疫检查点中的作用
  20. gridview纯图片九宫图展示

热门文章

  1. 最近火爆的外卖分销小程序搭建及推广秘籍
  2. js通过身份证号获取出生日期,性别,年龄
  3. 材料科学与工程毕业论文题目【313个】
  4. misra c编码规范个人整理总结/misra c 2012中文版-个人总结-【方便查询】
  5. inventor2019有无CAE_Autodesk Inventor 2019官方标准教程
  6. 手机APP开发之MIT Appinventor详细实战教程(十三),云服务器的数据遇到的问题和解决的方法,以及网页客户端的详细使用方法,WIFI通信,数据获取在one net平台的相关应用
  7. 15米 GMSLFPDLink传输线束降速问题
  8. android 加载gif 动画,GifView——Android显示GIF动画
  9. HTMLCSS 高级表格 合并单元格
  10. 工作太闲闹心怎么办啊