一.什么是熵

Ⅰ.信息量

首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢?
我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x).
因此,我们想要寻找一个函数h(x)来表示信息的多少且是关于概率分布的单调函数.我们定义:

我们把这个公式叫做信息量的公式,前面的负号确保了信息一定是正数或者是0.(低概率事件带来高的信息量).
函数如下图所示

补充:上面是以2为对数的底,实际上,这个底是能够是其他的数字的.常用的是2和e这两个底.底是2的时候,单位为bit..底是e的时候,单位为nat.

有时候有人也叫做自信息(self-information),一个意思啦。可以推广一下下。
联合自信息量:

条件自信息量:

通俗一点来说的话,就是概率论中很简单的推广就行了。有概率基础的话,这个很容易理解。这里因为实际上面使用二维的更多一点就以二维为例子,推广到多维的话也是可以的。

Ⅱ.熵

熵(entropy):上面的(x)是指在某个概率分布之下,某个概率值对应的信息量的公式.那么我们要知道这整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵
如下面公式:

这个公式的意思就是,随机变量x是服从p这个分布的,也就是在在p分布下面的平均自信息。也就得到了信息熵。信息熵的本质可以看做是某个分布的自信息的期望。

注意:
1.熵只依赖于X的分布,与X的取值无关,因此服从某个分布的X的熵也可以等价于这个分布的熵.
2.定义0log0=0(因为可能出现某个取值概率为0的情况)
3.熵越大,随机变量的不确定性就越大(因为之前说了,越是不确定,信息量就越大,要是平均信息量很大,那么也可以代表这个变量的不确定性越大)

这里举个例子感受一下:设X服从0-1分布,即

则熵为

上面的计算是对于一个离散型的随机变量(分布)来做的,无非就是把所有的概率都得到,分别求出自信息然后相加就行了。很简单,别想得太多。
代码:

结果:

从图中可以知道:

1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性.
2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.

那么“仿照”之前的信息量的公式,可以推广一下下啦。
假设一个概率分布有两个随机变量决定。其中x有n种取值,y有m种取值。那么可以得到一个nxm的联合概率分布的表。那么有:
复合熵(联合熵)

同样,复合熵的公式还可以推广到连续变量和多个变量的情况。这里就不写了。

条件熵

上面这个公式可能有点难以理解,不知道这个公式是怎么来的。举一个例子来说明一下:
如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是

上面得到的计算公式是针对y为一个特殊值y时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均,那么就可以得到上面的条件熵的公式。

Ⅲ.变形总结

进过上面的之后,应该对于信息量和信息熵的几个公式有了了解。然后那几个公式还可以变形为一些常用的公式。这里总结一下
首先要先介绍一下条件分布的乘法定理,可能有人已经忘记了:

大家都学过,所以就不啰嗦了。
然后把之前条件熵式子使用上面这个公式改写一下,可以写为:

当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到的时候,所对应的熵与条件熵分别称为经验熵(empirical entropy)经验条件熵(empirical conditional entropy)

上面的式子表明,只要你能够得到联合分布和y的分布就能够求出条件熵了。事实上,还能够更加简化成为常见的形式:
这里利用上面的公式(以离散型为例子)直接推导,有

这个公式是不是简洁很多很多。只要知道联合信息熵和其中一个分量的信息熵,就能够求出条件信息熵来。
证明:

同样,如果求x已知时y的条件熵,显然也会得到类似的公式:

那么两个公式何并,就能够得到:

这个公式把复合熵、条件熵以及熵联系到一起了。它们也显示了熵的对称性。

二.相对熵

相对熵又称互熵交叉熵鉴别信息Kullback熵,Kullback-Leible散度(即KL散度)等。
设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为:

在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。
但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说

相对熵还有一个性质,就是不为负。

三.互信息

互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。

那么互信息有什么更加深层次的含义呢?首先计算一个式子先:

从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。

四.总结

--------------------- 本文来自 谢小小XH 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/xierhacker/article/details/53463567?utm_source=copy

机器学习笔记十:各种熵总结相关推荐

  1. 机器学习笔记十四:随机森林

    在上一篇机器学习笔记十三:Ensemble思想(上)中,简要的提了一下集成学习的原理和两种主要的集成学习形式.  而在这部分要讲的随机森林,就算是其中属于bagging思路的一种学习方法.为了篇幅,b ...

  2. 机器学习笔记(十五)规则学习

    15.规则学习 15.1基本概念 机器学习中的规则(rule)通常是指语义明确.能描述数据分布所隐含的客观规律或领域概念.可写成若-则-形式的逻辑规则.规则学习(rulelearning)是从训练数据 ...

  3. 机器学习笔记(十)降维和度量学习

    10.降维和度量学习 10.1k近邻学习 k近邻(k-NearestNeighbor,简称kNN)学习是一种常用的监督学习方法,其原理是:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练 ...

  4. 2018-3-20李宏毅机器学习笔记十----------Logistic Regression

    上节讲到:既然是一个直线型,只需要求解w和b.为何还要那么费劲的使用概率??? 视频:李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilib ...

  5. 机器学习笔记(十二)计算学习理论

    12.计算学习理论 12.1基础知识 计算学习理论(computationallearning theory)研究的是关于通过计算来进行学习的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难 ...

  6. 机器学习笔记 十九:由浅入深的随机森林模型之分类

    随机森林学习内容 1. 集成学习 2.sklearn中的集成算法 2.1 sklearn中的集成算法模块ensemble 2.2 RandomForestClassifier 2.2.1 参数 2.2 ...

  7. 机器学习笔记 十五:随机森林(Random Forest)评估机器学习模型的特征重要性

    随机森林 1. 随机森林介绍 1.1 租赁数据案例 2. 特征相关性分析(热图) 2.1 热图绘制 2.2 构建随机森林模型 2.3 不同特征合并的重要性 2.3.1 经纬度合并(分3类) 2.3.2 ...

  8. 机器学习笔记十五之图片文字识别

    本节目录 1 问题描述 2 滑动窗口 3 获取大量数据集和人工数据 4 上限分析 1 问题描述 图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从一份扫描文档中识别文字要复杂的多. 为了完 ...

  9. 机器学习笔记十九:正则化思想

    参考: <机器学习基石>

最新文章

  1. RabbitMQ学习总结(4)——分发任务在多个工作者之间实例教程
  2. 自定义ViewGroup实现ViewPager的滑动效果
  3. 让图片算好高宽再显示
  4. VS2015调试时没有启动IIS Express Web服务器 或者停止调试时 IIS Express 跟着关闭
  5. 解决微信小程序 [Component] slot ““ is not found.
  6. Python中的匿名函数及递归思想简析
  7. idea 构建java 微服务_使用 IDEA 从 0 开始搭建 Spring Cloud 微服务
  8. window电脑H265(HEVC)编码的mp4不显示缩略图解决办法
  9. 菏泽职业学院计算机专业代码,菏泽家政职业学院代码及专业代码
  10. [渝粤教育] 中央财经大学 宏观经济学 参考 资料
  11. 2021届大学毕业生薪酬排名出炉 | 超50所高校月薪过万!
  12. Typecho 主题推荐
  13. Rsync简介和使用
  14. 为什么结构方程模型路径系数很大却不显著?
  15. 神经网络图像识别技术,人工神经网络图像识别
  16. 敏捷开发个人理解及简单执行流程
  17. Python批量造数并利用pymysql写入到数据库之multiprocessing多进程、threading多线程实现方式(学习笔记)
  18. 三级信息安全技术真题知识点总结-第二套
  19. 图片拼接镶嵌算法(image spline and mosaics经典算法)实现过程和效果展示
  20. Excel按照手动输入的表格次序一键排序表格

热门文章

  1. JAVA取质数(素数)算法优化
  2. 专访:经历了时间检验的不仅是论文,还有唐杰自己 | SIGKDD 2020时间检验奖
  3. 自定义一个安全的rm指令
  4. Nature:MIT团队造全新声感织物,这件“毛衣”可以听到你的心跳
  5. 如何撰写好一篇论文?密歇根Andrew教授这篇《撰写高影响力论文指南》为你细致讲解论文写作,附视频与pdf...
  6. 清华大学:2021元宇宙发展研究报告
  7. 姚班、智班之后,量子信息班在清华成立,姚期智担纲,“致力国家战略需求”!...
  8. 探索 COVID-19 新冠数据来学习 Pandas
  9. 数据科学研究院第四届“院长接待日”成功举办
  10. 剑指offer:不用加减乘除做加法