1 信息熵

一条信息的信息量与其不确定性有着直接的关系。
如何一件事情非常不确定,我们要搞清楚就需要了解大量的信息。如果一件事情了解较多,则只需要少量信息就可以搞清楚。
可以认为,信息量就等于不确定性的多少。

下面举一个例子来解释信息量如何进行度量:

但是对于冠军球队的猜测其实信息量可能是更少的,因为每支球队的夺冠概率不一样。因此我们可以先在概率高的球队中进行猜测。

香农指出,它的准确信息量应该是:

其中,p1,p2,…,p32分别是这32支球队夺冠的概率。香农把它称为“信息熵”,一般用符号H表示,单位是比特。

因此,对于任意一个随机变量X,它的熵定义如下:

变量的不确定性越大,熵就越大,要把它搞清楚,所需信息量也就越大。

2 信息的作用

信息和消除不确定性是相联系的。
信息是消除系统不确定性的唯一办法(在没有获得任何信息前,一个系统就像是一个黑盒子,引入信息,就可以了解黑盒子系统的内部结构)。如下图所示:

一个事物内部会存在不确定性,假定为U,而从外部消除这个不确定性唯一的办法就是引入信息I,即I>U才行。如果I<U,那么只能消除一部分不确定性。反之,如果没有信息,任何公式或者数字的游戏都无法排除不确定性。 知道的信息越多,随机事件的不确定性就越小。

在实际中,我们经常可以利用上下文的信息来预测一个句子中当前的词汇。因此,相关的信息其实也可以用来消除不确定性。这里就引入了条件熵的概念。
假定X和Y是两个随机变量,X是我们需要了解的。那么就知道了X的熵:

现在假定我们还知道Y的一些情况,包括它和X一起出现的概率,数学上称为联合概率分布P(X,Y)。同时我们还知道条件概率P(X,Y)。这时就可以定义在Y的条件下的条件熵为:

同时我们可以得到H(X)>=H(X|Y),从而也证明二元模型的不确定性会小于一元模型。
进行推广,我们还可以得到两个条件的条件熵:

并且可以证明H(X|Y)>=H(X|Y,Z),也就是三元模型会比二元模型好。

那么上述的等号什么时候成立呢?如果引入的信息是无关的信息时,不能减少不确定性,这时等号就是成立的。

3 互信息

上一节中提到,当引入的信息和不确定性有关系时,就能消除不确定性。例子:“今天北京下雨”和“过去24小时北京的空气湿度”,这两个随机变量之间存在多大的相关性。为此,这里引入了“互信息的概念来描述两个随机事件“相关性”的量化度量

假定有两个随机事件X和Y,它们的互信息定义如下:

互信息其实就是等于消除的不确定性:

现在就很清晰了,所谓两个事件相关性的度量,就是在了解了其中一个Y的前提下,对消除另一个X不确定性所提供的信息量
互信息的取值是在0到min(H(X),H(Y))之间的函数,当X和Y完全相关时,它的取值是H(X),同时H(X)=H(Y);当二者完全无关时,它的取值为0。

4 延伸阅读:相对熵

相对熵”也叫做“交叉熵”,也可以用来衡量相关性,但是变量的互信息不同 ,它用来衡量 两个取值为正数的函数的相似性。定义如下:

对于这个公式有以下三个结论:

  1. 对于两个完全相同的函数,它们的相对熵等于零。
  2. 相对熵越大,两个函数差异越大;反之,相对熵越小,两个函数差异越小。
  3. 对于概率分布或概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异性。

需要指出的是,相对熵是不对称的,即:

因此通常会两边取平均:

相对熵可以用来衡量两段信息的相似程度。例如如果一篇文章是照抄或改写的,那么它的相对熵就比较小,接近于零。

《数学之美》第六章——信息的度量和作用相关推荐

  1. 《数学之美》 第六章 信息的度量和作用

    <数学之美> 第六章 信息的度量和作用 信息量等于不确定性的多少 香农定理中,用比特bit这个概念来度量信息量.一个比特是一位二进制数,计算机中一个字节是8比特 信息熵,一般用符号H表示 ...

  2. 《数学之美》第6章 信息的度量和作用

    1 信息熵 一条信息的信息量与其不确定性有着直接的关系.信息量就等于不确定性的多少. 如何量化信息量的度量?  信息熵(entropy) 用符号H表示,单位是比特. 变量的不确定性越大,熵也就越大. ...

  3. 数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)

    数学之美系列六 -- 图论和网络爬虫 (Web Crawlers) [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础.它包括数理逻辑.集合论.图论和近世代数四个分支.数理逻辑基于布尔运算, ...

  4. 数学之美 第3章 统计语言模型

    数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...

  5. 《数学之美》——第九章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第九章    图 ...

  6. 《数学之美》选章精读

    曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫 概念 图论起 ...

  7. 《数学之美》——第一章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第一章    文 ...

  8. 《数学之美》第一章读后感

    第一章分别讲述了早期信息的传播,文字和数字的发展,文字和语言背后的数学三个部分. 我从中了解到了信息传递,不论是早期的远古社会,还是如今快速发展的互联网时代,其规律都是异曲同工的.比如信息传播的模型都 ...

  9. python入门第六章 信息安全策略-文件备份 用户账户管理

    import os def file_backups(file_name, path):# 备份的文件名file_back = file_name.split('\\')[-1]# 判断用户输入的内容 ...

最新文章

  1. C++11中auto的使用
  2. 使用python实现knn算法_使用python实现knn算法
  3. 网站做好后不能用手机浏览吗_企业几年前制作的网站大部分都应该被淘汰掉
  4. java list反序列化_java序列化与反序列化操作实例分析
  5. zerodivisionerror什么意思python-python代码里出现是啥意思
  6. 【数字信号处理】离散时间信号 ( 模拟信号、离散时间信号、数字信号 | 采样导致时间离散 | 量化导致幅度离散 )
  7. 程序员整理的各种不错的工具
  8. 马斯克自曝曾寻求苹果600亿美元收购特斯拉 但库克拒绝会面
  9. Matter-JS collisionFilter 碰撞过滤器
  10. 面试题之谈一谈你所知道的C++的框架
  11. 全国车辆限行限号数据接口服务评测
  12. 老狗——python求中位数
  13. 计算机发展史上一些重要的著作
  14. 老树开新花:DLL劫持漏洞新玩法
  15. ipad无法充电怎么办_Ipad显示不在充电怎么办
  16. 【OpenCV 4】图像像素的归一化
  17. 网站收录查询,常用的2种网站收录查询方法
  18. EventBus简单介绍
  19. 「新职业」背后赚钱的需求在哪里?
  20. Melanopic EDI(简称m-EDI) 计算软件

热门文章

  1. 3DMAX游戏角色装备腿部护甲建模教程(二)
  2. LA4043 KM算法
  3. IP和局域网 简单了解
  4. 僵尸网络检测和抑制方法
  5. 2020-04-15-52brain公众号目录【2020年3月】
  6. android 高德地图SDK报 KEY鉴权失败
  7. PPPOE拨号691的问题
  8. python none什么意思_python – 什么是self = None?
  9. Linux简单操作权限和相关工具
  10. 计算机考研815指什么,考研815化学包括什么