当上述公式中概率相等时会推出,H刚好等于5比特。
自信息:
一条信息的信息量与该信息的不确定性有关。如果想要搞懂一件非常不清楚的事,就需要了解大量的信息,相反如果一件事我们已经了如指掌,那就不需要太多的信息来了解它。香农认为,信息可以消除我们对于事物认识上的不确定性,越不可能发生的事情一旦发生就可以消除较大的不确定性,所以应当含有较多的信息。由此,香农认为,应当用事件的发生概率确定该事件所含的信息量,概率越小的事件所含的信息量越大,而必然事件的信息量最小,指定为0。

熵:
想要知道一个分布的信息量,就要先确定一个描述信息量的量纲。 在信息论学科中,提出了熵的概念,记作 H。
对于一个随机变量,其概率分布所对应的熵表达如下:

或者是

变量的不确定性越大,熵也就越大,想要搞清楚它所需要的信息量也就越大。
上面两个公式其实类似,一个使用负号,一个使用除号。联合上面的自信息,可以知道,如果我们将自信息理解为一个事件出现的信息量,那么概率越大的事件所携带的信息量越少。那么负的概率和概率的倒数都可以表示信息量的多少。再使用期望信息量就能表示一个分布的信息量多少了。
如果我们使用 log2 作为底,熵可以被理解为:我们编码所有信息所需要的最小位数(minimum numbers of bits)。

信息的作用,条件熵:




为什么信息的引入会降低不确定性?
如果有x、y变量,根据x的分布可以计算出x的熵:

同时还知道x、y共同发生,以及在y条件下x的概率,则可以计算出在y条件下x的条件熵:

如果能够证明H(x)>=H(x|y),则表示不确定性减小了。如果引入的信息完全和x无关,此时就会出现等号情况。这也就证明了为什么二元模型比一元模型好。
互信息:
上文介绍到引入相关性信息从而减少不确定性。例如随机事件“下雨”和“空气湿度”有关。但我们需要有个度量来衡量这些相关性。香农提出使用“互信息”概念来量化度量。公式如下:

这个公式其实就是上文提到的x熵H(x)和H(x|y)的差异性。也就是由于信息引入带来的不确定性减少量。也就是在了解y的情况下对对消除x不确定性所提供的信息量。


在自然语言处理中,只要数据足够,很容易计算出两个随机变量x,y的概率和互信息。因此互信息被广泛应用于自然语言处理中。


KL散度:
相对熵(relative entropy)也叫KL散度(KL divergence)。用于度量两个概率分布的差异性,也就是相关性。KL散度计算的就是数据的原分布与近似分布的概率的对数差的期望值。与变量的互信息不同的是, 它用来衡量两个取值为正数的函数的相似性
设p和q是取值x的两个概率概率分布,则p对q的相对熵为:



记住:对于两个完全相同的函数,其相对熵为0;相对熵越大,两个函数的差异性越大,反之,相对熵越小,两个函数差异性越小;对于概率分布或者概率分布函数,如果取值大于0,相对熵可以衡量两个随机分布得差异性。

但注意KL散度不是距离度量(由于不满足对称性),且KL散度恒大于或等于0:


上图存在三个分布,一个是观察到的,另外两个属于我们预测的。那么预测哪一个更贴近原分布呢?就可以使用KL散度进行比较。


可以看到使用uniform分布表示原分布的信息损失量(0.338)要小于使用binomial分布(0.477)。所以优先选择uniform分布。

反向计算,可看到不满足对称性。
交叉熵:

应用:
1、衡量两随机分布间距离,如比较文本相似度。统计词频率,计算KL散度。
2、衡量选择的近似分布相比原分布损失多少信息。

英文版

数学之美:信息的度量和作用 KL散度 自信息 熵 相对熵 KL divergence entropy相关推荐

  1. 数学之美——信息的度量

    信息有大小吗,如何度量信息的大小?如何度量信息之间的关系? 今天主要讨论的几个问题,它是 信息论 的基础,相信看完这篇文章你会感觉: 其实每门学科都有它的神奇之处:) 信息熵 在日常生活中,我们应该遇 ...

  2. 《数学之美》 第六章 信息的度量和作用

    <数学之美> 第六章 信息的度量和作用 信息量等于不确定性的多少 香农定理中,用比特bit这个概念来度量信息量.一个比特是一位二进制数,计算机中一个字节是8比特 信息熵,一般用符号H表示 ...

  3. 《数学之美》第6章 信息的度量和作用

    1 信息熵 一条信息的信息量与其不确定性有着直接的关系.信息量就等于不确定性的多少. 如何量化信息量的度量?  信息熵(entropy) 用符号H表示,单位是比特. 变量的不确定性越大,熵也就越大. ...

  4. 《数学之美》第六章——信息的度量和作用

    1 信息熵 一条信息的信息量与其不确定性有着直接的关系. 如何一件事情非常不确定,我们要搞清楚就需要了解大量的信息.如果一件事情了解较多,则只需要少量信息就可以搞清楚. 可以认为,信息量就等于不确定性 ...

  5. 度量相似性数学建模_数学之美读书笔记

    2020年6月读,先通读一遍,随后为写读书笔记又重新读了一遍,收获颇丰,虽然没有很多数学或者编程方面的知识,但正如作者所说,这本书讲述的是道,而非术. 读这本书让我领略到了科学的趣味,并不是枯燥的敲代 ...

  6. 《数学之美》-吴军 读书笔记

    从吴军的<数学之美>找到了伽莫夫的<从一到无穷大>,前段时间先整理了<从一到无穷大>的笔记.现在整理下<数学之美>以巩固下. 近段时间AlfaGo 与人 ...

  7. 《数学之美》——吴军#读书笔记

    <数学之美> 吴军 第一章:文字和语言vs数字和信息 主要内容概述:"语言和数学的产生都是为了同一个目的--记录和传播信息".科技是伴随着人类的不断进化而发展进步的.信 ...

  8. 《数学之美》读后感:看数学之美,悟技术之道

    一.关于此书 记得几年前看完了<浪潮之巅>之后,便知道了吴军老师还有另外一本非常出名的著作<数学之美>,但是一直没有列入计划阅读.直到2016年我看完了<硅谷之谜> ...

  9. 数学之美-读书笔记6-10章

    文章目录 数学之美 第六章 信息的度量和作用 1信息熵 2信息的作用 3互信息 4延伸阅读 第7章 贾里尼克和现代语言处理 1早年生活 2 从水门事件到莫妮卡·莱文斯基 3一位老人的奇迹 第八章 简单 ...

最新文章

  1. NuGet学习笔记(3) 搭建属于自己的NuGet服务器
  2. eclipse中egit插件使用
  3. ISME:污水厂抗性组受细菌组成和基因交换驱动且出水中抗性表达活跃(一作解读)
  4. 面试题6:输入一个链表,按链表值从尾到头的顺序返回一个ArrayList
  5. Java - 从文件压缩聊一聊I/O一二事
  6. 中科院分词系统(NLPIR)JAVA简易教程
  7. linux编程能否用于windows,使R包在Windows和Linux中都可以工作
  8. hive启动时出现javax.jdo.JDODataStoreException: Error executing SQL query
  9. mysql做文本挖掘_4graphlab简单文本挖掘
  10. python人工自动抠图_python实现人工智能Ai抠图功能
  11. mysql 报错10614_PostgreSQL转换为Mysql
  12. Linux 下 Git 的源码安装
  13. 73本免费的语言无关的优秀编程书籍汇总
  14. 现代书法脚本字体Tifany Script
  15. 内存的工作原理及时序介绍
  16. python打字案例,Python 小案例 打字练习
  17. 关于Si24r1调试的总结
  18. matlab两矩阵相似性,两个矩阵同时相似对角化MATLAB程序.docx
  19. 在iPhone/iPad/iPod touch Home主屏幕界面加快捷方式
  20. cordova弹框插件 cordova-plugin-dialogs

热门文章

  1. 程序人生 - Python爬虫要违法了吗?告诉大家:守住规则,大胆去爬
  2. 6. STM32——用串口发送数据点亮LED(串口的中断接收)
  3. 将本地数据倒入到Hive
  4. webpack配置与优化
  5. 常用的积分方法讨论(数学表达与代码整理)(龙格-库塔、中值积分、欧拉积分)
  6. SpringBoot:过滤器配置详解
  7. 如何编写高质量JavaScript代码
  8. python爬虫接口_爬虫与API(上)
  9. 二维码“仙人”——教你制作二维码,读取二维码
  10. cuda9分享百度云下载