第6章 信息的度量和作用

信息熵(Entropy)

  • 背景:

    • 信息量等于不确定性的多少
    • 可以用bit这个概念来衡量信息量(所以加上了log函数)
  • 信息熵公式:
    其中P(x)P(x)P(x)是x发生的可能性。变量的不确定性越大,熵也就越大。

    • 信息熵的取值范围是:[0,log2(n)][0, log_2(n)][0,log2​(n)] ,其中n代表分类的数目。其推导过程可以参考:https://blog.csdn.net/sinat_26811377/article/details/101992352 (非常简洁易懂,建议阅读)
  • 信息熵的作用:

    • 衡量信息量(不确定性)
    • 几 乎 所 有 的 自 然 语 言 处 理 、 信息 与 信 号 处 理 的 应 用 都 是 一 个 消 除 不 确 定 性 的 过 程。

条件熵(Conditional Entropy)

  • 背景:引入一些相关的信息,可以消除不确定性。
  • 定义:现在假定我们还知道Y的一些情况,包括它和X一起出现的概率,在数学上称为 联 合 概 率 分 布(Joint Probability) , 以及在Y取不同值的前提下X的概率分布,在数学上称为条 件 概 率 分 布 ( Conditional Probability ) 。定义在Y的条件下X的条件熵为:

    ​ 可以证明:H(X)>=H(X∣Y)H(X)>=H(X|Y)H(X)>=H(X∣Y)(后文提到的互信息). 也就是说,二元模型比一元的好。

​ 进一步扩展,可以扩展两个条件的条件熵:

​ 可以证明:H(X∣Y)>=H(X∣Y,Z)H(X|Y)>=H(X|Y,Z)H(X∣Y)>=H(X∣Y,Z). 也就是说,三元模型比一元的好。

互信息(Mutual Information)

  • 背景:对两个随机事件的相关性的量化度量。

  • 公式:

  • 应用:解决词的二义性。分别找出不同语义下互信息最大的词。然后根据翻译上下文,看重合率哪个高,就选择哪个。

相对熵(Kullback-Leibler Divergence)(KL散度)

  • 定义:衡量两个取值为正数的函数的相似性;或者说,衡量两个分布之间的差异。(区别于互信息,互信息衡量的是两个变量之间的相关性)也有人称为交叉熵。

  • 公式:

  • 重要的三条结论

    • 对于两个完全相同的函数,它们的相对熵等于零。
    • 相对熵越大,两个函数差异越大;反之,相对熵越小,两个函数差异越小。
    • 对于概率分布或者概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异性。
  • 一些特性

    • 相对熵并不是对等的。没有对称关系。KL(f(x)∣∣g(x))!=KL(g(x)∣∣f(x))KL(f(x)||g(x)) != KL(g(x)||f(x))KL(f(x)∣∣g(x))!=KL(g(x)∣∣f(x))

相对熵(KL散度)和交叉熵之间的关系

來源:https://blog.csdn.net/Dby_freedom/article/details/83374650

  • 交叉熵公式:

  • 熵公式:

  • KL散度公式:

所以:

此处最重要的观察是,如果 S(A)S(A)S(A) 是一个常量,那么 DKL(A∣∣B)=H(A,B)D_{KL}(A||B)=H(A,B)DKL​(A∣∣B)=H(A,B) ,也就是说KL散度和交叉熵在特定条件下等价。

《数学之美(第一版)》笔记 —— 第6章相关推荐

  1. 数学之美-读书笔记6-10章

    文章目录 数学之美 第六章 信息的度量和作用 1信息熵 2信息的作用 3互信息 4延伸阅读 第7章 贾里尼克和现代语言处理 1早年生活 2 从水门事件到莫妮卡·莱文斯基 3一位老人的奇迹 第八章 简单 ...

  2. 数学之美-读书笔记11-15章

    文章目录 数学之美 第十一章 如何确定网页和查询的相关性 1搜索关键词权重的科学度量-TF-IDF 第十二章 有限状态机和动态规划-地图与本地搜索的核心技术 1地址分析和有限状态机 2全球导航和动态规 ...

  3. 数据分析?他们早就开始用了——数学之美读书笔记

    数据分析?他们早就开始用了? 标题取得很好听,其实就是<数学之美>这本书的读书笔记.这是每一个想学编程了解计算机的人都不应该错过的好书,必须推荐 光 看这个名字,你可能以为它就是一本讲数学 ...

  4. 数学之美读书笔记第一章

    通信的原理和信息传播的模型 原理:信息被编码,再被解码的过程. 信息传播的模型: 传播人 => 信息 -> 编码信息 ->信道(声音介质,双绞线介质等) -> 解码信息 =&g ...

  5. 度量相似性数学建模_数学之美读书笔记

    2020年6月读,先通读一遍,随后为写读书笔记又重新读了一遍,收获颇丰,虽然没有很多数学或者编程方面的知识,但正如作者所说,这本书讲述的是道,而非术. 读这本书让我领略到了科学的趣味,并不是枯燥的敲代 ...

  6. 《数学之美》---笔记006

    第二十一章:拼音输入法的数学原理 输入法输入输入汉字的快慢取决于汉字编码的平均长度,通俗点讲,就是用击键次数乘以寻找这个键所需要的时间 键盘上可用编码的基本键26个字母加上10个数字键(十个数字用来消 ...

  7. 数学之美读书笔记--摘抄

     "系列一: 统计语言模型" "利用统计语言模型进行语言处理" "假定任意一个词wi的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设)&quo ...

  8. 《数学之美》第十四章——余弦定理和新闻的分类

    1 新闻的特征向量 我们在新闻页面中浏览新闻的时候,通常会有很多模块,在这些模块里面的新闻都是具有一定相关性的.如果单纯依靠人工对大量的新闻进行分类显然是不可能的,因此需要让计算机能够"算& ...

  9. java 对数取反_数学之美读书笔记-拼音输入法的数学原理

    从理论上分析,输入汉字到底能有多快?这里需要用到信息论中的香农第一定理.假定在国标GB2312里面,一共有6700多个常用的汉字.如果不考虑汉字频率的分布,用键盘上的26个字母对汉字进行编码,两个字母 ...

  10. 《数学之美(第一版)》笔记整理 —— 目录

    序 因为想对互联网的新兴技术有一些更好的了解,不断拓展自己的知识面,所以想到了吴军老师的<数学之美>,个人非常推荐大家阅读,可以对各种技术有一个入门的了解.吴军老师的讲法也很生动,对部分章 ...

最新文章

  1. 如何寻找蛋白和蛋白,基因和基因之间的相互作用---string
  2. Entity Framework技术系列之2:三种开发模式实现数据访问
  3. Windows下MongoDB安装及创建用户名和密码
  4. boost::trait::is_reference 的研究与修改
  5. php通过ip查询经纬度,php 获取客户端IP地址经纬度所在城市
  6. Go 语言web 框架 Gin 练习6
  7. mysql与dns_借助mysql和DNS view实现智能DNS(centos6.3 x64环境)
  8. YUV与像素值之间的关系
  9. Vue.JS项目中二级路由下刷新浏览器仍呈现当前路由的实现方案
  10. java猜拳游戏代码_Java实现简单猜拳游戏
  11. 用windbg分析minidump
  12. Mockjs - 前端模拟请求数据生成器
  13. kali安装最新版nessus
  14. 自动清理垃圾文件与文件夹脚本.bat
  15. 未来可期的TypeScript
  16. 【毕业设计】基于机器学习的餐厅销量预测 -大数据 python
  17. 如何实现WiFi下计算机互相访问,如何让两台笔记本电脑在无线连接下互相投屏...
  18. 大型传统企业如何向人工智能转型?
  19. Echarts树形结构图加点击事件
  20. python3 的 md5加密

热门文章

  1. 泉州信息工程学院 计算机考试,泉州信息工程学院教务网络管理系统成绩查询、网上选课查分登录入口...
  2. 钢铁切削液及油-市场现状及未来发展趋势
  3. 伪随机数认识 以及 公平的抽奖
  4. 如何快速的将word文档中的图片提取出来
  5. 信任是高效工作的基石,但是得来却非常不易
  6. android获取热点主机ip和连接热点手机ip
  7. 美国佐治亚大学计算机专业,美国计算机专业大学排名TOP10
  8. win配置pm2开机自启node项目
  9. 基于51单片机的硬币电子秤的实现
  10. 独立站谷歌付费广告关键词选词技巧实操