《数学之美(第一版)》笔记 —— 第6章
第6章 信息的度量和作用
信息熵(Entropy)
背景:
- 信息量等于不确定性的多少
- 可以用bit这个概念来衡量信息量(所以加上了log函数)
信息熵公式:
其中P(x)P(x)P(x)是x发生的可能性。变量的不确定性越大,熵也就越大。- 信息熵的取值范围是:[0,log2(n)][0, log_2(n)][0,log2(n)] ,其中n代表分类的数目。其推导过程可以参考:https://blog.csdn.net/sinat_26811377/article/details/101992352 (非常简洁易懂,建议阅读)
信息熵的作用:
- 衡量信息量(不确定性)
- 几 乎 所 有 的 自 然 语 言 处 理 、 信息 与 信 号 处 理 的 应 用 都 是 一 个 消 除 不 确 定 性 的 过 程。
条件熵(Conditional Entropy)
- 背景:引入一些相关的信息,可以消除不确定性。
- 定义:现在假定我们还知道Y的一些情况,包括它和X一起出现的概率,在数学上称为 联 合 概 率 分 布(Joint Probability) , 以及在Y取不同值的前提下X的概率分布,在数学上称为条 件 概 率 分 布 ( Conditional Probability ) 。定义在Y的条件下X的条件熵为:
可以证明:H(X)>=H(X∣Y)H(X)>=H(X|Y)H(X)>=H(X∣Y)(后文提到的互信息). 也就是说,二元模型比一元的好。
进一步扩展,可以扩展两个条件的条件熵:
可以证明:H(X∣Y)>=H(X∣Y,Z)H(X|Y)>=H(X|Y,Z)H(X∣Y)>=H(X∣Y,Z). 也就是说,三元模型比一元的好。
互信息(Mutual Information)
背景:对两个随机事件的相关性的量化度量。
公式:
应用:解决词的二义性。分别找出不同语义下互信息最大的词。然后根据翻译上下文,看重合率哪个高,就选择哪个。
相对熵(Kullback-Leibler Divergence)(KL散度)
定义:衡量两个取值为正数的函数的相似性;或者说,衡量两个分布之间的差异。(区别于互信息,互信息衡量的是两个变量之间的相关性)也有人称为交叉熵。
公式:
重要的三条结论:
- 对于两个完全相同的函数,它们的相对熵等于零。
- 相对熵越大,两个函数差异越大;反之,相对熵越小,两个函数差异越小。
- 对于概率分布或者概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异性。
一些特性
- 相对熵并不是对等的。没有对称关系。KL(f(x)∣∣g(x))!=KL(g(x)∣∣f(x))KL(f(x)||g(x)) != KL(g(x)||f(x))KL(f(x)∣∣g(x))!=KL(g(x)∣∣f(x))
相对熵(KL散度)和交叉熵之间的关系
來源:https://blog.csdn.net/Dby_freedom/article/details/83374650
交叉熵公式:
熵公式:
KL散度公式:
所以:
此处最重要的观察是,如果 S(A)S(A)S(A) 是一个常量,那么 DKL(A∣∣B)=H(A,B)D_{KL}(A||B)=H(A,B)DKL(A∣∣B)=H(A,B) ,也就是说KL散度和交叉熵在特定条件下等价。
《数学之美(第一版)》笔记 —— 第6章相关推荐
- 数学之美-读书笔记6-10章
文章目录 数学之美 第六章 信息的度量和作用 1信息熵 2信息的作用 3互信息 4延伸阅读 第7章 贾里尼克和现代语言处理 1早年生活 2 从水门事件到莫妮卡·莱文斯基 3一位老人的奇迹 第八章 简单 ...
- 数学之美-读书笔记11-15章
文章目录 数学之美 第十一章 如何确定网页和查询的相关性 1搜索关键词权重的科学度量-TF-IDF 第十二章 有限状态机和动态规划-地图与本地搜索的核心技术 1地址分析和有限状态机 2全球导航和动态规 ...
- 数据分析?他们早就开始用了——数学之美读书笔记
数据分析?他们早就开始用了? 标题取得很好听,其实就是<数学之美>这本书的读书笔记.这是每一个想学编程了解计算机的人都不应该错过的好书,必须推荐 光 看这个名字,你可能以为它就是一本讲数学 ...
- 数学之美读书笔记第一章
通信的原理和信息传播的模型 原理:信息被编码,再被解码的过程. 信息传播的模型: 传播人 => 信息 -> 编码信息 ->信道(声音介质,双绞线介质等) -> 解码信息 =&g ...
- 度量相似性数学建模_数学之美读书笔记
2020年6月读,先通读一遍,随后为写读书笔记又重新读了一遍,收获颇丰,虽然没有很多数学或者编程方面的知识,但正如作者所说,这本书讲述的是道,而非术. 读这本书让我领略到了科学的趣味,并不是枯燥的敲代 ...
- 《数学之美》---笔记006
第二十一章:拼音输入法的数学原理 输入法输入输入汉字的快慢取决于汉字编码的平均长度,通俗点讲,就是用击键次数乘以寻找这个键所需要的时间 键盘上可用编码的基本键26个字母加上10个数字键(十个数字用来消 ...
- 数学之美读书笔记--摘抄
"系列一: 统计语言模型" "利用统计语言模型进行语言处理" "假定任意一个词wi的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设)&quo ...
- 《数学之美》第十四章——余弦定理和新闻的分类
1 新闻的特征向量 我们在新闻页面中浏览新闻的时候,通常会有很多模块,在这些模块里面的新闻都是具有一定相关性的.如果单纯依靠人工对大量的新闻进行分类显然是不可能的,因此需要让计算机能够"算& ...
- java 对数取反_数学之美读书笔记-拼音输入法的数学原理
从理论上分析,输入汉字到底能有多快?这里需要用到信息论中的香农第一定理.假定在国标GB2312里面,一共有6700多个常用的汉字.如果不考虑汉字频率的分布,用键盘上的26个字母对汉字进行编码,两个字母 ...
- 《数学之美(第一版)》笔记整理 —— 目录
序 因为想对互联网的新兴技术有一些更好的了解,不断拓展自己的知识面,所以想到了吴军老师的<数学之美>,个人非常推荐大家阅读,可以对各种技术有一个入门的了解.吴军老师的讲法也很生动,对部分章 ...
最新文章
- 如何寻找蛋白和蛋白,基因和基因之间的相互作用---string
- Entity Framework技术系列之2:三种开发模式实现数据访问
- Windows下MongoDB安装及创建用户名和密码
- boost::trait::is_reference 的研究与修改
- php通过ip查询经纬度,php 获取客户端IP地址经纬度所在城市
- Go 语言web 框架 Gin 练习6
- mysql与dns_借助mysql和DNS view实现智能DNS(centos6.3 x64环境)
- YUV与像素值之间的关系
- Vue.JS项目中二级路由下刷新浏览器仍呈现当前路由的实现方案
- java猜拳游戏代码_Java实现简单猜拳游戏
- 用windbg分析minidump
- Mockjs - 前端模拟请求数据生成器
- kali安装最新版nessus
- 自动清理垃圾文件与文件夹脚本.bat
- 未来可期的TypeScript
- 【毕业设计】基于机器学习的餐厅销量预测 -大数据 python
- 如何实现WiFi下计算机互相访问,如何让两台笔记本电脑在无线连接下互相投屏...
- 大型传统企业如何向人工智能转型?
- Echarts树形结构图加点击事件
- python3 的 md5加密