数学之美：信息的度量和作用 KL散度自信息熵相对熵 KL divergence entropy

当上述公式中概率相等时会推出，H刚好等于5比特。
自信息：
一条信息的信息量与该信息的不确定性有关。如果想要搞懂一件非常不清楚的事，就需要了解大量的信息，相反如果一件事我们已经了如指掌，那就不需要太多的信息来了解它。香农认为，信息可以消除我们对于事物认识上的不确定性，越不可能发生的事情一旦发生就可以消除较大的不确定性，所以应当含有较多的信息。由此，香农认为，应当用事件的发生概率确定该事件所含的信息量，概率越小的事件所含的信息量越大，而必然事件的信息量最小，指定为0。

熵：
想要知道一个分布的信息量，就要先确定一个描述信息量的量纲。在信息论学科中，提出了熵的概念，记作 H。
对于一个随机变量，其概率分布所对应的熵表达如下：

或者是

变量的不确定性越大，熵也就越大，想要搞清楚它所需要的信息量也就越大。
上面两个公式其实类似，一个使用负号，一个使用除号。联合上面的自信息，可以知道，如果我们将自信息理解为一个事件出现的信息量，那么概率越大的事件所携带的信息量越少。那么负的概率和概率的倒数都可以表示信息量的多少。再使用期望信息量就能表示一个分布的信息量多少了。
如果我们使用 log2 作为底，熵可以被理解为：我们编码所有信息所需要的最小位数(minimum numbers of bits)。

信息的作用，条件熵：

为什么信息的引入会降低不确定性？
如果有x、y变量，根据x的分布可以计算出x的熵：

同时还知道x、y共同发生，以及在y条件下x的概率，则可以计算出在y条件下x的条件熵：

如果能够证明H(x)>=H(x|y)，则表示不确定性减小了。如果引入的信息完全和x无关，此时就会出现等号情况。这也就证明了为什么二元模型比一元模型好。
互信息：
上文介绍到引入相关性信息从而减少不确定性。例如随机事件“下雨”和“空气湿度”有关。但我们需要有个度量来衡量这些相关性。香农提出使用“互信息”概念来量化度量。公式如下：

这个公式其实就是上文提到的x熵H(x)和H(x|y)的差异性。也就是由于信息引入带来的不确定性减少量。也就是在了解y的情况下对对消除x不确定性所提供的信息量。

在自然语言处理中，只要数据足够，很容易计算出两个随机变量x，y的概率和互信息。因此互信息被广泛应用于自然语言处理中。

KL散度：
相对熵（relative entropy）也叫KL散度（KL divergence）。用于度量两个概率分布的差异性，也就是相关性。KL散度计算的就是数据的原分布与近似分布的概率的对数差的期望值。与变量的互信息不同的是，它用来衡量两个取值为正数的函数的相似性
设p和q是取值x的两个概率概率分布，则p对q的相对熵为：

记住：对于两个完全相同的函数，其相对熵为0；相对熵越大，两个函数的差异性越大，反之，相对熵越小，两个函数差异性越小；对于概率分布或者概率分布函数，如果取值大于0，相对熵可以衡量两个随机分布得差异性。

但注意KL散度不是距离度量（由于不满足对称性），且KL散度恒大于或等于0：

上图存在三个分布，一个是观察到的，另外两个属于我们预测的。那么预测哪一个更贴近原分布呢？就可以使用KL散度进行比较。

可以看到使用uniform分布表示原分布的信息损失量（0.338）要小于使用binomial分布（0.477）。所以优先选择uniform分布。

反向计算，可看到不满足对称性。
交叉熵：

应用：
1、衡量两随机分布间距离，如比较文本相似度。统计词频率，计算KL散度。
2、衡量选择的近似分布相比原分布损失多少信息。

英文版

数学之美：信息的度量和作用 KL散度自信息熵相对熵 KL divergence entropy相关推荐

数学之美——信息的度量
信息有大小吗,如何度量信息的大小?如何度量信息之间的关系? 今天主要讨论的几个问题,它是信息论的基础,相信看完这篇文章你会感觉: 其实每门学科都有它的神奇之处:) 信息熵在日常生活中,我们应该遇 ...
《数学之美》第六章信息的度量和作用
<数学之美> 第六章信息的度量和作用信息量等于不确定性的多少香农定理中,用比特bit这个概念来度量信息量.一个比特是一位二进制数,计算机中一个字节是8比特信息熵,一般用符号H表示 ...
《数学之美》第6章信息的度量和作用
1 信息熵一条信息的信息量与其不确定性有着直接的关系.信息量就等于不确定性的多少. 如何量化信息量的度量? 信息熵(entropy) 用符号H表示,单位是比特. 变量的不确定性越大,熵也就越大. ...
《数学之美》第六章——信息的度量和作用
1 信息熵一条信息的信息量与其不确定性有着直接的关系. 如何一件事情非常不确定,我们要搞清楚就需要了解大量的信息.如果一件事情了解较多,则只需要少量信息就可以搞清楚. 可以认为,信息量就等于不确定性 ...
度量相似性数学建模_数学之美读书笔记
2020年6月读,先通读一遍,随后为写读书笔记又重新读了一遍,收获颇丰,虽然没有很多数学或者编程方面的知识,但正如作者所说,这本书讲述的是道,而非术. 读这本书让我领略到了科学的趣味,并不是枯燥的敲代 ...
《数学之美》-吴军读书笔记
从吴军的<数学之美>找到了伽莫夫的<从一到无穷大>,前段时间先整理了<从一到无穷大>的笔记.现在整理下<数学之美>以巩固下. 近段时间AlfaGo 与人 ...
《数学之美》——吴军#读书笔记
<数学之美> 吴军第一章:文字和语言vs数字和信息主要内容概述:"语言和数学的产生都是为了同一个目的--记录和传播信息".科技是伴随着人类的不断进化而发展进步的.信 ...
《数学之美》读后感：看数学之美，悟技术之道
一.关于此书记得几年前看完了<浪潮之巅>之后,便知道了吴军老师还有另外一本非常出名的著作<数学之美>,但是一直没有列入计划阅读.直到2016年我看完了<硅谷之谜> ...
数学之美-读书笔记6-10章
文章目录数学之美第六章信息的度量和作用 1信息熵 2信息的作用 3互信息 4延伸阅读第7章贾里尼克和现代语言处理 1早年生活 2 从水门事件到莫妮卡·莱文斯基 3一位老人的奇迹第八章简单 ...

数学之美：信息的度量和作用 KL散度自信息熵相对熵 KL divergence entropy

数学之美：信息的度量和作用 KL散度自信息熵相对熵 KL divergence entropy相关推荐

最新文章

热门文章

数学之美：信息的度量和作用 KL散度 自信息 熵 相对熵 KL divergence entropy

数学之美：信息的度量和作用 KL散度 自信息 熵 相对熵 KL divergence entropy相关推荐

最新文章

热门文章

数学之美：信息的度量和作用 KL散度自信息熵相对熵 KL divergence entropy

数学之美：信息的度量和作用 KL散度自信息熵相对熵 KL divergence entropy相关推荐