信息散度(交叉熵\kl距离)

思考题:对于只用A,B,C,D四个单词写的信使用0和1进行编码的一个信息的平均编码长度?思考题:对于只用A,B,C,D四个单词写的信\\ 使用0和1进行编码的一个信息的平均编码长度?\\ 思考题:对于只用A,B,C,D四个单词写的信使用0和1进行编码的一个信息的平均编码长度?
如果使用非变长编码平均长度为2,与单词出现的频率无关如果使用非变长编码平均长度为2,与单词出现的频率无关如果使用非变长编码平均长度为2,与单词出现的频率无关

如果使用变长编码需要考虑“前缀码”的问题(prefix−property)这样使用“0”来代表一个信息,因为前缀的问题,“0”将占据12的空间(也就是不能再以0开头的其他长度的码了)实际上对于任何一个长为l的编码,其占据的空间为12l如果使用变长编码需要考虑“前缀码”的问题(prefix- property)\\ 这样使用“0”来代表一个信息,因为前缀的问题,“0”将占据\frac{1}{2}的空间(也就是不能再以0开头的其他长度的码了)\\ 实际上对于任何一个长为l的编码,其占据的空间为\frac{1}{2^l} 如果使用变长编码需要考虑“前缀码”的问题(prefix−property)这样使用“0”来代表一个信息,因为前缀的问题,“0”将占据21​的空间(也就是不能再以0开头的其他长度的码了)实际上对于任何一个长为l的编码,其占据的空间为2l1​
f(x)=12lf(x)=\frac{1}{2^l}f(x)=2l1​

使用短的码字能够减少平均信息长度,但是会更多地消耗码字空间使用短的码字能够减少平均信息长度,但是会更多地消耗码字空间使用短的码字能够减少平均信息长度,但是会更多地消耗码字空间
应该为某个词分配多少花费来产生相应的码字呢应该为某个词分配多少花费来产生相应的码字呢应该为某个词分配多少花费来产生相应的码字呢

按照词汇使用的频繁程度来为对应的码字付出相应的空间。空间=12l证明这种情况是最优的:、、、、、、、、、、、、、、、、、、、、、、、、省略按照词汇使用的频繁程度来为对应的码字付出相应的空间。空间=\frac{1}{2^l} \\ 证明这种情况是最优的:、、、、、、、、、、、、、、、、、、、、、、、、\\ 省略 按照词汇使用的频繁程度来为对应的码字付出相应的空间。空间=2l1​证明这种情况是最优的:、、、、、、、、、、、、、、、、、、、、、、、、省略
因为占据的空间为12l占据的空间为\frac{1}{2^l}占据的空间为2l1​,所以长度l=log2(1空间)l=log_2(\frac{1}{空间})l=log2​(空间1​),由此得到长度的均值:
H(p)=∑xp(x)log2(1p(x))H(p)=\sum_x p(x)log_2(\frac{1}{p(x)})H(p)=x∑​p(x)log2​(p(x)1​)


比如:A:12,B:14,C:18,D:18比如:A:\frac{1}{2},B:\frac{1}{4},C:\frac{1}{8},D:\frac{1}{8}比如:A:21​,B:41​,C:81​,D:81​
H(p)=∑xp(x)log2(1p(x))=12∗1+14∗2+18∗3+18∗3H(p)=\sum_x p(x)log_2(\frac{1}{p(x)})=\frac{1}{2}*1+\frac{1}{4}*2+\frac{1}{8}*3+\frac{1}{8}*3H(p)=x∑​p(x)log2​(p(x)1​)=21​∗1+41​∗2+81​∗3+81​∗3


思考题:罗密欧与朱丽叶,只用A,B,C,D四个单词写信与回信,但是他们消息对单词的使用频率不同思考题:罗密欧与朱丽叶,\\只用A,B,C,D四个单词写信与回信,但是他们消息对单词的使用频率不同\\ 思考题:罗密欧与朱丽叶,只用A,B,C,D四个单词写信与回信,但是他们消息对单词的使用频率不同
使用一种分布的最优编码对另一个分布进行编码,得到的码字的平均长度称为交叉熵(cross−entropy)Hp(q)=∑xq(x)log2(1p(x))再罗密欧的频率p下编码然后朱丽叶以q频率使用使用一种分布的最优编码对另一个分布进行编码,得到的码字的平均长度称为交叉熵(cross-entropy)\\ H_p(q)=\sum_x q(x)log_2(\frac{1}{p(x)})\\ 再罗密欧的频率p下编码然后朱丽叶以q频率使用 使用一种分布的最优编码对另一个分布进行编码,得到的码字的平均长度称为交叉熵(cross−entropy)Hp​(q)=x∑​q(x)log2​(p(x)1​)再罗密欧的频率p下编码然后朱丽叶以q频率使用

性质

不满足对称性,不满足三角不等式所以叫散度
一般地,Hp(q)≠Hq(p),即交叉熵不具有对称性交叉熵给了我们一种表达两个概率分布差异程度的方法。两个概率分布p与q的差异越大,p相对于q的交叉熵就会比p自身的熵大得更多。一般地,H_p(q)\neq H_q(p),即交叉熵不具有对称性\\ 交叉熵给了我们一种表达两个概率分布差异程度的方法。\\ 两个概率分布 p 与q 的差异越大,p 相对于q 的交叉熵就会比p 自身的熵大得更多。 一般地,Hp​(q)​=Hq​(p),即交叉熵不具有对称性交叉熵给了我们一种表达两个概率分布差异程度的方法。两个概率分布p与q的差异越大,p相对于q的交叉熵就会比p自身的熵大得更多。
最有趣的地方在于熵与交叉熵之间的差。这个差代表着某个分布下的消息由于使用另一个分布下的编码,而额外使用的长度的平均值。如果这两个分布是相同的,那么这个差就是零。随着分布的差异变大,得到的差也会变大。最有趣的地方在于熵与交叉熵之间的差。这个差代表着某个分布下的消息由于使用另一个 分布下的编码,\\而额外使用的长度的平均值。如果这两个分布是相同的,那么这个差就是零。 随着分布的差异变大,得到的差也会变大。 最有趣的地方在于熵与交叉熵之间的差。这个差代表着某个分布下的消息由于使用另一个分布下的编码,而额外使用的长度的平均值。如果这两个分布是相同的,那么这个差就是零。随着分布的差异变大,得到的差也会变大。

信息论:信息熵+信息散度(交叉熵\kl距离)相关推荐

  1. 信息量-log2P(莫斯编码使用频繁P大的字符编码段信息量少)、信息熵:期望E=-Plog2P、两点分布交叉熵=KL散度=相对熵=-plnp-(1-p)ln(1-p)不对称、JS散度对称

    信息熵为什么要定义成-Σp*log§? 信息熵为什么要定义成-Σp*log(p)? 在解释信息熵之前,需要先来说说什么是信息量. 信息量是对信息的度量,单位一般用bit. 信息论之父克劳德·艾尔伍德· ...

  2. 信息熵、交叉熵、KL散度公式的简单理解

    整理:我不爱机器学习 1 信息量 信息量是对信息的度量,就跟时间的度量是秒一样,考虑一个离散的随机变量 x 的时候,当观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢? 例如听到太阳从东方升 ...

  3. 机器学习:什么是困惑度?从信息熵和交叉熵谈起

    一.前言 这片博客从信息论的角度解读信息熵.交叉熵和困惑度.有助于帮助在机器学习之路上理解相应的损失函数和评价指标.要了解交叉熵和困惑度是怎么计算的,以及为什么这样计算是有效的,我们需要从基础的信息量 ...

  4. 相对熵、信息熵和交叉熵

    what: 交叉熵是信息论的重要概念:用于度量两个概率分布之间的差异性: 其他相关知识: 信息量: 信息是用来消除随机不确定的东西: 信息量的大小与信息发生的概率成反比: I(x)=−log(P(x) ...

  5. 信息量、信息熵、交叉熵、KL散度、JS散度、Wasserstein距离

    前两篇介绍了目标检测中的回归损失函数,本来这篇打算介绍目标检测中的分类损失函数.但是介绍classification loss function自然绕不过交叉熵,所以还是简单的把信息论中的一些概念在这 ...

  6. GANs之信息量、信息熵、交叉熵、KL散度、JS散度、Wasserstein距离

    信息量也叫做香农信息量,常用于刻画消除随机变量X在x处的不确定性所需的信息量大小.假设只考虑连续型随机变量的情况,设p为随机变量X的概率分布,即p(x)为随机变量X在X=x处的概率密度函数值,随机变量 ...

  7. matlab图像信息熵交叉熵,【机器学习】信息量,信息熵,交叉熵,KL散度和互信息(信息增益)...

    首先先强烈推荐一篇外文博客Visual Information Theory这个博客的博主colah是个著名的计算机知识科普达人,以前很是著名的那篇LSTM讲解的文章也是他写的.这篇文章详细讲解了信息 ...

  8. 信息熵、交叉熵公式的理解

    一 信息熵的意义: 代表**信息量(不确定度)**的大小.变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大. ###二 信息熵的公式定义: H(X)=E[log2P(X)−1]=∑iP ...

  9. 信息熵和交叉熵的细节理解

    先陈述我这里说了半天的信息熵是个什么东西? 这里说的信息熵是什么东西? 信息熵主要是应用在集成学习作为评价指标,判定我们某次的分类是不是效果足够好. 这里说的交叉熵是什么东西? 虽然之前还有其他应用, ...

最新文章

  1. 阿里巴巴研究员叔同:云原生是企业数字创新的最短路径
  2. C++输出变量类型、max报错原因
  3. hdu 2255二分图最大权值匹配的KM 算法
  4. 重温《数据库系统概论》【第一篇 基础篇】【第5章 数据库完整性】
  5. .NET 的 WCF 和 WebService 有什么区别?(转载)
  6. Java使用Redis
  7. 一个兼容IE7\IE8,H5的多功能视频播放器,H5视频播放器兼容Flash视频播放器
  8. cc2430的中文资料
  9. 嵌入式驱动模块的加载与卸载
  10. efi分区能不能删除 win10_Win10删除了EFI分区:以下是恢复它的方法
  11. js原生下载excel(xlxs及xls格式)、word、png(图片格式)方法
  12. PMBOK(第六版) 学习笔记 ——《第八章 项目质量管理》
  13. Odoo相关资源(持续更新中)
  14. 深入理解深度学习——语境词嵌入(Contextual Word Embedding)
  15. java基础 第一章 对象入门
  16. SSL双向验证--keytool实现自签名证书
  17. 厉害了!中国农历算法
  18. BUI前端框架·首页代码
  19. 单变量分析绘图及回归分析绘图【知识整理】
  20. 【NOIP2013模拟】太鼓达人

热门文章

  1. winscp从远程下载文件错误码5
  2. 计算机等级考试目的,计算机等级考试的目的是什么?二级Office最新版考试大纲...
  3. C语言 打印空心菱形
  4. html中th可以换行吗,如何在th和td之间放置换行符?
  5. 姗姗来迟的2022年终总结
  6. JAP关联MyBatis
  7. 2019年创业公司死亡全名单
  8. 论文阅读笔记 | MLP系列——MLP部分汇总(gMLP,aMLP,ResMLP,RepMLP)
  9. 语音文件转文字软件哪个好?来看看这几款软件吧
  10. Swiper插件使用方法