读论文时,发现关于信息论一无所知的样子,基本概念十分混淆,下面是一些基本概念及对应的理解~

文章目录

  • 一. 信息量
  • 二. 熵
  • 三. 联合熵
  • 四. 条件熵
  • 五. 互信息
  • 六. 信道容量

一. 信息量

1. 定义

信息量是对事件的不确定性的度量,单位bit。

定义:在随机变量X中,事件x的(自)信息量I(X=x)I(X=x)I(X=x)简写为I(x)=−log2p(x)I(x)=−log_2 p(x)I(x)=−log2​p(x),单位bitbitbit。

可见,概率越小,信息量越大;概率越大,信息量越小。

2. 特性

(摘自曹雪红编著的《信息论与编码》)

  1. 当p(x)=1,I(x)=0p(x)=1,I(x)=0p(x)=1,I(x)=0;

  2. 当p(x)=0,I(x)=∞p(x)=0,I(x)=\inftyp(x)=0,I(x)=∞;

  3. 若两个事件x,y同时出现,可以用联合概率p(x,y)p(x,y)p(x,y)来表示他们同时发生的概率。这时,x,y同时出现这个联合事件(x,y)的自信息量为I(x,y)=−log2p(x,y)I(x,y)=−log2p(x,y)I(x,y)=−log2p(x,y);当x和y相互独立时p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)p(x,y)=p(x)p(y) ,那么就有I(x,y)=I(x)+I(y)I(x,y)=I(x)+I(y)I(x,y)=I(x)+I(y)。

  4. 若两个事件的出现不是独立的,而是有相互联系的,则可以用条件概率p(x∣y)p(x|y)p(x∣y)来表示,即在事件y出现的概率下,事件x发生的条件概率,这样x的条件自信息量可以定义为 I(x∣y)=−log2p(x∣y)I(x∣y)=−log_2p(x∣y)I(x∣y)=−log2​p(x∣y).

    事件xix_ixi​的不确定度在数值上等于它的信息量,而不论事件发生与否,只要其概率p(xi)p(x_i)p(xi​)存在,那么它就有不确定度;而事件xix_ixi​的信息量是事件发生后带给人们的信息量。

二. 熵

熵指的是随机变量的熵;熵是随机变量不确定度的度量。

1. 定义

  1. 设X是一个离散型随机变量,分布律为p(x)=p(X=x)p(x)=p(X=x)p(x)=p(X=x),x∈Xx\in Xx∈X为取值空间集合 ,则随机变量X的熵H(X)H(X)H(X)定义为:

H(X)=−∑x∈Xp(x)log2p(x)H(X)=−\sum_{x\in X}p(x) \text{log}_2 p(x) H(X)=−x∈X∑​p(x)log2​p(x)

​ 单位 bitbitbit;注意,单位取决于定义用到对数的底。当b=2b = 2b=2,熵的单位是bitbitbit;当b=eb= eb=e,熵的单位是natnatnat;而当b=10b=10b=10,熵的单位是 HartHartHart。

  1. 依据Boltzmann’s H-theorem,香农把随机变量 X 的熵值 Η 定义如下:

H(X)=E[I(X)]=E[−ln⁡(P(X))].\Eta(X) = \mathrm{E}[\mathrm{I}(X)] = \mathrm{E}[-\ln(\mathrm{P}(X))]. H(X)=E[I(X)]=E[−ln(P(X))].

​ 其中, P 为X的概率质量函数(probability mass function),E 为期望函数,而 I(X) 是X 的信息量(又称为自信息)。I(X) 本身是个随机变数。

2. 理解

熵是数学期望!熵是数学期望!熵是数学期望!

随机变量X的熵的含义就是X的所有可能的事件x∈Xx\in Xx∈X的自信息量( 即I(x)I(x)I(x) )的期望。

熵又称为自信息(self-information),表示信源 X 每发一个符号(不论发什么符号)所提供的平均信息量。

熵可以理解为不确定性的量度(或者说是多样性diversity的度量),因为越随机的信源的熵越大。熵可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。

随机变量X的实际上是X的分布的泛函数,不依赖于X的实际取值,只依赖于X的分布
泛函数:输入为函数,输出为实数的函数。

信息量是事件的信息量,熵是随机变量的信息量;

当所有的 p(x)p(x)p(x) 都相等,且值为 p(x)=1/Mp(x) = 1/Mp(x)=1/M 时,熵取得最大值;当且仅当X的分布是均匀分布时,熵最大。

三. 联合熵

1. 定义

对于联合分布为p(x,y)p(x,y)p(x,y)的一对离散型随机变量(X,Y)(X,Y)(X,Y),其联合熵(joint entropy) H(X,Y)H(X,Y)H(X,Y)定义为:
H(X,Y)=−∑x∈X∑y∈Yp(x,y)log2p(x,y)H(X,Y)=-\sum_{x\in X} \sum_{y \in Y}p(x,y) \mathrm{log}_2 p(x,y) H(X,Y)=−x∈X∑​y∈Y∑​p(x,y)log2​p(x,y)
单位bit。

2. 理解

  1. 联合熵的含义就是所有可能事件(x,y)的自信息量的期望。
    H(X,Y)=E(I(X,Y))=−E(log2p(x,y))=−∑所有x∑所有yp(x,y)log2p(x,y)\mathrm{H}(X,Y)=\mathrm{E}(\mathrm{I}(X,Y))=−\mathrm{E}(\mathrm{log}_2p(x,y)) \\ =-\sum_{所有x} \sum_{所有y}p(x,y) \mathrm{log}_2 p(x,y) H(X,Y)=E(I(X,Y))=−E(log2​p(x,y))=−所有x∑​所有y∑​p(x,y)log2​p(x,y)

  2. 联合熵实际上就是描述一对随机变量平均所需要的信息量。

四. 条件熵

1. 定义

在给定随机变量X的条件下,随机变量Y的不确定性。
H(Y∣X)=−∑x∈Xp(x)H(Y∣X=x)=−∑x∈Xp(x)∑y∈Yp(y∣x)log2p(y∣x)=−∑x∈X∑y∈Yp(x,y)log2p(y∣X=x)H(Y|X)=-\sum_{x\in X} p(x)H(Y|X=x) \\ =-\sum_{x\in X} p(x) \sum_{y \in Y} p(y|x) \mathrm{log}_2 p(y|x) \\ =-\sum_{x\in X} \sum_{y \in Y}p(x,y) \mathrm{log}_2 p(y|X=x) \\ H(Y∣X)=−x∈X∑​p(x)H(Y∣X=x)=−x∈X∑​p(x)y∈Y∑​p(y∣x)log2​p(y∣x)=−x∈X∑​y∈Y∑​p(x,y)log2​p(y∣X=x)

2. 理解

注意,这个条件熵,不是指在给定某个数(某个变量为某个值)的情况下,另一个变量的熵是多少,变量的不确定性是多少?而是期望!因为条件熵中X也是一个变量,意思是在一个变量X的条件下(变量X的每个值都会取),另一个变量Y熵对X的期望。

3. 定理链式法则
证明:

五. 互信息

随机变量X为信源符号集合,随机变量Y为信宿符号集合,则互信息I(X;Y)I(X;Y)I(X;Y)表示信宿收到一个符号时,平均能够获得的信源的信息量;也可理解为X与Y之间的离散信道上传输每个符号的平均信息量。

定义先验概率为信源X的分布p(xi)p(x_i)p(xi​)。当信宿收到一个符号yjy_jyj​后,信宿可以计算信源发出各符号的条件概率p(xi∣yj)p(x_i∣y_j)p(xi​∣yj​),定义为后验概率。

随机变量可等价为信源,事件可等价为符号。

1. 定义

定义:事件yjy_jyj​与事件xix_ixi​间的互信息量表示从事件y发生所得到的关于事件x的信息量。互信息量定义为后验概率与先验概率之比的对数。

平均互信息I(X;Y)I(X;Y)I(X;Y)克服了互信息量I(xi;yj)I(x_i;y_j)I(xi​;yj​)的随机性,成为一个确定的量。因此可以作为信道中流通信息量的整体测度。
即:

2. 理解

因为H(X)是符号X的熵或者不确定度,而H(X∣Y)H(X|Y)H(X∣Y)是当Y已知时X的不确定度,那么可见“Y已知”这件事使得X的不确定度减少了I(X;Y)I(X;Y)I(X;Y),这意味着“Y已知后”所获得的关于X的信息是I(X;Y)I(X;Y)I(X;Y).

由此可以看出,互信息I(X;Y)I(X;Y)I(X;Y)是在给定Y知识条件下X的不确定度的缩减量。则,
联系到前面的

可得,


由于 H(X|X) = 0, 所以, H(X) = H(X) – H(X|X) = I(X; X)

这一方面说明了为什么熵又称自信息,另一方面说明了两个完全相互依赖的变量之间的互信息并不是一个常量,而是取决于它们的熵。

六. 信道容量

信息传输率:R=I(X;Y)R=I(X;Y)R=I(X;Y) ,单位bit/符号
信道容量:最大的信息传输率。
C=maxp(x)I(X;Y)C=\mathrm{max}_{p(x)}\mathrm{I}(X;Y) C=maxp(x)​I(X;Y)
单位bit/符号。

根据信道容量的定义,就是在固定信道条件下,对所有可能的输入概率分布p(x)求平均互信息的极大值。

I(X;Y)I(X;Y)I(X;Y)是输入概率的上凸函数,故极大值一定存在。

信道的互信息I(X;Y)I(X;Y)I(X;Y)的极大值即等于信道容量。

————————————————
原文链接:https://blog.csdn.net/qq_34440148/article/details/84642402

信息量,熵,互信息,信道容量等相关概念相关推荐

  1. 《信息与编码》考试复习笔记6----第六章连续信源熵和信道容量(考点在连续信道容量)

    系列文章链接目录 一.<信息与编码>考试复习笔记1----第一章概论 二.<信息与编码>考试复习笔记2----第二章离散信息源 三.<信息与编码>考试复习笔记2-- ...

  2. 自信息/熵/联合熵/条件熵/相对熵/交叉熵/互信息及其相互之间的关系

    [深度学习基础]:信息论(一)_自信息/熵/联合熵/条件熵/相对熵/交叉熵/互信息及其相互之间的关系_bqw的博客-CSDN博客 详解机器学习中的熵.条件熵.相对熵和交叉熵 - 遍地胡说 - 博客园

  3. 关于信息论中熵、相对熵、条件熵、互信息、典型集的一些思考

    1. 绪论 0x1:信息论与其他学科之间的关系 信息论在统计物理(热力学).计算机科学(科尔莫戈罗夫复杂度或算法复杂度).统计推断(奥卡姆剃刀,最简洁的解释最佳)以及概率和统计(关于最优化假设检验与估 ...

  4. 关于信息论中熵、相对熵、、条件熵、互信息、典型集的一些思考

    1. 绪论 0x1:信息论与其他学科之间的关系 信息论在统计物理(热力学).计算机科学(科尔莫戈罗夫复杂度或算法复杂度).统计推断(奥卡姆剃刀,最简洁的解释最佳)以及概率和统计(关于最优化假设检验与估 ...

  5. 信息论(熵、条件熵、联合熵、互信息)

    熵 熵用于描述一个随机变量的不确定性的大小,熵越大说明该随机变量的不确定性增加,包含的信息量越大(越是确定的事件所含有的信息量越小,必然事件的熵为0). H(X)=−∑x∈Xp(x)logp(x)(1 ...

  6. 我理解的信息论——自信息、熵、互信息

    原文:http://blog.sina.com.cn/s/blog_5fc770cd0100ia5k.html 信息论    信息是关于事物的运动状态和规律的认识,它可以脱离具体的事物而被摄取.传输. ...

  7. [信息论与编码]离散信道及信道容量(三)

    2021/11/28 from Xwhite 信道容量及其计算 信道容量 信道容量的计算 离散(准)对称信道的容量 计算通法 信息传输率 信息传输率R:信道中平均每个符号所传输的信息量 平均互信息I( ...

  8. 高数篇(四)-- 互信息概述与matlab实现

    在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度.不同于相关系数,互信息并不局限于实值随 ...

  9. 机器学习-特征中的相关性及相关系数、卡方检验、互信息

    在机器学习中,对于特征选择的方法分为三类:过滤式(Filter),包裹式(Wrapper),和嵌入式(Embedding).过滤式方法是先按照某种规则对数据集进行特征选择,然后再训练学习器,特征选择过 ...

最新文章

  1. zoj 3329 概率dp
  2. screen,client,page三种确定鼠标坐标的区别和原生JS事件写法,区别于Jquery的$.on(x,y);和$.click()...
  3. 为什么我的devc 调试不了c 语言,devc++为什么调试不了,求大神帮看看!
  4. Word设置每页不同的页眉/修改或去掉页眉横线/页眉标题在横线上下方的设置
  5. 借助NetFlow Analyzer的IPAM SPM插件,实现IP和交换机端口管理
  6. 【洛谷】P1138 第k小整数
  7. OS课程 ucore_lab1实验报告
  8. 数据库相关基础知识总结
  9. 怎么设置计算机桌面一键关机,电脑一键关机按钮创建 教你在桌面一点就自动关机...
  10. jar构建docker镜像_将jar包打包为docker镜像
  11. Kali [Sqlmap]
  12. MATLAB读dat文件中存储的十六进制数
  13. java类的心得_java面向对象学习心得3篇
  14. shell制作简易计算器和可能出现的“too many argument”问题的解决
  15. windows系统桌面显示计算机图标
  16. (产品贴)移动护理平台
  17. 使用xmanager实现图形界面化
  18. google velvet_LG Velvet 5G值得推出新的设计方向
  19. 2012年12月6日
  20. GIS与地质灾害评价——坡向分析

热门文章

  1. 化学绘图软件ChemFinder怎样连接数据库
  2. 【文化课每周学习记录】2019.3.3——2019.3.9
  3. 微信SDK开发学习第一课
  4. Pandas 数据挖掘 分析
  5. Android 开发 打开手电筒
  6. 《计算机网络——自顶向下方法》学习笔记——应用层
  7. 001、JDK环境配置
  8. 华雨欢:多日震荡趋势明显,本周即将结束要开启每周大行情了
  9. Python实战案例:旅游方面博文的数据分析
  10. SQL语句中引号(')、quotedstr()、('')、format()在SQL语句中的用法