在信息论中,熵(entropy)是表示随机变量不确定性的度量,如果一个事件是必然发生的,那么他的不确定度为0,不包含信息。假设 X X X是一个取有限个值的离散随机变量,其概率分布为:
P ( X = x i ) = p i P(X=x_i)=p_i P(X=xi​)=pi​
则随机变量 X X X的熵定义为:
H ( X ) = − ∑ i = 1 n p i l o g ( p i ) H(X)=-\sum_{i=1}^np_ilog(p_i) H(X)=−i=1∑n​pi​log(pi​)
通常上式中 l o g log log的底数为2或 e e e(自然对数),这时熵的单位分别称作比特(bit)或纳特(nat)。并且通过上述定义可知,熵的取值只依赖于 X X X的分布,而与 X X X的具体值无关。
以 P = 0.5 P=0.5 P=0.5的二项分布为例,熵 H H H随概率 p p p变化的曲线如下所示:

条件熵

设有随机变量 ( X , Y ) (X, Y) (X,Y),其联合概率分布为:
P ( X = x i , Y = y j ) = p i j , i = 1 , 2 , . . . , n ; j = 1 , 2 , . . . , m P(X=x_i,Y=y_j)=p_{ij},\ i=1,2,...,n;\ j=1,2,...,m P(X=xi​,Y=yj​)=pij​, i=1,2,...,n; j=1,2,...,m
条件熵(conditional entropy)表示在已知随机变量 X X X的条件下随机变量 Y Y Y的不确定性,定义为 X X X给定条件下 Y Y Y的条件概率分布的熵对 X X X的数学期望:
H ( Y ∣ X ) = ∑ i = 1 n p i H ( Y ∣ X = x i ) , p i = P ( X = x i ) , i = 1 , 2 , . . . , n . H(Y|X)=\sum_{i = 1}^{n}p_iH(Y|X=x_i),\quad p_i=P(X=x_i),i=1,2,...,n. H(Y∣X)=i=1∑n​pi​H(Y∣X=xi​),pi​=P(X=xi​),i=1,2,...,n.
在计算条件熵时,需要先分别计算 X X X取不同值时变量 Y Y Y的熵,即 H ( Y ∣ X = x i ) H(Y|X=x_i) H(Y∣X=xi​),总共 n n n个(假设 X X X有 n n n种不同取值),然后求其对 X X X的期望。

互信息

互信息,在机器学习(决策树算法)中也称为信息增益。特征 A A A对训练数据集 D D D的信息增益 g ( D , A ) g(D,A) g(D,A),定义为集合 D D D的经验熵 H ( D ) H(D) H(D)与特征 A A A给定的条件下 D D D的经验条件熵 H ( D ∣ A ) H(D|A) H(D∣A)之差,即:
g ( D ∣ A ) = H ( D ) − H ( D ∣ A ) g(D|A)=H(D)-H(D|A) g(D∣A)=H(D)−H(D∣A)

联合熵

联合熵度量的是一个联合分布的随机系统的不确定度,同样以联合概率分布 ( X , Y ) (X, Y) (X,Y)为例, P ( X = x i , Y = y j ) = p i j , i = 1 , 2 , . . . , n ; j = 1 , 2 , . . . , m P(X=x_i,Y=y_j)=p_{ij},\ i=1,2,...,n;\ j=1,2,...,m P(X=xi​,Y=yj​)=pij​, i=1,2,...,n; j=1,2,...,m,则联合熵 H ( X , Y ) H(X,Y) H(X,Y)的定义为:
H ( X , Y ) = − ∑ i = 1 n ∑ j = 1 m p i j l o g ( p i j ) H(X,Y)=-\sum_{i=1}^{n}\sum_{j=1}^{m}p_{ij}log(p_{ij}) H(X,Y)=−i=1∑n​j=1∑m​pij​log(pij​)
联合熵具有以下性质(对于变量数目大于2的情况同样成立):

  1. 联合熵大于其中任一变量独立的熵: H ( X , Y ) > m a x { H ( X ) , H ( Y ) } H(X,Y)>max\{H(X),H(Y)\} H(X,Y)>max{H(X),H(Y)}
  2. 联合熵小于所有变量独立熵之和: H ( X , Y ) &lt; H ( X ) + H ( Y ) H(X,Y)&lt;H(X)+H(Y) H(X,Y)<H(X)+H(Y)
  3. H ( X , Y ) = H ( Y ∣ X ) + H ( X ) = H ( X ∣ Y ) + H ( Y ) H(X,Y)=H(Y|X)+H(X)=H(X|Y)+H(Y) H(X,Y)=H(Y∣X)+H(X)=H(X∣Y)+H(Y)
  4. g ( Y ∣ X ) = H ( X ) + H ( Y ) − H ( X , Y ) g(Y|X)=H(X)+H(Y)-H(X,Y) g(Y∣X)=H(X)+H(Y)−H(X,Y)

熵、条件熵、联合熵、互信息的理解相关推荐

  1. 机器学习进阶(4):熵,联合熵,条件熵,互信息的推导和联系

    文章目录 前言 熵 联合熵 条件熵 互信息 几种熵之间的关系 前言 机器学习领域有一个十分重要的概念:熵.大家或多或少都听过一些熵的概念和定义,但是可能对他们的关系不是很清楚,本文就熵,联合熵,条件熵 ...

  2. 【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度

    1 信息熵 熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质 单调性,发生概率越高的事件,其 ...

  3. 信息安全—密码学信息熵信息理论基础—熵的概念(熵、联合熵、条件熵、平均互信息)

    数学基础:概率论乘法法则 两个事件相互独立:P(A∩B) = P(A)×P(B) · 意思是事件A和事件B同时发生的概率 = 事件A发生的概率 × 事件B发生的概率 · · 举个栗子:掷两枚硬币硬币同 ...

  4. 熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵

    封面镇楼 目录 一.熵 二.联合熵 三.相对熵(KL散度) 四.交叉熵 五.JS散度 六.互信息 七.条件熵 八.总结 一.熵 对于离散型随机变量,当它服从均匀分布时,熵有极大值.取某一个值的概率为1 ...

  5. 解释机器学习中的熵、联合熵、条件熵、相对熵和交叉熵

    原文地址:https://www.cnblogs.com/kyrieng/p/8694705.html 1.信息熵 (information entropy) 熵 (entropy) 这一词最初来源于 ...

  6. 一文理清楚:熵,条件熵,KL散度(相对熵),交叉熵,联合熵,信息增益,信息增益比,GINI系数

    熵 熵是表示随机变量不确定性的度量. 设 X X X是一个有N个取值有限的随机变量,其概率分布为: P ( X = i ) = p i , i = 1 , 2... N P(X=i)=p_i , i= ...

  7. 详解熵、最大熵、联合熵和条件熵、相对熵以及互信息之间的关系

    信息量的定义 某事件发生的概率小,则该事件的信息量大. 定义随机变量 X X X的概率分布为P(X)" role="presentation" style="p ...

  8. 决策树基础—比特化Bits,信息熵,条件熵,联合熵

    决策树基础-比特化Bits,信息熵,条件熵,联合熵 比特化(Bits) 一般化的比特化 信息熵 条件熵 联合熵 知道了决策树的直观理解,接下来了解一些决策树要用到了知识 比特化(Bits) 假设我现在 ...

  9. 直观理解信息论概念(条件熵,联合熵,互信息,条件互信息)

    1.概括图 其中:A=I(x;y|z),B=I(x;z|y),C=I(y;z|x),D=I(x;y;z) 这里不难看出以下几点结论. 一.在某个条件下,意味着已知这部分条件的信息,在计算条件熵(熵即不 ...

最新文章

  1. oracle rac 图形化界面,oracle 10g rac配置vipca进不了图形界面,请高手帮忙分析下
  2. Git++ - 有趣的命令
  3. HarmonyOS之深入解析编译构建的配置和代码混淆
  4. 基于SpringBoot+mybatis+layui就业管理系统设计和实现
  5. 组态软件运行在云服务器是上,如何将本地组态画面发布到云服务器
  6. java集群调度_集群环境下定时调度的解决方案之Quartz集群
  7. (转)马云的江湖 PK 史玉柱的兵法
  8. vs怎么把文字超链接_「Excel技巧」Excel表格如何制作带超链接的导航目录
  9. android 替代map,Android为什么推荐使用SparseArray来替代HashMap?
  10. Python3之日志模板
  11. matlab绘制符号函数的ezplot函数
  12. 「最全」电子元器件图片、名称、符号图形对照(精编请收藏)
  13. 终极玩转Power BI中Drill-down Choropleth 地图
  14. 什么是大数据以及大数据的相关技术?
  15. 第3章 结构之法——电话号码对应英语单词
  16. 对话哈佛大学教授Lukin:量子计算将在我们有生之年普及! | AI英雄
  17. 交换机口不够用能再加一个吗_PoE交换机常见6大问题,一文掌握
  18. fluent bit 安装及配置
  19. 第三代人工智能基础设施背后,是一次技术应用的常识普及运动
  20. 基于jQuery的软键盘

热门文章

  1. 一道技术美术的面试题
  2. 群晖nas中使用registry搭建docker镜像私人服务器以及设置群晖远程docker服务
  3. VAR-MVGARCH-BEKK模型的winrats实现
  4. iptables实现华为云服务器无公网IP上网
  5. 阿里巴巴Java岗位从P5-P7的成长笔记【总共3283页PDF文档】
  6. [Python]游戏编程--人工智能1
  7. osgi框架基础原理与实例一
  8. http://coolshell.cn/
  9. 微信小程序实现蓝牙打印(图片、二维码、文字)
  10. ESP32 入门笔记01:乐鑫ESP32-DevKitC开发板信息、开发环境搭建以及学资料准备