文章目录

  • 1.1 信息和信息的测量
    • 1.1.1 什么是信息
    • 1.1.1 信息怎么表示
  • 1.2 信息熵
  • 1.3 条件熵和联合熵
    • The Chain Rule (Relationship between Joint Entropy and Conditional Entropy)
  • 1.4 互信息
  • 1.5 相对熵和交叉熵

1.1 信息和信息的测量

1.1.1 什么是信息

信息是对接收者来说是一种不确切的知识,可以认为是一种不确定性的度量。比如下面的例子,假设随机变量 X= ‘出生年份’:

1) I will be one year older next year. ----> No information
2) I was born in 1993.  ----> little information
3) I was born in 1990s. ---->More information

可见,信息量随机变量可能值的数量相关。随机变量能取到的值越多,代表事件的不确定度越大,包含的信息越多。不确定度越大,信息量越多

1.1.1 信息怎么表示

例如,一个班有30个学生,我们要用一个二进制序列区分他们,需要多少bits?

log230=4.907bitslog_2 30 = 4.907 bitslog2​30=4.907bits

所以至少需要5个bits才能代表每个学生

1.2 信息熵

在通信系统中,信息熵用来表示平均每符号携带多少比特(bit)信息,信息熵的单位是 bit/symbol(比特每符号)。其背景如下:

我们需要把一个信源符号,转化成一个0-1的二进制比特形式,那么需要多少个二进制比特位,才能表达这个通信符号的所有信息呢?

上文说到,信息代表不确定性,与事件的概率相关。那么假设一个信源有5种可能的符号,记为x1,x2,x3,x4,x5x_1,x_2,x_3,x_4,x_5x1​,x2​,x3​,x4​,x5​, 并且每个符号出现的概率分别为P(x1),P(x2),P(x3),P(x4),P(x5)P(x_1), P(x_2),P(x_3),P(x_4),P(x_5)P(x1​),P(x2​),P(x3​),P(x4​),P(x5​),
所以(平均每比特携带的信息量)为:
H(X)=E[log2P(X)−1]=∑i=15P(xi)∗log2P(xi)−1H(X) = E [ log_2 P(X)^{-1} ] = \sum_{i=1}^{5}P(x_i) *log_2P(x_i)^{-1}H(X)=E[log2​P(X)−1]=∑i=15​P(xi​)∗log2​P(xi​)−1

1.3 条件熵和联合熵

联合熵上与联合分布相关。联合熵表示为:
H(X,Y)=−∑xϵX∑yϵYP(X,Y)log2P(X,Y)H(X,Y ) = - \sum_{x\epsilon X}\sum_{y\epsilon Y}P(X,Y) log_2 P(X,Y)H(X,Y)=−∑xϵX​∑yϵY​P(X,Y)log2​P(X,Y)
条件熵上与条件分布联合分布相关。条件熵表示为:
H(X∣Y)=−∑xϵX∑yϵYP(X,Y)log2P(X∣Y)H(X|Y ) = - \sum_{x\epsilon X}\sum_{y\epsilon Y}P(X,Y) log_2 P(X|Y)H(X∣Y)=−∑xϵX​∑yϵY​P(X,Y)log2​P(X∣Y)

The Chain Rule (Relationship between Joint Entropy and Conditional Entropy)

链式法则:
H(X,Y)=H(X∣Y)+H(Y)=H(X)+H(Y∣X)H(X,Y ) = H(X|Y ) + H(Y) = H(X) + H(Y|X)H(X,Y)=H(X∣Y)+H(Y)=H(X)+H(Y∣X)

1.4 互信息

互信息为减去条件熵
I(X,Y)=H(Y)−H(Y∣X)=H(X)−H(X∣Y)I(X,Y ) = H(Y) - H(Y|X ) = H(X) - H(X|Y)I(X,Y)=H(Y)−H(Y∣X)=H(X)−H(X∣Y)
互信息为 熵 的和减去 联合熵
I(X,Y)=H(Y)+H(X)−H(X,Y)I(X,Y ) = H(Y) + H(X ) - H(X,Y)I(X,Y)=H(Y)+H(X)−H(X,Y)

上诉过程可以用图加深理解:

通俗理解:一个变量A对变量B不确定性的削弱程度。
互信息是指是两个随机变量之间的关联程度,即给定一个随机变量后,另一个随机变量不确定性的削弱程度,因而互信息取值最小为0,意味着给定一个随机变量对确定一另一个随机变量没有关系,最大取值为随机变量的熵,意味着给定一个随机变量,能完全消除另一个随机变量的不确定性。
互信息新词发现
左右熵
某词出现的情况下,其左边词和右边词的搭配越丰富,效果越好。
互信息,

1.5 相对熵和交叉熵

相对熵和交叉熵

信息论复习笔记(1):信息熵、条件熵,联合熵,互信息、交叉熵,相对熵相关推荐

  1. 信息量、信息熵、KL散度、交叉熵

    一.信息量 定义: 香农(C. E. Shannon)信息论应用概率来描述不确定性.信息是用不确定性的量度定义的.一个消息的可能性愈小,其信息愈多:而消息的可能性愈大,则其信息量愈少:事件出现的概率小 ...

  2. 熵,信息熵,香农熵,微分熵,交叉熵,相对熵

    2019-07-13 https://blog.csdn.net/landstream/article/details/82383503 https://blog.csdn.net/pipisorry ...

  3. TensorFlow笔记-06-神经网络优化-损失函数,自定义损失函数,交叉熵

    TensorFlow笔记-06-神经网络优化-损失函数,自定义损失函数,交叉熵 神经元模型:用数学公式比表示为:f(Σi xi*wi + b), f为激活函数 神经网络 是以神经元为基本单位构成的 激 ...

  4. AI入门:通俗讲解熵、交叉熵和 KL 散度

    全文共 4351 字,23 幅图, 预计阅读时间 22 分钟. 本文被以下三份资料所启发,纯纯的致敬! [Christopher Colah] - Visual Information Theory ...

  5. [机器学习]理解熵,交叉熵和交叉熵的应用

    一 信息量 信息论当中的熵指的是信息量的混乱程度,也可以理解成信息量的大小. 举个简单的例子,以下两个句子,哪一个句子的信息量更大呢? 我今天没中彩票 我今天中彩票了 从文本上来看,这两句话的字数一致 ...

  6. 从熵到交叉熵损失的直观通俗的解释

    来源:DeepHub IMBA本文约1100字,建议阅读5分钟 本文从信息论的角度解释有关熵的概念. 对于机器学习和数据科学的初学者来说,必须清楚熵和交叉熵的概念.它们是构建树.降维和图像分类的关键基 ...

  7. 交叉熵损失函数和似然估计_熵、交叉熵及似然函数的关系

    熵.交叉熵及似然函数的关系 1. 熵 1.1 信息量 信息量:最初的定义是信号取值数量m的对数为信息量\(I\),即 \(I=log_2m\).这是与比特数相关的,比如一个信号只有两个取值,那么用1个 ...

  8. 交叉熵损失函数和focal loss_理解熵、交叉熵和交叉熵损失

    交叉熵损失是深度学习中应用最广泛的损失函数之一,这个强大的损失函数是建立在交叉熵概念上的.当我开始使用这个损失函数时,我很难理解它背后的直觉.在google了不同材料后,我能够得到一个令人满意的理解, ...

  9. 信息量、熵、交叉熵、KL散度、JS散度杂谈

    信息量.熵.交叉熵.KL散度.JS散度杂谈 信息量 任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同.如昨天下雨这个已知事件,因为已经发生,既定事实,那 ...

  10. PyTorch-05神经网络与全连接(Logistic Regression、交叉熵、交叉熵来优化一个多分类的问题、全连接层(MLP网络层)、激活函数与GPU加速、测试、Visdom可视化)

    PyTorch-05神经网络与全连接(Logistic Regression逻辑回归.交叉熵.交叉熵来优化一个多分类的问题.全连接层(MLP网络层).激活函数与GPU加速.测试(validation ...

最新文章

  1. 看完阿逗比年度炫技大会,我什么都不敢信了
  2. Ubuntu 虚拟机空间不足增加空间笔记
  3. python列表下表_Python 列表下标操作
  4. Struts2与Spring集成中的自动装配策略
  5. vue --- 使用vue-router获取带参数的路由
  6. java使用:: 表达式_Java 13:切换表达式的增强功能
  7. web-使用wsgiref模块模拟web框架
  8. CSS 伪类(Pseudo-classes)
  9. Google 和腾讯为什么都采用主干开发模式?
  10. “八戒”马德华自传《悟能》首发《西游记》师徒五人再聚首
  11. 将jQuery的复选框设置为“已选中”?
  12. centos7.0 配置mysql_Centos7.0配置MySQL主从服务器
  13. PSP英文学习好助手 - 移动英语通PSP版
  14. java分布式文件存储服务实战
  15. [NOIP2010 普及组] 三国游戏 题解
  16. fowin自动交易和量化交易和合约交易
  17. linux io栈(读写流程)
  18. Linux之poll/select/epoll代码示例
  19. 第四章 开始Unity Shader学习之旅(1)
  20. S7-1200PLC—实验六 四节传送带控制模拟

热门文章

  1. 中国汽车流通协会 :2018年第39期车市扫描
  2. 什么将在25年后改变世界? 专家预测2036年IT大事
  3. 继电器与LED小夜灯结合实现控制小夜灯循环亮灭
  4. 逆向实战-某电视直播软件去广告
  5. android rom打包失败,安卓编译完成打包时出现栈溢出,大伙帮帮忙
  6. 使用Cerbot自动化申请lets-encrypt证书
  7. JS基础--回调函数
  8. 基于阿里云的MQTT协议入门一:注册及开通阿里云IoT物联网平台
  9. 1z0-062 题库解析3
  10. 西瓜书决策树实现(基于ID3)补充——采用自定义数据结构实现