1.Mutual Information概念

互信息是信息论中用以评价两个随机变量之间的依赖程度的一个变量

2.信息论的基础概念

  • 信息量: 是对某个时间发生的概率的度量,通常来讲一个事件发生的概率越低,则这个事件包含的信息量越大。在现实生活中,越稀奇的新闻(发生的概率小)包含的信息量越大。香农提出了一个定量衡量信息量的公式:
    log1p=−logplog\frac{1}{p}=-logplogp1​=−logp

  • 熵(entropy): 衡量一个系统的稳定程度。其实就是一个系统所有变量信息量的期望或者均值。离散变量 公式为:
    H(X)=∑x∈XP(x)⋅log1P(x)=−∑x∈XP(x)logP(x)=−ElogP(X)H(X)=\sum_{x \in X} P(x) \cdot log \frac{1}{P(x)}=-\sum_{x\in X}P(x) logP(x)= -ElogP(X)H(X)=x∈X∑​P(x)⋅logP(x)1​=−x∈X∑​P(x)logP(x)=−ElogP(X)
    P(x)P(x)P(x)表示事件XXX为xxx发生的概率。如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,那么对应的信息熵为0),此时的信息熵较小。连续变量,此时可以理解成它的概率密度函数,公式为:
    H(X)=∫P(x)⋅log1P(x)dxH(X)=\int P(x) \cdot log \frac{1}{P(x)}dxH(X)=∫P(x)⋅logP(x)1​dx

  • 联合熵(joint entropy): 多个联合变量的熵,也就是将熵的定义推广到多变量的范围。
    H(X,Y)=∑x∈X∑y∈YP(x,y)⋅log1P(x,y)=−∑x∈X∑y∈YP(x,y)logP(x,y)=−ElogP(X,Y)H(X,Y)=\sum_{x \in X} \sum_{y \in Y}P(x,y) \cdot log \frac{1}{P(x,y)}=-\sum_{x \in X} \sum_{y \in Y}P(x,y) logP(x,y)= -ElogP(X,Y)H(X,Y)=x∈X∑​y∈Y∑​P(x,y)⋅logP(x,y)1​=−x∈X∑​y∈Y∑​P(x,y)logP(x,y)=−ElogP(X,Y)

  • 条件熵(conditional entropy): 一个随机变量在给定的情况下,系统的熵。
    H(Y∣X)=∑x∈XP(x)H(Y∣X=x)=∑x∈XP(x)[∑y∈YP(y∣x)log1P(y∣x)]=∑x∈X∑y∈YP(x)P(y∣x)log1P(y∣x)=−ElogP(Y∣X)H(Y|X)=\sum_{x\in X}P(x)H(Y|X=x)=\sum_{x\in X}P(x)[\sum_{y\in Y}P(y|x)log\frac{1}{P(y|x)}]=\sum_{x \in X} \sum_{y \in Y}P(x)P(y|x)log\frac{1}{P(y|x)}=-ElogP(Y|X)H(Y∣X)=x∈X∑​P(x)H(Y∣X=x)=x∈X∑​P(x)[y∈Y∑​P(y∣x)logP(y∣x)1​]=x∈X∑​y∈Y∑​P(x)P(y∣x)logP(y∣x)1​=−ElogP(Y∣X)

    条件熵就是假设在给定的一个变量下,该系统信息量的期望

  • 相对熵(relative entropy): 也被称作KL散度(Kullback-Leibler divergence)。当我们获得了一个变量的概率分布时,一般我们会找一种近似且简单的分布来代替。相对熵就是用来衡量两个分布对于同一个变量的差异情况。
    DKL(p∣∣q)=∑ip(xi)⋅[log1q(xi)−log1p(xi)]=∑ip(xi)⋅logp(xi)q(xi)D_{KL}(p||q)=\sum_i p(x_i) \cdot[log\frac{1}{q(x_i)}-log \frac{1}{p(x_i)}]=\sum_i p(x_i) \cdot log\frac{p(x_i)}{q(x_i)}DKL​(p∣∣q)=i∑​p(xi​)⋅[logq(xi​)1​−logp(xi​)1​]=i∑​p(xi​)⋅logq(xi​)p(xi​)​

  • 交叉熵(cross entropy): 也是用来衡量两个分布之间的差异性。
    HCE(p,q)=∑ip(xi)⋅log1q(xi)H_{CE}(p,q)=\sum_i p(x_i) \cdot log \frac{1}{q(x_i)}HCE​(p,q)=i∑​p(xi​)⋅logq(xi​)1​
    显然交叉熵是相对熵的第一部分,因为在通常情况下我们是已知​,即第二部分是常量,此时交叉熵和相对熵是一个线性关系,在考虑计算量的情况下,所以我们通常都用这部分交叉熵来做。

  • 互信息(Mutual Information): 如下图,互信息就是交叉的部分。根据熵的联锁规则,有:
    H(X∣Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)H(X|Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)H(X∣Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y).因此,
    H(X)−H(X∣Y)=H(Y)−H(Y∣X)H(X)-H(X|Y) = H(Y)-H(Y|X)H(X)−H(X∣Y)=H(Y)−H(Y∣X)
    这个差叫做X和Y的互信息,记做I(X∣Y)I(X|Y)I(X∣Y).按照熵的定义可以展开得到:
    I(X,Y)=H(X)−H(X∣Y)=H(X)+H(Y)−H(X,Y)=∑xp(x)log1p(x)+∑yp(y)log1p(y)−∑x,yp(x,y)logp(x,y)p(x)p(y)I(X,Y) = H(X)-H(X|Y)=H(X)+H(Y)-H(X,Y)=\sum_x p(x) log \frac{1}{p(x)}+\sum_y p(y) log \frac{1}{p(y)} -\sum_{x,y} p(x,y) log \frac{p(x,y)}{p(x)p(y)}I(X,Y)=H(X)−H(X∣Y)=H(X)+H(Y)−H(X,Y)=x∑​p(x)logp(x)1​+y∑​p(y)logp(y)1​−x,y∑​p(x,y)logp(x)p(y)p(x,y)​

概率机器学习中的互信息(Mutual Information)相关推荐

  1. 特征选择方法详解Part2-卡方检验、互信息(Mutual Information)

    Content 1. 单变量分析 1.1 卡方检验 1.1.1 原理 1.1.2 使用示例 1.2 互信息(Mutual Information) 1.2.1 原理 1.2.1.1 互信息(Mutua ...

  2. 机器学习笔记 - 互信息Mutual Information

    1.概述 遇到一个新的数据集时重要的第一步是使用特征效用指标构建排名,该指标是衡量特征与目标之间关联的函数.然后,您可以选择一小部分最有用的功能进行初始开发. 我们将使用的度量称为"互信息& ...

  3. 计算两个向量的互信息(Mutual Information) matlab程序

    互信息,Mutual Information,缩写为MI,用来计算两个变量X与Y是否有关系,以及关系的强弱 function [Ixy,lambda]=MutualInfo(X,Y) %% % Est ...

  4. 特征选择之互信息 Mutual Information

    %%%   dataset中的最后一列为分类类别,k为要选择的特征个数 function result=MutualInformation(dataset,k) % character_order c ...

  5. 互信息(Mutual Information)

    本文根据以下参考资料进行整理: 1.维基百科:https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF 2.新浪博客:http://blog. ...

  6. 互信息(Mutual Information)的介绍

    互信息,Mutual Information,缩写为MI,表示两个变量X与Y是否有关系,以及关系的强弱. 如果 (X, Y) ~ p(x, y), X, Y 之间的互信息 I(X; Y)定义为: No ...

  7. 互信息(Mutual Information)介绍

    在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度.不同于相关系数,互信息并不局限于实值随 ...

  8. python计算互信息_Maximal Information Coefficient (MIC)最大互信息系数详解与实现

    MIC MIC 即:Maximal Information Coefficient 最大互信息系数. 使用MIC来衡量两个基因之间的关联程度,线性或非线性关系,相较于Mutual Informatio ...

  9. 机器学习中的数学——距离定义(二十九):点间互信息(Pointwise Mutual Information, PMI)

    分类目录:<机器学习中的数学>总目录 相关文章: · 距离定义:基础知识 · 距离定义(一):欧几里得距离(Euclidean Distance) · 距离定义(二):曼哈顿距离(Manh ...

最新文章

  1. css3-transform
  2. Android---如何返回上一Activity
  3. 关于windows的version和OS build version
  4. WCF分布式开发常见错误(25):The certificate 'CN=WCFHTTPS' must have a private key
  5. MATLAB基本信号的产生
  6. php如何计算精确,简单谈谈php浮点数精确运算
  7. 精选| 2017年12月R新包推荐
  8. 省级面板数据(1990-2019):能源消费(煤炭、焦炭、石油、原油等)excel或stata版本
  9. 一次 Kafka 导致的 Sentry 无法处理 MiniDump 问题分析
  10. Apache Tomcat选择哪个版本好?
  11. bin 转hex方法
  12. CTC 技术介绍概述——啃论文系列
  13. 聚百川之源,欢迎28位AI开发者加入飞桨开发者技术专家计划!
  14. java连接mysql(java连接mysql的jar包)
  15. html文件无法访问
  16. 利用人性弱点的互联网产品(三)虚荣
  17. 计算机网络——链路传输时延/速率和传播时延/速率的区分
  18. 基于Landsat的地表温度反演——单窗算法
  19. JAVA 软加密之加密和校验过程图
  20. 需求理论:Web3集成分析

热门文章

  1. 【Java】If you want an embedded database (H2, HSQL or Derby), please put it on the classpath.
  2. js数组拆分成几个数组
  3. 记一次微信支付回调失败的修复
  4. 【Linux】磁盘类型设备驱动介绍
  5. 在线识别图片文字,分享识别技巧
  6. win7+VS2015+OpenCV3.20的搭建
  7. win32 绘制超酷界面(二)
  8. KDD 2021 | 基于多智能体协同竞价博弈的电商搜索广告多目标竞价优化
  9. php 图片处理慢,php图片处理
  10. mysql分组查询最新数据