相关熵和交互信息

  到目前为止,我们已经介绍了一些信息论的概念,包括熵的关键概念。我们现在开始这些想法到模式识别。考虑未知分布p(x),假设我们用近似分布q(x)为期建模。为了发送x的值到接收器,如果我们用q(x)来构造编码方案,那么指定x值所需的平均信息附加量(假设我们选择了一个高效的编码方案)由下式给出

这被称为分布p(x)和q(x)之间的相对熵或Kullback-Leibler散度或KL散度(Kullback和Leibler,1951)。注意它不是一个对称量,即
  我们现在展示Kullbace-Leibler散度满足,当且仅当p(x)=q(x)时等号成立。要做到这一点,我们首先介绍凸函数的概念。对于函数f(x),如果每个弦位于或者在函数的上面(如图1.31),那么该函数就是凸函数。在区间x=a至x= b之间的任何x值可被写成λa+(1 - λ)b的形式,其中。弦上的对应点由给定λf(a)+(1 - λ)f(b)。函数的对应值是f (λa + (1 − λ)b)。凸面意味着:

这相当于函数的二阶导数都为正值。凸函数的例子是xlnx(x>0)和。如果只在λ=0和λ=1时等号成立,那么该函数叫做严格凸函数。如果函数具有相反的特性,即每个弦位于或低于函数值,它被称为凹,严格凹的定义类似。如果函数f(x)是凸的,则-f(x)是凹的。

  用归纳法证明方法,我们可以得到凸函数f(x)满足:

其中对于任何点{xi}。(1.115)结果被称为詹森不平等。如果我们将λI解释为离散变量x的概率分布,则(1.115)可以写成

其中E[]表示期望。对于连续变量,詹森不等式的形式为:

  我们可以将詹森不等式(1.117)的形式用到Kullback-Leibler散度(1.113)得到

在这里,我们使用事实即-ln x是一个凸函数,连同归一化条件。事实上,-ln x是一个严格凸函数,所以对于所有x当且仅当q(x)= p(x)时等号成立。因此,我们可以将Kullback-Leibler散度理解为两个分布p(x)和q(x)之间差异的量度。
  我们看到数据压缩和密度估计(即为一个未知概率分布建模的问题)之间有紧密的关系,因为当我们知道真实分布后就可以实现最有效的压缩。如果我们使用不同于真实的分布,那么我们肯定有一个效率较低的编码,并且必须传输的平均附加信息(至少)等于两个分布之间的Kullback-Leibler散度。
  假设数据是从一个未知分布p(x)(我们所希望的模型)生成的。我们可以用一些参数分布q(x|θ)来尝试近似这种分布,参数分布由一组可调整的参数θ控制,例如多元高斯。确定θ的一种方法是最小化p(x)和q(x|θ)之间的Kullback-Leibler散度。我们无法直接这样做,因为我们不知道p(x)。然而,假设我们已经观察到一组有限的训练点xn,对于n =1,, ,N,从p(x)得到。那么p(x)的期望可通过这些点上的有限和(1.35)来近似得到,使得

(1.119)的右手侧第二项与θ无关,且第一项是负对数似然函数。因此,我们看到最小化Kullback-Leiber散度相当于最大化似然函数。
  现在考虑两组变量x和y之间的联合分布p(x,y)。如果变量的集合是独立的,那么他们的联合分布将因式分解成其边缘分布p(x,y)= p(x)p(y)。如果变量不是独立的,通过考虑联合分布和边缘乘积之间的Kullback-Leibler散度,我们可以得到它们是否与独立比较接近

这就是所谓的变量x和y之间的交互信息。根据Kullback-Leibler散度的特性,我们可以看到当且仅当x和y是独立的等号成立。使用求和与乘积规则概率,我们看到交互信息和条件熵是相关的

因此,我们可以认为通过被告知y值交互信息减少了x的不确定性(反之亦然)。从贝叶斯的角度来看,在观察到新数据y后,我们可以将ρ(x)看做先验分布,和p(x |y)作为后验分布。因此,由于新观察y,交互信息表示x不确定性的下降。

PRML-系列一之1.6.1相关推荐

  1. PRML系列:1.5 Decision Theory

    PRML系列:1.5 Decision Theory 前言 本打算该系列均用自己的视角重新阐述一遍,但由于时间精力有限,最终还是决定以摘抄中文版PRML的方式,一来可以还原PRML中最本色的内容,二来 ...

  2. 【干货】机器学习经典书PRML 最新 Python 3 代码实现,附最全 PRML 笔记视频学习资料...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 将 Bishop 大神的 PRML 称为机器学习圣经一点也不为过,该书系统地介绍了 ...

  3. 太赞了!开源下载机器学习经典书 PRML所有相关资料:中文译本,官方代码,课程视频,学习笔记...

    今天给大家推荐一本机器学习.深度学习的人都应该听说过一本经典教材:<Pattern Recognition and Machine Learning>,中文译名<模式识别与机器学习& ...

  4. 大牛推荐的30本经典编程书籍,从Python到前端全系列。

    注:为了方便阅读与收藏,我们也制作了30本书籍完整清单的Markdown.PDF版以及思维导图版,大家可以在实验楼公众号后台回复关键字"书籍推荐"获取. Python 系列(10本 ...

  5. 概率语言模型及其变形系列-PLSA及EM算法

    转载自:http://blog.csdn.net/yangliuy/article/details/8330640 本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA.LDA及LDA的变形模 ...

  6. 大饼博士X Blog文章索引:机器学习方法系列,深度学习方法系列,三十分钟理解系列等

    (我怕忘了这好资源) 欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.机器学习技术感兴趣的同学加入. 以下是 ...

  7. 我的Blog文章索引::机器学习方法系列,深度学习方法系列,三十分钟理解系列等

    欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.机器学习技术感兴趣的同学加入.纯技术交流. 以下是我利用业余 ...

  8. PRML读书会第五期——概率图模型(Graphical Models)【上】

    PRML读书会第五期--概率图模型(Graphical Models) 前言 本人系浙江大学人工智能协会(ZJUAI)会员.本学期协会正在举办PRML读书会系列活动,笔者在活动中负责部分记录工作. 下 ...

  9. 妙用postman系列——postman建组、分享

    妙用postman系列--postman建组.分享 添加新的组和请求. 3.生成分享链接 4.导入分享链接

  10. java 手编线程池_死磕 java线程系列之自己动手写一个线程池

    欢迎关注我的公众号"彤哥读源码",查看更多源码系列文章, 与彤哥一起畅游源码的海洋. (手机横屏看源码更方便) 问题 (1)自己动手写一个线程池需要考虑哪些因素? (2)自己动手写 ...

最新文章

  1. 如何设计 QQ、微信、微博、Github 等等,第三方账号登陆 ?(附表设计)
  2. 讲解知识图谱成体系文章 (魔图互联知识图谱写的质量比较高的)
  3. 一分钟学会使用RichEdit控件
  4. 二十二.香港大学火星实验室R3LIVE框架跑官方数据集
  5. bootstrp_组件
  6. ppt更换模板以及修改图片背景色统一的问题
  7. 手机代理上网_华为、荣耀手机安装GooglePlay的方法
  8. 写入clickhouse效率低总结
  9. 深度学习的应用与实践
  10. android学习code3 布局上
  11. 如何用自签名证书为.sis文件签名
  12. 计算机科学是ei期刊吗,EI计算机期刊有哪些
  13. matlab 变量的定义变量名称,matlab定义变量名
  14. 日本互联网的十大知名巨头!你听说过几个?
  15. C中fread()函数的建议使用方法
  16. 统计正数和负数的个数然后计算这些数的平均值_人人都是数据分析师之统计分析...
  17. AutoDesk 3DS Max2010 官方简体中文版
  18. 专业矢量绘图工具Sketch for Mac
  19. Unity可自定义loading页的异步加载工具,免费下载,使用说明
  20. 官网下载Sublime如何汉化成中文

热门文章

  1. 显卡,不能显示问题解决
  2. java 自动装箱自动拆箱
  3. 【云快讯】之五十五《IBM推出Data Warehouse数据仓库云服务》
  4. 谷歌宣布关闭Google TV,由Android TV接任
  5. JavaScript 设计模式核⼼原理与应⽤实践 之 开篇:前端工程师的成长论
  6. Nginx并发数、每秒连接数、下载速度限制,防攻击杀手锏
  7. 容器编排技术 -- Kubernetes kubectl rollout undo 命令详解
  8. Docker Centos安装 Openssh
  9. Spring Batch示例教程
  10. Redis面试 - redis 的并发竞争问题是什么?