信息量:不确定性大小

  1. 信息量等于不确定性的大小。
  2. 自信息:一件不太可能的事发生,要比一件非常可能的事发生,提供更多的信息I(x)=−logP(x)I(x)=-logP(x)I(x)=−logP(x)
  3. 信息熵:量化整个概率分布中的不确定性总量H(X)=Ex∼P[I(x)]=−∑x∈XP(x)logP(x)H(X)= E_{x\sim P}[I(x)]=-\sum_{x\in X}P(x)logP(x)H(X)=Ex∼P​[I(x)]=−x∈X∑​P(x)logP(x)

信息的作用:消除不确定性

  1. 信息的作用在于消除不确定性。NLP的大量问题就是寻找相关的信息。
  2. "相关"的信息(如上下文)能够消除不确定性H(X)≥H(X∣Y)H(X)\ge H(X|Y)H(X)≥H(X∣Y)当获取的信息与所研究的事物毫无关系时等号成立。

互信息:衡量两个随机事件的相关性

  1. 定义:衡量两个随机事件的相关性I(X;Y)=∑x∈X,y∈YP(x,y)logP(x,y)P(x)P(y)I(X;Y)=\sum_{x\in X,y\in Y}P(x,y)log\frac{P(x,y)}{P(x)P(y)}I(X;Y)=x∈X,y∈Y∑​P(x,y)logP(x)P(y)P(x,y)​
  2. 应用
    解决翻译中二义性问题,如bush既是美国总统布什的名字,也表灌木丛。首先从大量文本中找出和布什一起出现的互信息最大的一些词,像总统、美国、国会,同样找出和灌木丛一起出现的互信息最大的词,像土壤、植物等。然后在翻译bush时看看上下文中哪一类相关的词多就可以了。

相对熵与交叉熵

相对熵/KL散度:衡量两个取值为正的函数的相似性

  1. 定义:P对Q的KL散度DP(Q)=Ex∼P[logP(x)Q(x)]=∑x∈XP(x)logP(x)Q(x)D_P(Q) =E_{x\sim P}[log\frac{P(x)}{Q(x)}]=\sum_{x \in X}P(x)log\frac{P(x)}{Q(x)}DP​(Q)=Ex∼P​[logQ(x)P(x)​]=x∈X∑​P(x)logQ(x)P(x)​KL 散度越小,真实分布与近似分布之间的匹配就越好。
  2. 性质:
    (1) 非负性:KL 散度为 0 当且仅当P 和 Q 在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是“几乎处处”相同的
    (2)不对称性:DP(Q)!=DQ(P)D_P(Q) != D_Q(P)DP​(Q)!=DQ​(P)
  3. 应用:衡量两个常用词(在语法和语义上)在两个不同文本中的概率分布,看是否同义;计算词频率-逆向文档频率(TF-IDF)

交叉熵:衡量两个概率分布间的差异性信息

  1. 定义:用一个猜测的分布的编码方式去编码其真实的分布,得到的平均编码长度或者信息量 HP(Q)=−EX∼PlogQ(x)=−∑x∈XP(x)logQ(x)H_P(Q)=-E_{X\sim P}logQ(x)=-\sum_{x\in X}P(x)logQ(x)HP​(Q)=−EX∼P​logQ(x)=−x∈X∑​P(x)logQ(x)上式即为用猜的的p分布,去编码原本真是为q的分布,得到的信息量
  2. 应用:交叉熵在机器学习领域中经常作为最后的损失函数,只有当猜测的分布约接近于真实分布,则交叉熵越小。 比如根据自己模型得到的A的概率是80%,得到B的概率是20%,真实的分布是应该得到A,则意味着得到A的概率是100%,所以 L=−∑iyilog(P(xi))+(1−yi)log(1−P(xi))L=-\sum_iy_ilog(P(x_i))+(1-y_i)log(1-P(x_i))L=−i∑​yi​log(P(xi​))+(1−yi​)log(1−P(xi​))

相对熵与交叉熵的关系

针对 Q 最小化交叉熵等价于最小化 P 对 Q 的 KL 散度,因为 Q 并不参与被省略的H(P)H(P)H(P)项。
HP(Q)=H(P)+DP(Q)H_P(Q)=H(P)+D_P(Q)HP​(Q)=H(P)+DP​(Q)

【ML小结2】信息论相关推荐

  1. ML与Information:机器学习与Information信息论之间那些七七八八、乱七八糟、剪不断理还乱的关系攻略

    ML与Information:机器学习与Information信息论之间那些七七八八.乱七八糟.剪不断理还乱的关系攻略 目录 ML与信息论 ML与熵 1.熵的基础知识 2.熵与分布的关系 3.最大熵模 ...

  2. ML: 导数、方向导数、曲率小结

    新手上路,小心晕车 前言 导数.方向导数.梯度这些概念是理解神经网络算法的基础,这里做一个小结. 1.导数 导数(Derivative)是微积分中的重要基础概念,当函数y=f(x)的自变量x在一点x0 ...

  3. 信息论与编码技术之无失真信源编码小结

    目录 前言: 一.信源编码的概念(基本概念,分类,要求,目的) 1.对信源编码的要求: 2.分类 3.信源编码的目的:减小冗余,提高效率 二.定长码 1.信源存在唯一可译定长码的条件 2.定长编码定理 ...

  4. 信息论与编码之离散信源小结

    目录 前言: 一.信源的数学模型与分类 1.数学模型 2.分类 二.离散无记忆信源的N次扩展 1.数学模型 三.离散平稳信源(重点:定义,联合熵,条件熵,平均符号熵,极限熵) 1.离散平稳信源 四.二 ...

  5. ML\图像处理等资料汇总

    转自知乎: 计算机科学的领域 理论计算机科学 数据结构和算法 计算理论 信息论与编码理论 编程语言和编译器 形式化方法 计算机系统 计算机体系结构与计算机工程 操作系统 并发.并行与分布式系统 计算机 ...

  6. 把握春招,收下这份GitHub万星的ML算法面试大全!

    来源:机器之心 本文约2380字,建议阅读7分钟. 在本项目中,作者为大家准备了 ML 算法工程师面试指南,它提供了完整的面试知识点.编程题及题解.各科技公司的面试题锦等内容. [导 读]春季到来,春 ...

  7. UA MATH636 信息论8 线性纠错码的解码算法

    UA MATH636 信息论8 线性纠错码的解码算法 standard array decoding syndrome decoding 考虑BSC,上一讲提到了ML decoder与MAP deco ...

  8. UA MATH636 信息论8 线性纠错码

    UA MATH636 信息论8 线性纠错码 线性码的性质 Decode Linear Code 更细致地定义下记号,记 kkk bits信号为向量 m=[m0,⋯,mk−1]m=[m_0,\cdots ...

  9. 机器学习书籍资料(自己正在读的)---self-reading ML booklist ( To be continued )

    ###0.Introduction to ML & DL (both wholly and briefly) Foundations of Machine Learning–MIT Under ...

  10. 使用ML.NET + Azure DevOps + Azure Container Instances打造机器学习生产化

    介绍 Azure DevOps,以前称为Visual Studio Team Services(VSTS),可帮助个人和组织更快地规划,协作和发布产品.其中一项值得注意的服务是Azure Pipeli ...

最新文章

  1. Android--使用AIDL和远程服务实现线程通信
  2. Wireshark 跟踪TCP流
  3. arm集群服务器_百度云智峰会发布ARM私有云新品,加速企业在移动端上的数字化转型...
  4. BZOJ.1005.[HNOI2008]明明的烦恼(Prufer 高精 排列组合)
  5. html怎么设置字体竖直,CSS3 writing-mode 控制字体竖直显示
  6. 图文详解 Windows 2003服务器集群安装(1)
  7. 需要在AndroidManifest中添加的条件
  8. Mongoose介绍和入门​​
  9. CentOS7默认的防火墙不是iptables,而是firewalle.
  10. CSS深入理解之border
  11. 麒麟系统下安装win10_win10系统安装图文详细教程
  12. vmlinuz的产生
  13. 微信模拟地理位置_微信伪装地理位置是什么个原理
  14. crontab 问号_Spring - Quartz - cronExpression中问号(?)的解释
  15. K8S 图形化管理界面 Kuboard
  16. Xilinx IDELAYCTRL
  17. ML之PDP:基于FIFA 2018 Statistics(2018年俄罗斯世界杯足球赛)球队比赛之星分类预测数据集利用DT决策树RF随机森林+PDP部分依赖图可视化实现模型可解释性之详细攻略
  18. 利用tldr工具再也不怕记不住Linux命令
  19. 自学笔记:89c51单片机最小系统Protues篇
  20. 从国际金融中心,到国际区块链中心,香港凭什么抢占先机?

热门文章

  1. jQuery-可收缩面板
  2. Android Day01-Android与Java的区别总结
  3. DevExpress Dashboard for .NET简化商业智能开发
  4. 使用.NET和Jquery打造简单的便签纸
  5. 东南大学2005年程序设计第二届初赛解题报告
  6. linux 后台进程管理,Linux 后台进程管理利器 Supervisor
  7. 的谐音歌词_今日新歌,李诞肯定最烦这张谐音梗专辑
  8. c/c++基础篇--------------------------基本框架及语法
  9. linux下 fork(),vfork(),clone()的用法及区别
  10. 【POJ2775】The Number of the Same BST(二叉搜索树+计数+lucas定理)