MaxEnt: 最大熵模型(Maximum Entropy Models)(一)

转http://www.zhizhihu.com/html/y2011/3489.html

刚看完HMM，因为有个ME-HMM方法，所以再看看最大熵模型，最后再把CRF模型看看，这一系列理论大体消化一下，补充一下自己的大脑，方便面试什么的能够应付一些问题。

多读书，多思考，肚子里才有东西。

==========

什么是熵？咱们这里只看信息以及自然界的熵吧。《Big Bang Theory》中Sheldon也经常把这个熵挂在嘴边。在咱们的生活中，你打碎了一块玻璃，或者洒落了一盒火柴，很自然的事情就是玻璃碎的一塌糊涂，根本没有规律可言。火柴也是，很乱，你难道从中找到规律么？规律是什么东西？规律的反面是什么？其实很有意思的事情就是自然界的东西尽可能的互补以及平衡，火柴很乱，那就规律性很小。

乱+序=1.

既然=1，那么这个乱也能描述啦？这就是熵的概念，熵是描述事物无序性的参数，熵越大则无序性越强。

我们更关注的是信息熵，怎么用熵来描述信息，不确定性等等。怎么用数学式子进行形式化描述呢？前人已经做了很多工作了：

设随机变量ξ，他有A1、A2....An共n个不同的结果，每个结果出现的概率为p1，p2....pn，那么ξ的不确定度，即信息熵为：

H(ξ)=∑i=1npilog1pi=−∑i=1npilogpi

熵越大，越不确定。熵为0，事件是确定的。例如抛硬币，每次事件发生的概率都是1/2的话，那么熵=1：H(X)=-(0.5log0.5+0.5log0.5)=1。

那么这个式子是怎么来的呢？为什么会用log表示？我也不知道啊，查查文献。不过【参考5】中举了几个简单的例子来说明一下过程，这里引用下。

==========

例子：称硬币的问题，说有5个硬币，其中有一个是假的，这个假硬币的重量很轻，所以打算用一个天平称称，问需要最少称几次就能够保证把这个假硬币给找出来？这个问题其实是一个很经典的问题，也有另外一个类似的问题是毒水和白鼠的问题，5瓶水其中一瓶有毒，用最少几只白鼠能够保证把毒水找出来？

其实这个问题有个统一的解法就是对半分呗，二叉树，二进制等。

拿硬币的例子，可以取四个放在天平两端，如果相等那么剩下的那个就是假的。如果不相等，把轻的一端的两个硬币再称一次就知道假的了。因为这样称两次就能够保证把假硬币找出来了。这里称的事件是有三个结果的：左边重、相等、右边重。

拿小白鼠的例子，小白鼠只有活着和中毒两种状态，咱们这里人性一点儿，有解药可以解毒的，只要实验达到目的就行。那么把水分成两组，一组两瓶，一组三瓶，让一只小白鼠和一组，如果中毒，假设是三瓶的那一组，那么再递归的讲这三瓶分组，最坏情况下是用3只小白鼠。这里小白鼠的事件只有两个结果：中毒、健康。

我们假设x是那瓶毒水的序号，x∈X={1,2,3,4,5}，y是第i只小白鼠的症状，y∈Y={1,2},，1表示健康，2表示中毒。

用二进制的思想的话就是设计编码y1y2...yn使他能够把x全部表示出来。因为一个y只有两个状态，所以要有三个y并列起来才能表示2×2×2=23=|Y|3=8>5。所以是用三只小白鼠。上面称硬币的问题由于一个y可以表示三个状态，所以需要两个3∗3=9>5就可以表示完所有的x了。

思想是这样的，从上面的分析可以看出，我们只用到的是x，y的状态，而没有用x，y的内容以及意义。也就是说只用了X的“总不确定度”以及Y的“描述能力”。

拿小白鼠和毒水的例子，X的"总不确定度":H(X)=log|X|=log5。Y的“描述能力”为：H(Y)=log|Y|=log2。

所以至少要用多少个Y才能够完全准确的把X表示出来呢？

H(X)H(Y)=log5log2=2.31

所以得用三只小白鼠。称硬币那个问题由于Y的表示能力强啊，log3的表示能力，所以表示X的时候仅仅需要1.46的y就行了，所以就是称2次。【这样子思考貌似有问题。。。】

那么为什么用log来表示“不确定度”和“描述能力”呢？前面已经讲过了，假设一个Y的表达能力是H(Y)。显然，H(Y)与Y的具体内容无关，只与|Y|有关。所以像是log|Y|n这种形式，把n就可以拿出来了，因为关系不大所以扔掉n就剩下log|Y|了。

“不确定度”和“描述能力”都表达了一个变量所能变化的程度。在这个变量是用来表示别的变量的时候，这个程度是表达能力。在这个变量是被表示变量的时候，这个程度是不确定度。而这个可变化程度，就是一个变量的熵（Entropy）。显然：熵与变量本身含义无关，仅与变量的可能取值范围有关。

==========

下面看称硬币以及小白鼠毒水问题的一个变种：

（1）已知第一个硬币是假硬币的概率是三分之一；第二个硬币是假硬币的概率也是三分之一，其他硬币是假硬币的概率都是九分之一。（2）毒水也是，第一瓶是毒水的概率是1/3。。。以此类推。

最后求称次数或者小白鼠数量n的期望。因为第一个、第二个硬币是假硬币的概率是三分之一，比其他硬币的概率大，我们首先“怀疑”这两个。第一次可以把这两个做比较。成功的概率是三分之二。失败的概率是三分之一。如果失败了，第二次称剩下的三个。所以，期望值是：

13×log3log3+13×log3log3+19×log9log3+19×log9log3+19×log9log3=43

小白鼠的也可以同理求出来。为什么分子会有log3、log9呢？其实分子的log3、log9表示的都是“不确定度”。事件发生的确定性为1/3，那么不确定度可以理解为log3=log11/3，再除以y的“表达能力”，就是每一次猜测的输出结果了，再根据期望公式∑ixipi就可以求一下期望。不知道理解的对不对？

==========

更广泛的，如果一个随机变量x的可能取值为X={x1,x2,...,xk}，要用n位y:y1y2...yn表示出X来，那么n的期望是：

∑i=1kp(x=xi)log1p(x=xi)log|Y|=∑i=1kp(x=xi)log1p(x=xi)log|Y|

其实分子式不确定度，分母就是表达能力。那么X的信息量为：

H(X)=∑i=1kp(x=xi)log1p(x=xi)

这就是熵的定义了是吧？我们就算凑出来了。X的具体内容跟信息量无关，我们只关心概率分布，于是H(X)可以写成：

H(X)=∑i=1kp(x)log1p(x)

==========

有时候我们知道x,y变量不是相互独立的，y的作用会影响x的发生，举个例子就是监督学习了，有了标记y之后肯定会对x的分布有影响，生成x的概率就会发生变化，x的信息量也会变化。那么此时X的不确定度怎么表示呢？

H(X|Y)=∑(x,y)∈X×Yp(x,y)log1p(x|y)

这个其实就是条件熵Conditional Entropy。很显然，Y加入进来进行了标记之后，就引入了知识了，所以会减小X的不确定性，也就是减小了熵。所以知识能够减小熵。

那么有了部分标记，我们就有了知识，就可以预测一部分模型，这个模型对未知的知识还是保留着熵，只是这个熵被减少了。但是我们知道熵越大，数据分布越均匀，越趋向于自然。

所以我们就想，能够弄出个模型，在符合已知知识的前提下，对未知事物不做任何假设，没有任何偏见。也就是让未知数据尽可能的自然。这就是最大熵模型(Maximum Entropy Models)了。

==========

【【未完待续：MaxEnt: 最大熵模型(Maximum Entropy Models)(二)】】

==========

参考：

1、A maximum entropy approach to natural language processing (Adam Berger)

2、A Brief MaxEnt Tutorial (Adam Berger)

3、Learning to parse natural language with maximum entropy models (Adwait Ratnaparkhi)

4、中科院刘群教授《计算语言学-词法分析（四）》

5、《最大熵模型与自然语言处理》：laputa，NLP Group, AI Lab, Tsinghua Univ.

MaxEnt: 最大熵模型(Maximum Entropy Models)(一)相关推荐

MaxEnt: 最大熵模型(Maximum Entropy Models)
转自:http://www.zhizhihu.com/html/y2011/3489.html 刚看完HMM,因为有个ME-HMM方法,所以再看看最大熵模型,最后再把CRF模型看看,这一系列理论大体消 ...
论文笔记2：Combining Lexical, Syntactic, and Semantic Features with Maximum Entropy Models for Extracting
这篇论文发表于2004年,属于比较早期的论文,主要解决提取实体之间的语义关系问题. 一.文章要解决的问题解决实体之间的语义关系问题,在the Automatic Content Extraction ...
python3实现maxent 最大熵模型
使用python实现最大熵模型,在原来作者的基础上重写了predict, 增加了predict_proba()方法原作者:blog.csdn.net/slx_share/article/detail ...
【机器学习】最大熵模型（Maximum Entropy Model）
最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型:若概率模型 ...
统计学习方法笔记(四)-最大熵模型原理及python实现
最大熵模型最大熵模型最大熵原理最大熵模型代码实现案例地址最大熵模型最大熵模型(maximum entropy model)可以用于二分类,也可以用于多分类.其是由最大熵原理推导实现的,所 ...
[转] 理解各种熵最大熵模型
把各种熵的好文集中一下,希望面试少受点伤,哈哈哈 1. 条件熵 https://zhuanlan.zhihu.com/p/26551798 我们首先知道信息熵是考虑该随机变量的所有可能取值,即所有可能 ...
最大熵阈值python_第六章-逻辑斯蒂回归和最大熵模型
逻辑斯谛回归是统计学习中的经典分类方法,和最大熵模型相比,具有以下的共同点和区别:共同点都属于概率模型,该模型要寻找的是给定一个x,得到输出变量Y的概率分布P(Y|x),如果是二分类,Y取值为0或1, ...
logit模型应用实例_第六章逻辑斯谛回归与最大熵模型（第1节逻辑斯谛回归模型）...
逻辑斯谛回归(logistic regression)是经典的分类方法. 最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy model). 逻辑斯谛回归 ...
Logistic回归与最大熵模型
Logistic回归与最大熵模型算法介绍逻辑斯谛分布二项logistic回归模型最大熵模型习题6.1 习题6.2 算法介绍 1.逻辑斯谛回归(logistic regression)是统计学 ...
最大熵模型（Maximum Entropy Model）文献阅读指南
最大熵模型(Maximum Entropy Model)是一种机器学习方法,在自然语言处理的许多领域(如词性标注.中文分词.句子边界识别.浅层句法分析及文本分类等)都有比较好的应用效果.张乐博士的最大 ...

MaxEnt: 最大熵模型(Maximum Entropy Models)(一)

MaxEnt: 最大熵模型(Maximum Entropy Models)(一)相关推荐

最新文章

热门文章