文章目录

最大熵模型（Maximum Entropy Model, MEM）
- 最大熵思想
- 最大熵模型表示
- 最大熵模型学习
- 最大熵模型求解过程举例
- 最大熵模型与极大似然估计
- 最大熵模型与逻辑回归
- 模型学习之改进的迭代尺度法（Improved Iterative Scaling，IIS）
- ME总结
最大熵马尔可夫模型（Maximum Entropy Markov Model, MEMM）
- MEMM标注偏置问题

最大熵模型（Maximum Entropy Model, MEM）

最大熵思想

无更多信息的情况下，最随机的推断（概率分布的熵最大）是最合理的推断，即未知部分均匀分布时最合理，均匀分布的熵最大。若基于判别模型P(y∣x)P(y|\boldsymbol x)P(y∣x)预测实例类别，无先验知识下，实例x\boldsymbol xx应等可能属于各类别，即
P(c1∣x)=P(c2∣x)=⋯=P(cK∣x)=1/KP(c_1|\boldsymbol x)=P(c_2|\boldsymbol x)=\cdots=P(c_K|\boldsymbol x)=1/K P(c1∣x)=P(c2∣x)=⋯=P(cK∣x)=1/K
对于带有约束的情况，如XXX取值集合为{a,b,c,d,e}\{a, b, c, d, e\}{a,b,c,d,e}，约束P(a)+P(b)=1/3P(a)+P(b)=1/3P(a)+P(b)=1/3，则
P(a)=P(b)=1/6,P(c)=P(d)=P(e)=2/9P(a)=P(b)=1/6,\quad P(c)=P(d)=P(e)=2/9 P(a)=P(b)=1/6,P(c)=P(d)=P(e)=2/9

时，概率分布的熵最大，最大熵模型的思想就是寻找满足约束且熵最大的模型。

最大熵模型表示

令ν(x,y)\nu(\boldsymbol x, y)ν(x,y)表示训练样本集中(x,y)(\boldsymbol x, y)(x,y)出现的频数，以频数估计经验分布
P^(x,y)=ν(x,y)N,P^(x)=ν(x)N(1)\hat P(\boldsymbol x, y)=\frac{\nu(\boldsymbol x, y)}{N},\quad \hat P(\boldsymbol x)=\frac{\nu(\boldsymbol x)}{N} \tag{1} P^(x,y)=Nν(x,y),P^(x)=Nν(x)(1)

定义二值特征函数f(x,y)f(\boldsymbol x, y)f(x,y)，表示输入输出之间的事实关系，即
f(x,y)={1,x与y满足某一事实0,其他f(\boldsymbol x, y)=\begin{cases} 1, &\boldsymbol x与y满足某一事实\\[1ex] 0, &其他 \end{cases} f(x,y)={1,0,x与y满足某一事实其他
理想的模型应能获取训练集中的约束信息，即特征函数在模型分布、经验分布熵的期望近似，即
EP^(f)≈EP(f)⟹∑x,yP^(x,y)f(x,y)≈∑x,yP(x,y)f(x,y)\Bbb E_{\hat P}(f)\approx\Bbb E_P(f) \implies \sum_{\boldsymbol x, y}\hat P(\boldsymbol x, y)f(\boldsymbol x, y)\approx\sum_{\boldsymbol x,y}P(\boldsymbol x,y)f(\boldsymbol x,y) EP^(f)≈EP(f)⟹x,y∑P^(x,y)f(x,y)≈x,y∑P(x,y)f(x,y)
最大熵模型的学习，等价于最大化带有约束的条件熵：
min⁡P−H(P)=−H(Y∣X)=∑x,yP(x,y)log⁡P(y∣x)s.t.Ep^(fi)=Ep(fi),i=1,⋯,k∑yP(y∣x)=1\begin{aligned} \min_P &\quad-H(P)=-H(Y|X)=\sum_{\boldsymbol x, y}P(\boldsymbol x,y)\log P(y|\boldsymbol x) \\[2ex] \text{s.t.} &\quad E_{\hat p}(f_i) =E_{p}(f_i),\quad i=1, \cdots, k\\[2ex] &\quad \sum_{y}P(y|\boldsymbol x)=1 \end{aligned} Pmins.t.−H(P)=−H(Y∣X)=x,y∑P(x,y)logP(y∣x)Ep^(fi)=Ep(fi),i=1,⋯,ky∑P(y∣x)=1

判别式模型无法得到P(x,y)P(\boldsymbol x,y)P(x,y)的分布，使用近似P(x,y)≈P(y∣x)P^(x)P(\boldsymbol x, y)\approx P(y|\boldsymbol x)\hat P(\boldsymbol x)P(x,y)≈P(y∣x)P^(x)。最大熵模型根据特征函数，将训练集划分成已知信息和未知信息两类，每一个特征函数对应一种二划分。

最大熵模型学习

构造拉格朗日函数，求解约束极值问题
L(P,w)=∑x,yP(y∣x)P^(x)log⁡P(y∣x)+w0(1−∑yP(y∣x))+∑iwi(∑x,yP^(x,y)fi(x,y)−∑x,yP(y∣x)P^(x)fi(x,y))L(P, \boldsymbol w)=\sum_{\boldsymbol x, y}P(y|\boldsymbol x)\hat P(\boldsymbol x)\log P(y|\boldsymbol x)+ w_0 \left(1- \sum_{y}P(y|\boldsymbol x)\right)+\sum_iw_i\left(\sum_{\boldsymbol x, y}\hat P(\boldsymbol x, y)f_i(\boldsymbol x, y) - \sum_{\boldsymbol x, y}P(y|\boldsymbol x)\hat P(\boldsymbol x)f_i(\boldsymbol x, y)\right) L(P,w)=x,y∑P(y∣x)P^(x)logP(y∣x)+w0(1−y∑P(y∣x))+i∑wi(x,y∑P^(x,y)fi(x,y)−x,y∑P(y∣x)P^(x)fi(x,y))
由于LLL是PPP的凸函数，故原始问题的解与对偶问题的解等价：
min⁡Pmax⁡wL(P,w)⟺max⁡wmin⁡PL(P,w)\min_P\max_{\boldsymbol w}L(P, \boldsymbol w) \iff \max_{\boldsymbol w}\min_PL(P,\boldsymbol w) PminwmaxL(P,w)⟺wmaxPminL(P,w)

I. 求内部极小（导出最大熵模型）： 令LLL对P(x∣y)P(\boldsymbol x|y)P(x∣y)的偏导为0，且假设P^(x)>0\hat P(\boldsymbol x)>0P^(x)>0，则
∑x,yP~(x)(log⁡P(y∣x)+1−w0−∑iwifi(x,y))=0⟹P(y∣x)=exp⁡(∑iwifi(x,y))exp⁡(1−w0)\sum_{\boldsymbol x, y}\tilde P(\boldsymbol x) \left(\log P(y|\boldsymbol x)+1-w_0-\sum_{i}w_if_i(\boldsymbol x, y)\right)=0\implies P(y|\boldsymbol x)= \frac{\exp\left(\sum_{i}w_if_i(\boldsymbol x, y)\right)}{\exp(1-w_0)} x,y∑P~(x)(logP(y∣x)+1−w0−i∑wifi(x,y))=0⟹P(y∣x)=exp(1−w0)exp(∑iwifi(x,y))
根据约束条件知：∑yP(y∣x)=1\sum_y P(y|x)=1∑yP(y∣x)=1，执行归一化也可以进一步消去w0w_0w0，最终得最大熵模型
Pw(y∣x)=1Zw(x)exp⁡(∑iwifi(x,y)),Zw(x)=∑yexp⁡(∑iwifi(x,y))(2)P_w(y|\boldsymbol x)=\frac{1}{Z_{\boldsymbol w}(\boldsymbol x)}\exp\left(\sum_{i}w_if_i(\boldsymbol x, y)\right), \quad Z_{\boldsymbol w}(\boldsymbol x)=\sum_{y}\exp\left(\sum_{i}w_if_i(\boldsymbol x, y)\right) \tag{2} Pw(y∣x)=Zw(x)1exp(i∑wifi(x,y)),Zw(x)=y∑exp(i∑wifi(x,y))(2)
从最大熵模型的表达式可知，最大熵模型将复杂的联合分布分解为多个指数项/因子的乘积，得到给定xxx下yyy的条件概率分布。

II. 求外部极大（用于更新最大熵模型PwP_wPw的参数）： 将内部极小结果带入拉格朗日函数，得
φ(w)=∑x,yP^(x,y)∑iwifi(x,y)−∑xP^(x)log⁡Zw(x)\varphi(\boldsymbol w)=\sum_{\boldsymbol x, y} \hat P(\boldsymbol x, y)\sum_iw_i f_i(\boldsymbol x, y) - \sum_{\boldsymbol x}\hat P(\boldsymbol x)\log Z_{\boldsymbol w}(\boldsymbol x) φ(w)=x,y∑P^(x,y)i∑wifi(x,y)−x∑P^(x)logZw(x)

则w^=arg⁡max⁡wφ(w)\hat{\boldsymbol w}=\arg\max_{\boldsymbol w} \varphi(\boldsymbol w)w^=argmaxwφ(w)，参数学习使用改进的迭代尺度算法IIS求解。

最大熵模型求解过程举例

假设随机变量X有5个取值，约束 P(A)+P(B)=3/10，估计随机变量各个取值的概率。

该问题的最大熵模型的拉格朗日函数为
L(P)=∑i=15P(yi)log⁡P(yi)+wi(P(yi)+P(y2)−310)+w0(∑i=15P(yi)−1)L(P)=\sum_{i=1}^5P(y_i)\log P(y_i)+w_i\left(P(y_i)+P(y_2)-\frac{3}{10}\right)+w_0\left(\sum_{i=1}^5P(y_i)-1\right) L(P)=i=1∑5P(yi)logP(yi)+wi(P(yi)+P(y2)−103)+w0(i=1∑5P(yi)−1)

根据内部极小，得到
Pw(y1)=Pw(y2)=ew12ew1+3,P(y3)=P(y4)=P(y5)=12ew1+3P_w(y_1)=P_w(y_2)=\frac{e^{w_1}}{2e^{w_1}+3},\quad P(y_3)=P(y_4)=P(y_5)=\frac{1}{2e^{w_1}+3} Pw(y1)=Pw(y2)=2ew1+3ew1,P(y3)=P(y4)=P(y5)=2ew1+31

根据外部极大，得到
φ(w)=310w1−log⁡(2ew1+3)\varphi(w)=\frac{3}{10}w_1-\log (2e^{w_1}+3) φ(w)=103w1−log(2ew1+3)

对φ(w)\varphi(w)φ(w)求www的偏导令其为0，得
ew1=914⟹P(y1)=P(y2)=320,P(y3)=P(y4)=P(y5)=730e^{w_1}=\frac{9}{14} \implies P(y_1)=P(y_2)=\frac{3}{20},\ P(y_3)=P(y_4)=P(y_5)=\frac{7}{30} ew1=149⟹P(y1)=P(y2)=203, P(y3)=P(y4)=P(y5)=307
李航《统计学习》上有未归一化内部极小得到的最大熵模型的解法。

最大熵模型与极大似然估计

判别模型的极大似然估计
L(w)=∏i,jP(yj∣xi,w)P^(xi)=∏x,y[P(y∣x,w)P^(x)]ν(x,y)≃∏x,y[P(y∣x,w)P^(x)]ν(x,y)N=∏x,y[P(y∣x,w)P^(x)]P^(x,y)≃∑x,yP^(x,y)log⁡P(y∣x,w)+P^(x,y)log⁡P^(x)≃∑x,yP^(x,y)log⁡P(y∣x,w)\begin{aligned} L(\boldsymbol w) &= \prod_{i,j} P(y_j|\boldsymbol x_i,\boldsymbol w)\hat P(\boldsymbol x_i)=\prod_{\boldsymbol x, y}[P(y|\boldsymbol x,\boldsymbol w)\hat P(\boldsymbol x)]^{\nu(\boldsymbol x, y)}\\ &\simeq\prod_{\boldsymbol x, y}[P(y|\boldsymbol x,\boldsymbol w)\hat P(\boldsymbol x)]^{\frac{\nu(\boldsymbol x, y)}{N}}=\prod_{\boldsymbol x,y}[P(y|\boldsymbol x,\boldsymbol w)\hat P(\boldsymbol x)]^{\hat P(\boldsymbol x,y)}\\ &\simeq\sum_{\boldsymbol x, y}\hat P(\boldsymbol x,y)\log P(y|\boldsymbol x,\boldsymbol w)+\hat P(\boldsymbol x,y)\log \hat P(\boldsymbol x)\\ &\simeq\sum_{\boldsymbol x, y}\hat P(\boldsymbol x,y)\log P(y|\boldsymbol x,\boldsymbol w) \end{aligned} L(w)=i,j∏P(yj∣xi,w)P^(xi)=x,y∏[P(y∣x,w)P^(x)]ν(x,y)≃x,y∏[P(y∣x,w)P^(x)]Nν(x,y)=x,y∏[P(y∣x,w)P^(x)]P^(x,y)≃x,y∑P^(x,y)logP(y∣x,w)+P^(x,y)logP^(x)≃x,y∑P^(x,y)logP(y∣x,w)

其中ν(x,y)\nu(\boldsymbol x, y)ν(x,y)表示样本(x,y)(\boldsymbol x, y)(x,y)的频数，∑x,y\sum_{\boldsymbol x, y}∑x,y是对样本集中不重复样本(x,y)(\boldsymbol x, y)(x,y)求和。

从上式可得，极大对数似然估计与最大熵模型目标函数的区别在于log前是经验联合分布还是模型联合分布，由于最大熵模型使用约束“经验联合分布近似于模型联合分布”，因此极大似然估计与基于约束的最大熵模型描述的问题基本一致。

将公式(1)(2)带入上式，也可以得到两者的等价关系
L(w)=∑x,yP^(x,y)∑iwifi(x,y)−∑xP^(x)log⁡Zw(x)=φ(w)L(\boldsymbol w)=\sum_{\boldsymbol x, y} \hat P(\boldsymbol x, y)\sum_iw_i f_i(\boldsymbol x, y) - \sum_{\boldsymbol x}\hat P(\boldsymbol x)\log Z_{\boldsymbol w}(\boldsymbol x) =\varphi(\boldsymbol w) L(w)=x,y∑P^(x,y)i∑wifi(x,y)−x∑P^(x)logZw(x)=φ(w)

即 最大熵对偶函数的极大化等价于最大熵模型的极大似然估计。

最大熵模型与逻辑回归

根据最大熵模型内部极小问题得到的条件概率分布，并定义特征函数，则
P(y∣x,w)=exp⁡(w⋅f(x,y))∑yexp⁡(w⋅f(x,y)),f(x,y)={x,y=10,y=0P(y|\boldsymbol x, \boldsymbol w)=\frac{\exp(\boldsymbol w\cdot f(\boldsymbol x,y))}{\sum_y\exp(\boldsymbol w\cdot f(\boldsymbol x,y))},\quad f(\boldsymbol x, y)=\begin{cases} \boldsymbol x, &y=1\\[1ex] 0, &y=0 \end{cases} P(y∣x,w)=∑yexp(w⋅f(x,y))exp(w⋅f(x,y)),f(x,y)={x,0,y=1y=0

由最大熵模型可推出逻辑回归模型
P(y=1∣x,w)=ew⋅x1+ew⋅x=11+e−w⋅xP(y=1|\boldsymbol x,\boldsymbol w)=\frac{e^{\boldsymbol w\cdot\boldsymbol x}}{1+e^{\boldsymbol w\cdot\boldsymbol x}} = \frac{1}{1+e^{-\boldsymbol w\cdot\boldsymbol x}} P(y=1∣x,w)=1+ew⋅xew⋅x=1+e−w⋅x1
ME和LR模型类似，称之为对数线性模型，模型学习就是在给定训练数据条件下进行极大似然估计。

模型学习之改进的迭代尺度法（Improved Iterative Scaling，IIS）

改进的迭代尺度法基本思想是，寻找新的参数向量w+δ=(w1+δ1,⋯,wn+δn)T\boldsymbol w + \boldsymbol \delta=(w_1 + \delta_1,\cdots,w_n + \delta_n)^Tw+δ=(w1+δ1,⋯,wn+δn)T使得似然函数下界增大，从而提高似然函数的值，直至似然函数达到最大值.

当a>0a>0a>0时，由−log⁡a≥1−a-\log a \geq 1- a−loga≥1−a，则模型参数从w\boldsymbol ww变化为w+δ\boldsymbol w+\boldsymbol\deltaw+δ，似然函数变化
L(w+δ)−L(w)=∑x,yP^(x,y)∑iδifi(x,y)−∑xP^(x)log⁡Zw+δ(x)Zw(x)≥∑x,yP^(x,y)∑iδifi(x,y)+1−∑xP^(x)Zw+δ(x)Zw(x)=∑x,yP^(x,y)∑iδifi(x,y)+1−∑xP^(x)∑yPw(y∣x)exp⁡∑iδifi(x,y)\begin{aligned} L(\boldsymbol w + \boldsymbol\delta)-L(\boldsymbol w) &=\sum_{\boldsymbol x, y}\hat P(\boldsymbol x,y)\sum_i\delta_if_i(\boldsymbol x, y)-\sum_{\boldsymbol x}\hat P(\boldsymbol x)\log\frac{Z_{\boldsymbol w+\boldsymbol\delta}(\boldsymbol x)}{Z_{\boldsymbol w}(\boldsymbol x)}\\ &\geq\sum_{\boldsymbol x, y}\hat P(\boldsymbol x,y)\sum_i\delta_if_i(\boldsymbol x, y)+1-\sum_{\boldsymbol x}\hat P(\boldsymbol x)\frac{Z_{\boldsymbol w+\boldsymbol\delta}(\boldsymbol x)}{Z_{\boldsymbol w}(\boldsymbol x)}\\ &=\sum_{\boldsymbol x, y}\hat P(\boldsymbol x,y)\sum_i\delta_if_i(\boldsymbol x, y)+1-\sum_{\boldsymbol x}\hat P(\boldsymbol x)\sum_yP_{\boldsymbol w}(y|\boldsymbol x)\exp\sum_i\delta_if_i(\boldsymbol x,y)\\ \end{aligned} L(w+δ)−L(w)=x,y∑P^(x,y)i∑δifi(x,y)−x∑P^(x)logZw(x)Zw+δ(x)≥x,y∑P^(x,y)i∑δifi(x,y)+1−x∑P^(x)Zw(x)Zw+δ(x)=x,y∑P^(x,y)i∑δifi(x,y)+1−x∑P^(x)y∑Pw(y∣x)expi∑δifi(x,y)

IIS算法试图每次只优化一个δi\delta_iδi，固定其它δj\delta_jδj. 引入变量f#(x,y)=∑kfk(x,y)f^{\#}(\boldsymbol x,y)=\sum_kf_k(\boldsymbol x,y)f#(x,y)=∑kfk(x,y)，由Jensen不等式知
exp⁡(∑iδifi(x,y))=exp⁡(∑ifi(x,y)f#(x,y)δif#(x,y))≤∑ifi(x,y)f#(x,y)exp⁡(δif#(x,y))\exp\left(\sum_i\delta_if_i(\boldsymbol x,y)\right)=\exp\left(\sum_i\frac{f_i(\boldsymbol x,y)}{f^{\#}(\boldsymbol x,y)}\delta_if^{\#}(\boldsymbol x,y)\right)\leq \sum_i\frac{f_i(\boldsymbol x,y)}{f^{\#}(\boldsymbol x,y)}\exp(\delta_if^{\#}(\boldsymbol x,y)) exp(i∑δifi(x,y))=exp(i∑f#(x,y)fi(x,y)δif#(x,y))≤i∑f#(x,y)fi(x,y)exp(δif#(x,y))

省略常数项，并记Pw(x,y)=P^(x)Px(y∣x)P_{\boldsymbol w}(\boldsymbol x,y)=\hat P(\boldsymbol x)P_{\boldsymbol x}(y|\boldsymbol x)Pw(x,y)=P^(x)Px(y∣x)，因此
L(w+δ)−L(w)≥∑x,yP^(x,y)∑iδifi(x,y)−∑x,yPw(x,y)exp⁡∑iδifi(x,y)≥∑x,yP^(x,y)∑iδifi(x,y)−∑x,yPw(x,y)∑ifi(x,y)f#(x,y)exp⁡(δif#(x,y))=B(δ∣w)\begin{aligned} L(\boldsymbol w + \boldsymbol\delta)-L(\boldsymbol w) &\geq\sum_{\boldsymbol x, y}\hat P(\boldsymbol x,y)\sum_i\delta_if_i(\boldsymbol x, y)-\sum_{\boldsymbol x,y}P_{\boldsymbol w}(\boldsymbol x,y)\exp\sum_i\delta_if_i(\boldsymbol x,y)\\ &\geq\sum_{\boldsymbol x, y}\hat P(\boldsymbol x,y)\sum_i\delta_if_i(\boldsymbol x, y)-\sum_{\boldsymbol x,y}P_{\boldsymbol w}(\boldsymbol x,y)\sum_i\frac{f_i(\boldsymbol x,y)}{f^{\#}(\boldsymbol x,y)}\exp(\delta_if^{\#}(\boldsymbol x,y))=B(\boldsymbol\delta|\boldsymbol w) \end{aligned} L(w+δ)−L(w)≥x,y∑P^(x,y)i∑δifi(x,y)−x,y∑Pw(x,y)expi∑δifi(x,y)≥x,y∑P^(x,y)i∑δifi(x,y)−x,y∑Pw(x,y)i∑f#(x,y)fi(x,y)exp(δif#(x,y))=B(δ∣w)

求BBB对δi\delta_iδi并令其为0，得
∑x,yPw(x,y)fi(x,y)exp⁡(δif#(x,y))=∑x,yP^(x,y)fi(x,y)\sum_{\boldsymbol x,y}P_{\boldsymbol w}(\boldsymbol x,y)f_i(\boldsymbol x,y)\exp(\delta_if^{\#}(\boldsymbol x,y))=\sum_{\boldsymbol x,y}\hat P(\boldsymbol x,y)f_i(\boldsymbol x,y) x,y∑Pw(x,y)fi(x,y)exp(δif#(x,y))=x,y∑P^(x,y)fi(x,y)

若对于任意(x,y)(\boldsymbol x,y)(x,y)，f#(x,y)f^{\#}(\boldsymbol x,y)f#(x,y)为常数MMM，则δi\delta_iδi显式表示为
δi=1Mlog⁡EP^(fi)EP(fi)\delta_i=\frac{1}{M}\log\frac{E_{\hat P}(f_i)}{E_P(f_i)} δi=M1logEP(fi)EP^(fi)

否则，需通过牛顿法求解δi\delta_iδi。

ME总结

优点： 可通过灵活的约束条件，调节模型对未知数据的适应度和已知数据的拟合度；最大熵模型关于数据分布的熵极大，作为经典分类模型准确度较高。
缺点： 约束函数与样本数量相关，大样本下迭代计算量巨大，实际应用困难。

最大熵马尔可夫模型（Maximum Entropy Markov Model, MEMM）

MEMM的思想是找到一个 满足马尔可夫奇次性假设、观测不独立且熵最大 的模型解决序列标注问题，模型图结构如下：

MEMM对条件概率直接建模，模型表示为
P(s∣o)=∏tP(st∣st−1,ot)P(\boldsymbol s|\boldsymbol o)=\prod_{t}P(s_t|s_{t-1}, o_t) P(s∣o)=t∏P(st∣st−1,ot)
相比HMM，MEMM没有观测独立性假设。若不考虑整个序列式，时刻ttt的隐状态可看做一个分类问题，我们采用最大熵模型建模
P(st=i∣st−1,ot)=1Z(ot,st−1)exp⁡(∑kλkfk(ot,st=i)),Z(ot,st−1)=∑iexp⁡(∑kλkfk(ot,st=i))P(s_t=i|s_{t-1}, o_t)=\frac{1}{Z(o_t, s_{t-1})}\exp\left(\sum_k\lambda_kf_k(o_t, s_t=i)\right) ,\quad Z(o_t,s_{t-1})=\sum_i\exp\left(\sum_k\lambda_kf_k(o_t,s_t=i)\right) P(st=i∣st−1,ot)=Z(ot,st−1)1exp(k∑λkfk(ot,st=i)),Z(ot,st−1)=i∑exp(k∑λkfk(ot,st=i))
式中，Z(ot,st−1)Z(o_t, s_{t-1})Z(ot,st−1)为局部归一化因子，对每时刻都需要做归一化；fk(ot,st)f_k(o_t, s_t)fk(ot,st)为人工定义的第kkk个二值特征函数；λk\lambda_kλk为特征函数fkf_kfk的权重，通过训练最终确定，也是模型训练学习的唯一参数向量。

MEMM标注偏置问题

MEMM对每个时刻都做归一化（局部归一化），因此有更少转移状态的状态，其各转移概率普遍更高，因此最大概率路径更易出现转移状态少的状态.

每个节点的转移状态（分支数）不同，每个节点的转移状态形成概率分布，导致概率分布不均衡，转移状态越少的状态，转移概率（边权值）就越大，因子最终概率最大路径中更可能出现转移状态较少的状态。

最大熵模型（ME）和最大熵马尔可夫模型（MEMM）相关推荐

python手势识别隐马尔可夫模型_使用隐马尔可夫模型的运动笔迹手势识别.doc
您所在位置:网站首页 > 海量文档 &nbsp>&nbsp高等教育&nbsp>&nbsp科普读物使用隐马尔可夫模型的运动笔迹手势识别.doc10页 ...
马尔可夫模型(HMM)与隐马尔克夫模型(转)
马尔可夫模型马尔可夫模型:是用来预测具有等时间隔(如一年)的时刻点上各类人员的分布状况. 马尔可夫模型,它是根据历史数据,预测等时间间隔点上的各类人员分布状况.此方法的基本思想上根据 ...
【机器学习】最大熵马尔科夫模型
点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了最大熵马尔可夫模型,在隐马尔可夫模型(隐状态序列)的基础上应用最大熵模型思想,将一个概率生成模型转化为概率判别模型,同样 ...
【自然语言处理】最大熵马尔可夫模型
有任何的书写错误.排版错误.概念错误等,希望大家包含指正. 由于这部分的参考资料比较少,网上大部分资料重复且不完整,对于一些关键计算没有推导,所以这里我主要讨论几篇论文和讲义.但是这些论文和讲义之间也 ...
机器学习理论《统计学习方法》学习笔记：第十章隐马尔可夫模型（HMM）
第十章隐马尔可夫模型(HMM) 摘要隐马尔可夫模型的基本概念前言生成模型和判别模型马尔可夫过程马尔可夫链马尔可夫模型隐马尔可夫模型隐马尔可夫模型的三个问题第一概率计算第二学习 ...
机器学习_4.隐马尔可夫模型初识
预备知识--熵隐马尔可夫模型是从统计的基础上发展起来的,因此首先需要掌握以下几点: 熵是表示物质系统状态的一种度量,用以表示系统的无序程度,也可称不确定性程度.在信息论中,香农使用熵来表示信息系统的 ...
最强的篮球队和马尔可夫模型
打篮球经常遇到这种情况,11个人,分4.4.3共三套,一群人少时间玩,在一个失败的团队的人下阵来填补空缺. 因此,我认为,,会不会出现一个最强组合,使得这4个人一直赢比赛呢?当然,这忽略了体力不支等现 ...
《数学之美》第5章隐含马尔可夫模型
1 通信模型通信的本质就是一个编解码和传输的过程. 当自然语言处理的问题回归到通信系统中的解码问题时,很多难题就迎刃而解了. 雅格布森通信六要素是:发送者(信息源),信道,接受者,信息, 上下文和编 ...
(转载)机器学习知识点(十一)隐马尔可夫模型
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域 ...
数学之美系列三 -- 隐含马尔可夫模型在语言处理中的应用
发表者:吴军,Google 研究员前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法.复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述. ...

最大熵模型（ME）和最大熵马尔可夫模型（MEMM）