文章目录

  • 最大熵模型(Maximum Entropy Model, MEM)
    • 最大熵思想
    • 最大熵模型表示
    • 最大熵模型学习
    • 最大熵模型求解过程举例
    • 最大熵模型与极大似然估计
    • 最大熵模型与逻辑回归
    • 模型学习之改进的迭代尺度法(Improved Iterative Scaling,IIS)
    • ME总结
  • 最大熵马尔可夫模型(Maximum Entropy Markov Model, MEMM)
    • MEMM标注偏置问题

最大熵模型(Maximum Entropy Model, MEM)

最大熵思想

无更多信息的情况下,最随机的推断(概率分布的熵最大)是最合理的推断,即未知部分均匀分布时最合理,均匀分布的熵最大。若基于判别模型P(y∣x)P(y|\boldsymbol x)P(y∣x)预测实例类别,无先验知识下,实例x\boldsymbol xx应等可能属于各类别,即
P(c1∣x)=P(c2∣x)=⋯=P(cK∣x)=1/KP(c_1|\boldsymbol x)=P(c_2|\boldsymbol x)=\cdots=P(c_K|\boldsymbol x)=1/K P(c1​∣x)=P(c2​∣x)=⋯=P(cK​∣x)=1/K
对于带有约束的情况,如XXX取值集合为{a,b,c,d,e}\{a, b, c, d, e\}{a,b,c,d,e},约束P(a)+P(b)=1/3P(a)+P(b)=1/3P(a)+P(b)=1/3,则
P(a)=P(b)=1/6,P(c)=P(d)=P(e)=2/9P(a)=P(b)=1/6,\quad P(c)=P(d)=P(e)=2/9 P(a)=P(b)=1/6,P(c)=P(d)=P(e)=2/9

时,概率分布的熵最大,最大熵模型的思想就是寻找满足约束且熵最大的模型。

最大熵模型表示

令ν(x,y)\nu(\boldsymbol x, y)ν(x,y)表示训练样本集中(x,y)(\boldsymbol x, y)(x,y)出现的频数,以频数估计经验分布
P^(x,y)=ν(x,y)N,P^(x)=ν(x)N(1)\hat P(\boldsymbol x, y)=\frac{\nu(\boldsymbol x, y)}{N},\quad \hat P(\boldsymbol x)=\frac{\nu(\boldsymbol x)}{N} \tag{1} P^(x,y)=Nν(x,y)​,P^(x)=Nν(x)​(1)

定义二值特征函数f(x,y)f(\boldsymbol x, y)f(x,y),表示输入输出之间的事实关系,即
f(x,y)={1,x与y满足某一事实0,其他f(\boldsymbol x, y)=\begin{cases} 1, &\boldsymbol x与y满足某一事实\\[1ex] 0, &其他 \end{cases} f(x,y)={1,0,​x与y满足某一事实其他​
理想的模型应能获取训练集中的约束信息,即特征函数在模型分布、经验分布熵的期望近似,即
EP^(f)≈EP(f)⟹∑x,yP^(x,y)f(x,y)≈∑x,yP(x,y)f(x,y)\Bbb E_{\hat P}(f)\approx\Bbb E_P(f) \implies \sum_{\boldsymbol x, y}\hat P(\boldsymbol x, y)f(\boldsymbol x, y)\approx\sum_{\boldsymbol x,y}P(\boldsymbol x,y)f(\boldsymbol x,y) EP^​(f)≈EP​(f)⟹x,y∑​P^(x,y)f(x,y)≈x,y∑​P(x,y)f(x,y)
最大熵模型的学习,等价于最大化带有约束的条件熵
min⁡P−H(P)=−H(Y∣X)=∑x,yP(x,y)log⁡P(y∣x)s.t.Ep^(fi)=Ep(fi),i=1,⋯,k∑yP(y∣x)=1\begin{aligned} \min_P &\quad-H(P)=-H(Y|X)=\sum_{\boldsymbol x, y}P(\boldsymbol x,y)\log P(y|\boldsymbol x) \\[2ex] \text{s.t.} &\quad E_{\hat p}(f_i) =E_{p}(f_i),\quad i=1, \cdots, k\\[2ex] &\quad \sum_{y}P(y|\boldsymbol x)=1 \end{aligned} Pmin​s.t.​−H(P)=−H(Y∣X)=x,y∑​P(x,y)logP(y∣x)Ep^​​(fi​)=Ep​(fi​),i=1,⋯,ky∑​P(y∣x)=1​

判别式模型无法得到P(x,y)P(\boldsymbol x,y)P(x,y)的分布,使用近似P(x,y)≈P(y∣x)P^(x)P(\boldsymbol x, y)\approx P(y|\boldsymbol x)\hat P(\boldsymbol x)P(x,y)≈P(y∣x)P^(x)。最大熵模型根据特征函数,将训练集划分成已知信息和未知信息两类,每一个特征函数对应一种二划分。

最大熵模型学习

构造拉格朗日函数,求解约束极值问题
L(P,w)=∑x,yP(y∣x)P^(x)log⁡P(y∣x)+w0(1−∑yP(y∣x))+∑iwi(∑x,yP^(x,y)fi(x,y)−∑x,yP(y∣x)P^(x)fi(x,y))L(P, \boldsymbol w)=\sum_{\boldsymbol x, y}P(y|\boldsymbol x)\hat P(\boldsymbol x)\log P(y|\boldsymbol x)+ w_0 \left(1- \sum_{y}P(y|\boldsymbol x)\right)+\sum_iw_i\left(\sum_{\boldsymbol x, y}\hat P(\boldsymbol x, y)f_i(\boldsymbol x, y) - \sum_{\boldsymbol x, y}P(y|\boldsymbol x)\hat P(\boldsymbol x)f_i(\boldsymbol x, y)\right) L(P,w)=x,y∑​P(y∣x)P^(x)logP(y∣x)+w0​(1−y∑​P(y∣x))+i∑​wi​(x,y∑​P^(x,y)fi​(x,y)−x,y∑​P(y∣x)P^(x)fi​(x,y))
由于LLL是PPP的凸函数,故原始问题的解与对偶问题的解等价:
min⁡Pmax⁡wL(P,w)⟺max⁡wmin⁡PL(P,w)\min_P\max_{\boldsymbol w}L(P, \boldsymbol w) \iff \max_{\boldsymbol w}\min_PL(P,\boldsymbol w) Pmin​wmax​L(P,w)⟺wmax​Pmin​L(P,w)

I. 求内部极小(导出最大熵模型): 令LLL对P(x∣y)P(\boldsymbol x|y)P(x∣y)的偏导为0,且假设P^(x)>0\hat P(\boldsymbol x)>0P^(x)>0,则
∑x,yP~(x)(log⁡P(y∣x)+1−w0−∑iwifi(x,y))=0⟹P(y∣x)=exp⁡(∑iwifi(x,y))exp⁡(1−w0)\sum_{\boldsymbol x, y}\tilde P(\boldsymbol x) \left(\log P(y|\boldsymbol x)+1-w_0-\sum_{i}w_if_i(\boldsymbol x, y)\right)=0\implies P(y|\boldsymbol x)= \frac{\exp\left(\sum_{i}w_if_i(\boldsymbol x, y)\right)}{\exp(1-w_0)} x,y∑​P~(x)(logP(y∣x)+1−w0​−i∑​wi​fi​(x,y))=0⟹P(y∣x)=exp(1−w0​)exp(∑i​wi​fi​(x,y))​
根据约束条件知:∑yP(y∣x)=1\sum_y P(y|x)=1∑y​P(y∣x)=1,执行归一化也可以进一步消去w0w_0w0​,最终得最大熵模型
Pw(y∣x)=1Zw(x)exp⁡(∑iwifi(x,y)),Zw(x)=∑yexp⁡(∑iwifi(x,y))(2)P_w(y|\boldsymbol x)=\frac{1}{Z_{\boldsymbol w}(\boldsymbol x)}\exp\left(\sum_{i}w_if_i(\boldsymbol x, y)\right), \quad Z_{\boldsymbol w}(\boldsymbol x)=\sum_{y}\exp\left(\sum_{i}w_if_i(\boldsymbol x, y)\right) \tag{2} Pw​(y∣x)=Zw​(x)1​exp(i∑​wi​fi​(x,y)),Zw​(x)=y∑​exp(i∑​wi​fi​(x,y))(2)
从最大熵模型的表达式可知,最大熵模型将复杂的联合分布分解为多个指数项/因子的乘积,得到给定xxx下yyy的条件概率分布。

II. 求外部极大(用于更新最大熵模型PwP_wPw​的参数): 将内部极小结果带入拉格朗日函数,得
φ(w)=∑x,yP^(x,y)∑iwifi(x,y)−∑xP^(x)log⁡Zw(x)\varphi(\boldsymbol w)=\sum_{\boldsymbol x, y} \hat P(\boldsymbol x, y)\sum_iw_i f_i(\boldsymbol x, y) - \sum_{\boldsymbol x}\hat P(\boldsymbol x)\log Z_{\boldsymbol w}(\boldsymbol x) φ(w)=x,y∑​P^(x,y)i∑​wi​fi​(x,y)−x∑​P^(x)logZw​(x)

则w^=arg⁡max⁡wφ(w)\hat{\boldsymbol w}=\arg\max_{\boldsymbol w} \varphi(\boldsymbol w)w^=argmaxw​φ(w),参数学习使用改进的迭代尺度算法IIS求解。

最大熵模型求解过程举例

假设随机变量X有5个取值,约束 P(A)+P(B)=3/10,估计随机变量各个取值的概率。

该问题的最大熵模型的拉格朗日函数为
L(P)=∑i=15P(yi)log⁡P(yi)+wi(P(yi)+P(y2)−310)+w0(∑i=15P(yi)−1)L(P)=\sum_{i=1}^5P(y_i)\log P(y_i)+w_i\left(P(y_i)+P(y_2)-\frac{3}{10}\right)+w_0\left(\sum_{i=1}^5P(y_i)-1\right) L(P)=i=1∑5​P(yi​)logP(yi​)+wi​(P(yi​)+P(y2​)−103​)+w0​(i=1∑5​P(yi​)−1)

根据内部极小,得到
Pw(y1)=Pw(y2)=ew12ew1+3,P(y3)=P(y4)=P(y5)=12ew1+3P_w(y_1)=P_w(y_2)=\frac{e^{w_1}}{2e^{w_1}+3},\quad P(y_3)=P(y_4)=P(y_5)=\frac{1}{2e^{w_1}+3} Pw​(y1​)=Pw​(y2​)=2ew1​+3ew1​​,P(y3​)=P(y4​)=P(y5​)=2ew1​+31​

根据外部极大,得到
φ(w)=310w1−log⁡(2ew1+3)\varphi(w)=\frac{3}{10}w_1-\log (2e^{w_1}+3) φ(w)=103​w1​−log(2ew1​+3)

对φ(w)\varphi(w)φ(w)求www的偏导令其为0,得
ew1=914⟹P(y1)=P(y2)=320,P(y3)=P(y4)=P(y5)=730e^{w_1}=\frac{9}{14} \implies P(y_1)=P(y_2)=\frac{3}{20},\ P(y_3)=P(y_4)=P(y_5)=\frac{7}{30} ew1​=149​⟹P(y1​)=P(y2​)=203​, P(y3​)=P(y4​)=P(y5​)=307​
李航《统计学习》上有未归一化内部极小得到的最大熵模型的解法。

最大熵模型与极大似然估计

判别模型的极大似然估计
L(w)=∏i,jP(yj∣xi,w)P^(xi)=∏x,y[P(y∣x,w)P^(x)]ν(x,y)≃∏x,y[P(y∣x,w)P^(x)]ν(x,y)N=∏x,y[P(y∣x,w)P^(x)]P^(x,y)≃∑x,yP^(x,y)log⁡P(y∣x,w)+P^(x,y)log⁡P^(x)≃∑x,yP^(x,y)log⁡P(y∣x,w)\begin{aligned} L(\boldsymbol w) &= \prod_{i,j} P(y_j|\boldsymbol x_i,\boldsymbol w)\hat P(\boldsymbol x_i)=\prod_{\boldsymbol x, y}[P(y|\boldsymbol x,\boldsymbol w)\hat P(\boldsymbol x)]^{\nu(\boldsymbol x, y)}\\ &\simeq\prod_{\boldsymbol x, y}[P(y|\boldsymbol x,\boldsymbol w)\hat P(\boldsymbol x)]^{\frac{\nu(\boldsymbol x, y)}{N}}=\prod_{\boldsymbol x,y}[P(y|\boldsymbol x,\boldsymbol w)\hat P(\boldsymbol x)]^{\hat P(\boldsymbol x,y)}\\ &\simeq\sum_{\boldsymbol x, y}\hat P(\boldsymbol x,y)\log P(y|\boldsymbol x,\boldsymbol w)+\hat P(\boldsymbol x,y)\log \hat P(\boldsymbol x)\\ &\simeq\sum_{\boldsymbol x, y}\hat P(\boldsymbol x,y)\log P(y|\boldsymbol x,\boldsymbol w) \end{aligned} L(w)​=i,j∏​P(yj​∣xi​,w)P^(xi​)=x,y∏​[P(y∣x,w)P^(x)]ν(x,y)≃x,y∏​[P(y∣x,w)P^(x)]Nν(x,y)​=x,y∏​[P(y∣x,w)P^(x)]P^(x,y)≃x,y∑​P^(x,y)logP(y∣x,w)+P^(x,y)logP^(x)≃x,y∑​P^(x,y)logP(y∣x,w)​

其中ν(x,y)\nu(\boldsymbol x, y)ν(x,y)表示样本(x,y)(\boldsymbol x, y)(x,y)的频数,∑x,y\sum_{\boldsymbol x, y}∑x,y​是对样本集中不重复样本(x,y)(\boldsymbol x, y)(x,y)求和。

从上式可得,极大对数似然估计与最大熵模型目标函数的区别在于log前是经验联合分布还是模型联合分布,由于最大熵模型使用约束“经验联合分布近似于模型联合分布”,因此极大似然估计与基于约束的最大熵模型描述的问题基本一致。

将公式(1)(2)带入上式,也可以得到两者的等价关系
L(w)=∑x,yP^(x,y)∑iwifi(x,y)−∑xP^(x)log⁡Zw(x)=φ(w)L(\boldsymbol w)=\sum_{\boldsymbol x, y} \hat P(\boldsymbol x, y)\sum_iw_i f_i(\boldsymbol x, y) - \sum_{\boldsymbol x}\hat P(\boldsymbol x)\log Z_{\boldsymbol w}(\boldsymbol x) =\varphi(\boldsymbol w) L(w)=x,y∑​P^(x,y)i∑​wi​fi​(x,y)−x∑​P^(x)logZw​(x)=φ(w)

最大熵对偶函数的极大化等价于最大熵模型的极大似然估计

最大熵模型与逻辑回归

根据最大熵模型内部极小问题得到的条件概率分布,并定义特征函数,则
P(y∣x,w)=exp⁡(w⋅f(x,y))∑yexp⁡(w⋅f(x,y)),f(x,y)={x,y=10,y=0P(y|\boldsymbol x, \boldsymbol w)=\frac{\exp(\boldsymbol w\cdot f(\boldsymbol x,y))}{\sum_y\exp(\boldsymbol w\cdot f(\boldsymbol x,y))},\quad f(\boldsymbol x, y)=\begin{cases} \boldsymbol x, &y=1\\[1ex] 0, &y=0 \end{cases} P(y∣x,w)=∑y​exp(w⋅f(x,y))exp(w⋅f(x,y))​,f(x,y)={x,0,​y=1y=0​

由最大熵模型可推出逻辑回归模型
P(y=1∣x,w)=ew⋅x1+ew⋅x=11+e−w⋅xP(y=1|\boldsymbol x,\boldsymbol w)=\frac{e^{\boldsymbol w\cdot\boldsymbol x}}{1+e^{\boldsymbol w\cdot\boldsymbol x}} = \frac{1}{1+e^{-\boldsymbol w\cdot\boldsymbol x}} P(y=1∣x,w)=1+ew⋅xew⋅x​=1+e−w⋅x1​
ME和LR模型类似,称之为对数线性模型,模型学习就是在给定训练数据条件下进行极大似然估计。

模型学习之改进的迭代尺度法(Improved Iterative Scaling,IIS)

改进的迭代尺度法基本思想是,寻找新的参数向量w+δ=(w1+δ1,⋯,wn+δn)T\boldsymbol w + \boldsymbol \delta=(w_1 + \delta_1,\cdots,w_n + \delta_n)^Tw+δ=(w1​+δ1​,⋯,wn​+δn​)T使得似然函数下界增大,从而提高似然函数的值,直至似然函数达到最大值.

当a>0a>0a>0时,由−log⁡a≥1−a-\log a \geq 1- a−loga≥1−a,则模型参数从w\boldsymbol ww变化为w+δ\boldsymbol w+\boldsymbol\deltaw+δ,似然函数变化
L(w+δ)−L(w)=∑x,yP^(x,y)∑iδifi(x,y)−∑xP^(x)log⁡Zw+δ(x)Zw(x)≥∑x,yP^(x,y)∑iδifi(x,y)+1−∑xP^(x)Zw+δ(x)Zw(x)=∑x,yP^(x,y)∑iδifi(x,y)+1−∑xP^(x)∑yPw(y∣x)exp⁡∑iδifi(x,y)\begin{aligned} L(\boldsymbol w + \boldsymbol\delta)-L(\boldsymbol w) &=\sum_{\boldsymbol x, y}\hat P(\boldsymbol x,y)\sum_i\delta_if_i(\boldsymbol x, y)-\sum_{\boldsymbol x}\hat P(\boldsymbol x)\log\frac{Z_{\boldsymbol w+\boldsymbol\delta}(\boldsymbol x)}{Z_{\boldsymbol w}(\boldsymbol x)}\\ &\geq\sum_{\boldsymbol x, y}\hat P(\boldsymbol x,y)\sum_i\delta_if_i(\boldsymbol x, y)+1-\sum_{\boldsymbol x}\hat P(\boldsymbol x)\frac{Z_{\boldsymbol w+\boldsymbol\delta}(\boldsymbol x)}{Z_{\boldsymbol w}(\boldsymbol x)}\\ &=\sum_{\boldsymbol x, y}\hat P(\boldsymbol x,y)\sum_i\delta_if_i(\boldsymbol x, y)+1-\sum_{\boldsymbol x}\hat P(\boldsymbol x)\sum_yP_{\boldsymbol w}(y|\boldsymbol x)\exp\sum_i\delta_if_i(\boldsymbol x,y)\\ \end{aligned} L(w+δ)−L(w)​=x,y∑​P^(x,y)i∑​δi​fi​(x,y)−x∑​P^(x)logZw​(x)Zw+δ​(x)​≥x,y∑​P^(x,y)i∑​δi​fi​(x,y)+1−x∑​P^(x)Zw​(x)Zw+δ​(x)​=x,y∑​P^(x,y)i∑​δi​fi​(x,y)+1−x∑​P^(x)y∑​Pw​(y∣x)expi∑​δi​fi​(x,y)​

IIS算法试图每次只优化一个δi\delta_iδi​,固定其它δj\delta_jδj​. 引入变量f#(x,y)=∑kfk(x,y)f^{\#}(\boldsymbol x,y)=\sum_kf_k(\boldsymbol x,y)f#(x,y)=∑k​fk​(x,y),由Jensen不等式知
exp⁡(∑iδifi(x,y))=exp⁡(∑ifi(x,y)f#(x,y)δif#(x,y))≤∑ifi(x,y)f#(x,y)exp⁡(δif#(x,y))\exp\left(\sum_i\delta_if_i(\boldsymbol x,y)\right)=\exp\left(\sum_i\frac{f_i(\boldsymbol x,y)}{f^{\#}(\boldsymbol x,y)}\delta_if^{\#}(\boldsymbol x,y)\right)\leq \sum_i\frac{f_i(\boldsymbol x,y)}{f^{\#}(\boldsymbol x,y)}\exp(\delta_if^{\#}(\boldsymbol x,y)) exp(i∑​δi​fi​(x,y))=exp(i∑​f#(x,y)fi​(x,y)​δi​f#(x,y))≤i∑​f#(x,y)fi​(x,y)​exp(δi​f#(x,y))

省略常数项,并记Pw(x,y)=P^(x)Px(y∣x)P_{\boldsymbol w}(\boldsymbol x,y)=\hat P(\boldsymbol x)P_{\boldsymbol x}(y|\boldsymbol x)Pw​(x,y)=P^(x)Px​(y∣x),因此
L(w+δ)−L(w)≥∑x,yP^(x,y)∑iδifi(x,y)−∑x,yPw(x,y)exp⁡∑iδifi(x,y)≥∑x,yP^(x,y)∑iδifi(x,y)−∑x,yPw(x,y)∑ifi(x,y)f#(x,y)exp⁡(δif#(x,y))=B(δ∣w)\begin{aligned} L(\boldsymbol w + \boldsymbol\delta)-L(\boldsymbol w) &\geq\sum_{\boldsymbol x, y}\hat P(\boldsymbol x,y)\sum_i\delta_if_i(\boldsymbol x, y)-\sum_{\boldsymbol x,y}P_{\boldsymbol w}(\boldsymbol x,y)\exp\sum_i\delta_if_i(\boldsymbol x,y)\\ &\geq\sum_{\boldsymbol x, y}\hat P(\boldsymbol x,y)\sum_i\delta_if_i(\boldsymbol x, y)-\sum_{\boldsymbol x,y}P_{\boldsymbol w}(\boldsymbol x,y)\sum_i\frac{f_i(\boldsymbol x,y)}{f^{\#}(\boldsymbol x,y)}\exp(\delta_if^{\#}(\boldsymbol x,y))=B(\boldsymbol\delta|\boldsymbol w) \end{aligned} L(w+δ)−L(w)​≥x,y∑​P^(x,y)i∑​δi​fi​(x,y)−x,y∑​Pw​(x,y)expi∑​δi​fi​(x,y)≥x,y∑​P^(x,y)i∑​δi​fi​(x,y)−x,y∑​Pw​(x,y)i∑​f#(x,y)fi​(x,y)​exp(δi​f#(x,y))=B(δ∣w)​

求BBB对δi\delta_iδi​并令其为0,得
∑x,yPw(x,y)fi(x,y)exp⁡(δif#(x,y))=∑x,yP^(x,y)fi(x,y)\sum_{\boldsymbol x,y}P_{\boldsymbol w}(\boldsymbol x,y)f_i(\boldsymbol x,y)\exp(\delta_if^{\#}(\boldsymbol x,y))=\sum_{\boldsymbol x,y}\hat P(\boldsymbol x,y)f_i(\boldsymbol x,y) x,y∑​Pw​(x,y)fi​(x,y)exp(δi​f#(x,y))=x,y∑​P^(x,y)fi​(x,y)

若对于任意(x,y)(\boldsymbol x,y)(x,y),f#(x,y)f^{\#}(\boldsymbol x,y)f#(x,y)为常数MMM,则δi\delta_iδi​显式表示为
δi=1Mlog⁡EP^(fi)EP(fi)\delta_i=\frac{1}{M}\log\frac{E_{\hat P}(f_i)}{E_P(f_i)} δi​=M1​logEP​(fi​)EP^​(fi​)​

否则,需通过牛顿法求解δi\delta_iδi​。

ME总结

优点: 可通过灵活的约束条件,调节模型对未知数据的适应度和已知数据的拟合度;最大熵模型关于数据分布的熵极大,作为经典分类模型准确度较高。
缺点: 约束函数与样本数量相关,大样本下迭代计算量巨大,实际应用困难。

最大熵马尔可夫模型(Maximum Entropy Markov Model, MEMM)

MEMM的思想是找到一个 满足马尔可夫奇次性假设、观测不独立且熵最大 的模型解决序列标注问题,模型图结构如下:

MEMM对条件概率直接建模,模型表示为
P(s∣o)=∏tP(st∣st−1,ot)P(\boldsymbol s|\boldsymbol o)=\prod_{t}P(s_t|s_{t-1}, o_t) P(s∣o)=t∏​P(st​∣st−1​,ot​)
相比HMM,MEMM没有观测独立性假设。若不考虑整个序列式,时刻ttt的隐状态可看做一个分类问题,我们采用最大熵模型建模
P(st=i∣st−1,ot)=1Z(ot,st−1)exp⁡(∑kλkfk(ot,st=i)),Z(ot,st−1)=∑iexp⁡(∑kλkfk(ot,st=i))P(s_t=i|s_{t-1}, o_t)=\frac{1}{Z(o_t, s_{t-1})}\exp\left(\sum_k\lambda_kf_k(o_t, s_t=i)\right) ,\quad Z(o_t,s_{t-1})=\sum_i\exp\left(\sum_k\lambda_kf_k(o_t,s_t=i)\right) P(st​=i∣st−1​,ot​)=Z(ot​,st−1​)1​exp(k∑​λk​fk​(ot​,st​=i)),Z(ot​,st−1​)=i∑​exp(k∑​λk​fk​(ot​,st​=i))
式中,Z(ot,st−1)Z(o_t, s_{t-1})Z(ot​,st−1​)为局部归一化因子,对每时刻都需要做归一化;fk(ot,st)f_k(o_t, s_t)fk​(ot​,st​)为人工定义的第kkk个二值特征函数;λk\lambda_kλk​为特征函数fkf_kfk​的权重,通过训练最终确定,也是模型训练学习的唯一参数向量。

MEMM标注偏置问题

MEMM对每个时刻都做归一化(局部归一化),因此有更少转移状态的状态,其各转移概率普遍更高,因此最大概率路径更易出现转移状态少的状态.

每个节点的转移状态(分支数)不同,每个节点的转移状态形成概率分布,导致概率分布不均衡,转移状态越少的状态,转移概率(边权值)就越大,因子最终概率最大路径中更可能出现转移状态较少的状态。

最大熵模型(ME)和最大熵马尔可夫模型(MEMM)相关推荐

  1. python手势识别隐马尔可夫模型_使用隐马尔可夫模型的运动笔迹手势识别.doc

    您所在位置:网站首页 > 海量文档 &nbsp>&nbsp高等教育&nbsp>&nbsp科普读物 使用隐马尔可夫模型的运动笔迹手势识别.doc10页 ...

  2. 马尔可夫模型(HMM)与隐马尔克夫模型(转)

    马尔可夫模型         马尔可夫模型:是用来预测具有等时间隔(如一年)的时刻点上各类人员的分布状况. 马尔可夫模型,它是根据历史数据,预测等时间间隔点上的各类人员分布状况.此方法的基本思想上根据 ...

  3. 【机器学习】最大熵马尔科夫模型

    点击上方蓝色字体,关注AI小白入门哟 跟着博主的脚步,每天进步一点点 本文介绍了最大熵马尔可夫模型,在隐马尔可夫模型(隐状态序列)的基础上应用最大熵模型思想,将一个概率生成模型转化为概率判别模型,同样 ...

  4. 【自然语言处理】最大熵马尔可夫模型

    有任何的书写错误.排版错误.概念错误等,希望大家包含指正. 由于这部分的参考资料比较少,网上大部分资料重复且不完整,对于一些关键计算没有推导,所以这里我主要讨论几篇论文和讲义.但是这些论文和讲义之间也 ...

  5. 机器学习理论《统计学习方法》学习笔记:第十章 隐马尔可夫模型(HMM)

    第十章 隐马尔可夫模型(HMM) 摘要 隐马尔可夫模型的基本概念 前言 生成模型和判别模型 马尔可夫过程 马尔可夫链 马尔可夫模型 隐马尔可夫模型 隐马尔可夫模型的三个问题 第一 概率计算 第二 学习 ...

  6. 机器学习_4.隐马尔可夫模型初识

    预备知识--熵 隐马尔可夫模型是从统计的基础上发展起来的,因此首先需要掌握以下几点: 熵是表示物质系统状态的一种度量,用以表示系统的无序程度,也可称不确定性程度.在信息论中,香农使用熵来表示信息系统的 ...

  7. 最强的篮球队和马尔可夫模型

    打篮球经常遇到这种情况,11个人,分4.4.3共三套,一群人少时间玩,在一个失败的团队的人下阵来填补空缺. 因此,我认为,,会不会出现一个最强组合,使得这4个人一直赢比赛呢?当然,这忽略了体力不支等现 ...

  8. 《数学之美》第5章 隐含马尔可夫模型

    1 通信模型 通信的本质就是一个编解码和传输的过程. 当自然语言处理的问题回归到通信系统中的解码问题时,很多难题就迎刃而解了. 雅格布森通信六要素是:发送者(信息源),信道,接受者,信息, 上下文和编 ...

  9. (转载)机器学习知识点(十一)隐马尔可夫模型

           隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域 ...

  10. 数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用

    发表者:吴军,Google 研究员 前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法.复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述. ...

最新文章

  1. php写网页6,基于ThinkPHP6+AdminLTE框架开发的响应式企业网站CMS系统PHP源码,ThinkPHP6开发的后台权限管理系统...
  2. 中石油训练赛 - Match Matching(完全背包)
  3. 用Java中的抽象类扩展抽象类
  4. 利用多线程句柄设置鼠标忙碌状态
  5. LeetCode 1737. 满足三条件之一需改变的最少字符数(计数)
  6. 2021年中国硬核创业者调研报告
  7. 上海交通大学软件学院2005学年度第一学期工程硕士课程安排表
  8. mysql——时间字段类型与C#中datetime
  9. 安川机器人梯形图指令(一)
  10. 魔兽世界——暮光高地任务攻略
  11. Landsat8处理小工具(python)
  12. Vue源码学习目录(持续更新中)
  13. 免费会员管理管理系统
  14. libsvm多分类python_LIBSVM (三) 葡萄酒种类识别
  15. NFS问题:server not responing 和 RPC call returner error 128
  16. 2021南京大学计算机考研分数线,2021年南京大学考研分数线公布
  17. 如何在Docker容器里开启fail2ban防止SSH暴力破解
  18. python SSLError HTTPSConnectionPool bad handshake
  19. 【动态规划】有后效性 DP
  20. CNCC 2018 今日开幕,五场特邀报告引爆「大数据推动数字经济」| CNCC 2018

热门文章

  1. 我的爬虫 之 爬今日头条街拍图片
  2. 教你炒股票29:转折的力度与级别
  3. Echarts设置y轴值间隔
  4. 简单易学的win10安装教程,值得收藏
  5. google的视频下载插件
  6. win7系统ftp服务器密码修改,win7ftp服务器设置用户名密码设置
  7. 春运正当时 古代人们又是靠什么出行的呢?
  8. Android https证书过期,Android 的 HTTPS 证书过期异常
  9. spring源码构建时缺失spring-cglib-repack-3.2.4.jar和spring-objenesis-repack-2.4.jar
  10. 腾讯云轻量应用服务器部署Aria2+AriaNg下载工具