HMM模型及相关算法

写在前面:本文主要参考了刘建平Pinard老师的博客,做了一定程度的归纳,其中也有一些自己的理解,包括图和公式,希望对大家学习有所帮助。

一、HMM定义和前置知识

1、条件独立的判定

贝叶斯网络的head-to-tail结构形式如下图:

还是分c未知跟c已知这两种情况:
c未知时,有:P(a,b,c)=P(a)∗P(c∣a)∗P(b∣c)P(a,b,c)=P(a)*P(c|a)*P(b|c)P(a,b,c)=P(a)∗P(c∣a)∗P(b∣c),但无法推出P(a,b)=P(a)P(b)P(a,b) = P(a)P(b)P(a,b)=P(a)P(b),即c未知时,a、b不独立。
c已知时,有:P(a,b∣c)=P(a,b,c)/P(c)P(a,b|c)=P(a,b,c)/P(c)P(a,b∣c)=P(a,b,c)/P(c),且根据P(a,c)=P(a)∗P(c∣a)=P(c)∗P(a∣c)P(a,c) = P(a)*P(c|a) = P(c)*P(a|c)P(a,c)=P(a)∗P(c∣a)=P(c)∗P(a∣c),可化简得到:
P(a,b∣c)=P(a,b,c)/P(c)=P(a)∗P(c∣a)∗P(b∣c)/P(c)=P(a,c)∗P(b∣c)/P(c)=P(a∣c)∗P(b∣c)P(a,b|c)=P(a,b,c)/P(c)\\ =P(a)*P(c|a)*P(b|c)/P(c)\\ =P(a,c)*P(b|c)/P(c)\\ =P(a|c)*P(b|c) P(a,b∣c)=P(a,b,c)/P(c)=P(a)∗P(c∣a)∗P(b∣c)/P(c)=P(a,c)∗P(b∣c)/P(c)=P(a∣c)∗P(b∣c)
在c给定的条件下,a,b被阻断(blocked),是独立的,称之为head-to-tail条件独立。

2、动态规划问题

引入递归问题:已知an−an−1=2,a1=1a_{n} - a_{n-1} = 2 ,a_1=1an​−an−1​=2,a1​=1 求解a的通项公式

求解使用错位相加:
an−an−1=2an−1−an−2=2...a2−a1=2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−an−an−1+an−1−an−2...+a2−a1=2∗(n−1)an=2n−1Sn=a1+a2...+an=(2n−1+1)∗n/2=n2a_{n} - a_{n-1} = 2\\ a_{n-1} - a_{n-2} = 2\\ ...\\ a_{2} - a_{1}=2\\ --------------------------------------\\ a_{n} - a_{n-1} + a_{n-1} - a_{n-2}...+ a_{2} - a_{1} = 2*(n-1)\\ a_n = 2n-1\\ S_n = a_1 + a_2 ...+a_n = (2n-1+1)*n/2 = n^2 an​−an−1​=2an−1​−an−2​=2...a2​−a1​=2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−an​−an−1​+an−1​−an−2​...+a2​−a1​=2∗(n−1)an​=2n−1Sn​=a1​+a2​...+an​=(2n−1+1)∗n/2=n2
其实所谓递归问题通常就是这样一个求通项或者求通项和的问题。

例子:动态规划在分词上的应用

例句:“经常有意见分歧”
词典: [“经常”, “经”, “有”, “有意见”,“意见”,“分歧”,“见”, “意”, “见分歧”, “分”]
概率:[ 0.1, 0.05, 0.1, 0.1, 0.2, 0.2, 0.05, 0.05, 0.05, 0.1]
-log(x):[ 2.3, 3, 2.3, 2.3, 1.6, 1.6, 3, 3, 3, 2.3]

动态规划求解过程如下:
f(8)=f(7)+20=f(6)+1.6=f(5)+3f(7)=f(6)+2.3f(6)=f(5)+3=f(4)+1.6=f(3)+2.3f(5)=f(4)+3f(4)=f(3)+2.3f(3)=f(2)+20=f(1)+3f(2)=3f(1)=0f(8) = f(7)+20 = f(6) + 1.6 =f(5) + 3\\ f(7) =f(6) + 2.3\\ f(6) =f(5) +3 =f(4)+1.6 =f(3)+2.3\\ f(5)=f(4)+3\\ f(4)=f(3)+2.3\\ f(3)=f(2)+20=f(1)+3\\ f(2) = 3\\ f(1)=0 f(8)=f(7)+20=f(6)+1.6=f(5)+3f(7)=f(6)+2.3f(6)=f(5)+3=f(4)+1.6=f(3)+2.3f(5)=f(4)+3f(4)=f(3)+2.3f(3)=f(2)+20=f(1)+3f(2)=3f(1)=0
有上式:

可得最佳路径

1 2 3 4 5 6 7 8
0 3 2.3 4.6 7.6 4.6 6.9 6.2

最佳路径:8<–6<–3<–1:[经常,有意见,分歧]

动态规划的特点,后一个时间节点的路径可以用前面路径节点递推得到。

3、隐马尔科夫(HMM)模型

隐马尔科夫模型(Hidden Markov Model,以下简称HMM)是比较经典的机器学习模型了,它在语言识别,自然语言处理,模式识别等领域得到广泛的应用。当然,随着目前深度学习的崛起,尤其是RNN,LSTM等神经网络序列模型的火热,HMM的地位有所下降。但是作为一个经典的模型,学习HMM的模型和对应算法,对我们解决问题建模的能力提高以及算法思路的拓展还是很好的。

1. 什么样的问题需要HMM模型

首先我们来看看什么样的问题解决可以用HMM模型。使用HMM模型时我们的问题一般有这两个特征:

1)我们的问题是基于序列的,比如时间序列,或者状态序列。

2)我们的问题中有两类数据,一类序列数据是可以观测到的,即观测序列;而另一类数据是不能观察到的,即隐藏状态序列,简称状态序列。

下面我们用精确的数学符号来表述我们的HMM模型。

2. HMM模型的定义

对于HMM模型,首先我们假设Q 是所有可能的隐藏状态的集合,V 是所有可能的观测状态的集合,即:
Q=q1,q2,...,qN,V=v1,v2,...vMQ={q_1,q_2,...,q_N},\\V={v_1,v_2,...v_M} Q=q1​,q2​,...,qN​,V=v1​,v2​,...vM​
其中,N 是可能的隐藏状态数,M是所有的可能的观察状态数。

对于一个长度为T 的序列,I 对应的状态序列, O 是对应的观察序列,即:
I=i1,i2,...,iT,O=o1,o2,...oTI={i_1,i_2,...,i_T},\\O={o_1,o_2,...o_T} I=i1​,i2​,...,iT​,O=o1​,o2​,...oT​
其中,任意一个隐藏状态iT∈Qi_T∈QiT​∈Q ,任意一个观察状态oT∈Vo_T ∈VoT​∈V

HMM模型做了两个很重要的假设如下:

(1)齐次马尔科夫链假设。
即任意时刻的隐藏状态只依赖于它前一个隐藏状态。当然这样假设有点极端,因为很多时候我们的某一个隐藏状态不仅仅只依赖于前一个隐藏状态,可能是前两个或者是前三个。但是这样假设的好处就是模型简单,便于求解。如果在时刻t 的隐藏状态是it=qii_t=q_iit​=qi​ ,在时刻t+1的隐藏状态是 it+1=qji_{t+1}=q_jit+1​=qj​ , 则从时刻t 到时刻t+1的HMM状态转移概率 aija_{ij}aij​ 可以表示为:
aij=P(it+1=qj∣it=qi)a_{ij}=P(i_{t+1}=q_j|i_t=q_i) aij​=P(it+1​=qj​∣it​=qi​)
这样aija_{ij}aij​ 可以组成马尔科夫链的状态转移矩阵A :
A=[aij]N×NA=[a_{ij}]_{N×N} A=[aij​]N×N​
(2)观测独立性假设。
即任意时刻的观察状态只仅仅依赖于当前时刻的隐藏状态,这也是一个为了简化模型的假设。如果在时刻t的隐藏状态是it=qji_t=q_jit​=qj​ , 而对应的观察状态为ot=vko_t=v_kot​=vk​ , 则该时刻观察状态vkv_kvk​ 在隐藏状态qjq_jqj​下生成的概率为bj(k)b_j(k)bj​(k),满足:
bj(k)=P(ot=vk∣it=qj)b_j(k)=P(o_t=v_k|i_t=q_j) bj​(k)=P(ot​=vk​∣it​=qj​)
这样bj(k)b_j(k)bj​(k) 可以组成观测状态生成的概率矩阵B :
B=[bj(k)]N×MB=[b_j(k)]_{N×M} B=[bj​(k)]N×M​
除此之外,我们需要一组在时刻t=1的隐藏状态概率分布Π​\Pi​Π​:
Π=[π(i)]N,其中π(i)=P(i1=qi)Π=[π(i)]_N,其中π(i)=P(i_1=q_i) Π=[π(i)]N​,其中π(i)=P(i1​=qi​)
一个HMM模型,可以由隐藏状态初始概率分布ΠΠΠ, 状态转移概率矩阵A 和观测状态概率矩阵B决定。Π,AΠ,AΠ,A 决定状态序列,B 决定观测序列。因此,HMM模型参数可以由一个三元组λ 表示如下:
λ=(A,B,Π)λ=(A,B,Π) λ=(A,B,Π)

二、HMM中的三个问题

(1) 评估观察序列概率。

即给定模型λ=(A,B,Π)λ=(A,B,Π)λ=(A,B,Π) 和观测序列O=o1,o2,...oTO={o_{1},o_{2},...o_{T}}O=o1​,o2​,...oT​,计算在模型λ下观测序列O出现的概率P(O∣λ)P(O|λ)P(O∣λ)。这个问题的求解需要用到前向后向算法。这个问题是HMM模型三个问题中最简单的。

首先我们回顾下HMM模型的问题。这个问题是这样的。我们已知HMM模型的参数λ=(A,B,Π)λ=(A,B,Π)λ=(A,B,Π) 。其中A 是隐藏状态转移概率的矩阵,B 是观测状态生成概率的矩阵, Π是隐藏状态的初始概率分布。同时我们也已经得到了观测序列O=o1,o2,...oTO={o_1,o_2,...o_T}O=o1​,o2​,...oT​ ,现在我们要求观测序列O 在模型λ 下出现的条件概率P(O∣λ)P(O|λ)P(O∣λ) 。

我们知道所有的隐藏状态之间的转移概率和所有从隐藏状态到观测状态生成概率,那么我们是可以暴力求解的。

我们可以列举出所有可能出现的长度为T 的隐藏序列I=i1,i2,...,iTI={i_1,i_2,...,i_T}I=i1​,i2​,...,iT​ ,分布求出这些隐藏序列与观测序列O=o1,o2,...oTO={o_1,o_2,...o_T}O=o1​,o2​,...oT​ 的联合概率分布P(O,I∣λ)P(O,I|λ)P(O,I∣λ) ,这样我们就可以很容易的求出边缘分布P(O∣λ)P(O|λ)P(O∣λ) 了。

1)暴力求解

首先,任意一个隐藏序列I=i1,i2,...,iT​I={i_1,i_2,...,i_T}​I=i1​,i2​,...,iT​​ 出现的概率是:
P(I∣λ)=πi1ai1i2ai2i3...aiT−1iTP(I|λ)=π_{i1}a_{i_1i_2}a_{i_2i_3}...a_{i_{T−1}i_T} P(I∣λ)=πi1​ai1​i2​​ai2​i3​​...aiT−1​iT​​
对于固定的状态序列,我们要求的观察序列O=o1,o2,...oTO={o_1,o_2,...o_T}O=o1​,o2​,...oT​ 出现的概率是:
P(O∣I,λ)=bi1(o1)bi2(o2)...biT(oT)P(O|I,λ)=b_{i_1}(o_1)b_{i_2}(o_2)...b_{i_T}(o_T) P(O∣I,λ)=bi1​​(o1​)bi2​​(o2​)...biT​​(oT​)
OI联合出现的概率是:
P(O,I∣λ)=P(I∣λ)P(O∣I,λ)=πi1bi1(o1)ai1i2bi2(o2)...aiT−1iTbiT(oT)P(O,I|λ)=P(I|λ)P(O|I,λ)=π_{i1}b_{i1}(o_1)a_{i_1i_2}b_{i_2}(o_2)...a_{i_{T−1}i_T}b_{i_T}(o_T) P(O,I∣λ)=P(I∣λ)P(O∣I,λ)=πi1​bi1​(o1​)ai1​i2​​bi2​​(o2​)...aiT−1​iT​​biT​​(oT​)
然后求边缘概率分布,即可得到观测序列O 在模型λ下出现的条件概率P(O∣λ)P(O|λ )P(O∣λ) :
P(O∣λ)=∑IP(O,I∣λ)=∑i1,i2,...iTπi1bi1(o1)ai1i2bi2(o2)...aiT−1iTbiT(oT)P(O|λ)=\sum_{I}P(O,I|λ)=\sum_{i_1,i_2,...i_T}π_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)...a_{i_{T−1}i_T}b_{i_T}(o_T) P(O∣λ)=I∑​P(O,I∣λ)=i1​,i2​,...iT​∑​πi1​​bi1​​(o1​)ai1​i2​​bi2​​(o2​)...aiT−1​iT​​biT​​(oT​)
虽然上述方法有效,但是如果我们的隐藏状态数N非常多的那就麻烦了,此时我们预测状态有NTN^TNT种组合,算法的时间复杂度是O(TNT)O(TN^T)O(TNT) 阶的。因此对于一些隐藏状态数极少的模型,我们可以用暴力求解法来得到观测序列出现的概率,但是如果隐藏状态多,则上述算法太耗时,我们需要寻找其他简洁的算法。

前向后向算法就是来帮助我们在较低的时间复杂度情况下求解这个问题的。

2)用前向算法求HMM观测序列的概率

前向算法本质上属于动态规划的算法,也就是我们要通过找到局部状态递推的公式,这样一步步的从子问题的最优解拓展到整个问题的最优解。

在前向算法中,通过定义“前向概率”来定义动态规划的这个局部状态。什么是前向概率呢, 其实定义很简单:定义时刻t 时隐藏状态为qiq_iqi​ , 观测状态的序列为o1,o2,...oto_1,o_2,...o_to1​,o2​,...ot​ 的概率为前向概率。记为:
αt(i)=P(o1,o2,...ot,it=qi∣λ)α_t(i)=P(o_1,o_2,...o_t,i_t=q_i|λ) αt​(i)=P(o1​,o2​,...ot​,it​=qi​∣λ)
既然是动态规划,就要找递推了,现在假设我们已经找到了在时刻t 时各个隐藏状态的前向概率,现在我们需要递推出时刻t+1时各个隐藏状态的前向概率。

从下图可以看出,我们可以基于时刻t时各个隐藏状态的前向概率,再乘以对应的状态转移概率,即αt(j)aji​α_t(j)a_{ji}​αt​(j)aji​​ 就是在时刻t 观测到o1,o2,...ot​o_1,o_2,...o_t​o1​,o2​,...ot​​,并且时刻t 隐藏状态qj​q_{j}​qj​​ , 时刻t+1 隐藏状态qi​q_{i}​qi​​ 的概率。如果将想下面所有的线对应的概率求和,即 ∑j=1Nαt(j)aji​\sum_{j=1}^Nα_t(j)a_{ji}​∑j=1N​αt​(j)aji​​ 就是在时刻t观测到o1,o2,...ot​o_1,o_2,...o_t​o1​,o2​,...ot​​ ,并且时刻t+1隐藏状态qi​q_i​qi​​ 的概率。继续一步,由于观测状态ot+1​o_{t+1}​ot+1​​只依赖于t+1时刻隐藏状态qi​q_{i}​qi​​ , 这样[∑j=1Nαt(j)aji]bi(ot+1)​[\sum_{j=1}^Nα_t(j)a_{ji}]b_i(o_{t+1})​[∑j=1N​αt​(j)aji​]bi​(ot+1​)​ 就是在在时刻t+1观测到o1,o2,...ot,ot+1​o_1,o_2,...o_t,o_{t+1}​o1​,o2​,...ot​,ot+1​​,并且时刻t+1隐藏状态qi​q_i​qi​​的概率。而这个概率,恰恰就是时刻t+1对应的隐藏状态i 的前向概率,这样我们得到了前向概率的递推关系式如下:
αt+1(i)=[∑j=1Nαt(j)aji]bi(ot+1)α_{t+1}(i)=[\sum_{j=1}^Nα_t(j)a_{ji}]b_i(o_{t+1}) αt+1​(i)=[j=1∑N​αt​(j)aji​]bi​(ot+1​)

我们的动态规划从时刻1开始,到时刻T 结束,由于αT(i)α_T(i)αT​(i) 表示在时刻T 观测序列为o1,o2,...oTo_1,o_2,...o_To1​,o2​,...oT​,并且时刻T 隐藏状态qi的概率,我们只要将所有隐藏状态对应的概率相加,即∑i=1NαT(i)∑_{i=1}^Nα_T(i)∑i=1N​αT​(i) 就得到了在时刻T观测序列为o1,o2,...oTo_{1},o_{2},...o_{T}o1​,o2​,...oT​的概率。

下面总结下前向算法:

输入:HMM模型λ=(A,B,Π)λ=(A,B,Π)λ=(A,B,Π),观测序列O=(o1,o2,...oT)O=(o_1,o_2,...o_T)O=(o1​,o2​,...oT​)

输出:观测序列概率P(O∣λ)P(O|λ)P(O∣λ)
1、 计算时刻1的各个隐藏状态前向概率:
α1(i)=πibi(o1),i=1,2,...Nα_1(i)=π_ib_i(o_1),i=1,2,...N α1​(i)=πi​bi​(o1​),i=1,2,...N
2、 递推时刻2,3,…T 时刻的前向概率:
αt+1(i)=[∑j=1Nαt(j)aji]bi(ot+1),i=1,2,...Nα_{t+1}(i)=[∑_{j=1}^Nα_t(j)a_{ji}]b_i(o_{t+1}),i=1,2,...N αt+1​(i)=[j=1∑N​αt​(j)aji​]bi​(ot+1​),i=1,2,...N
3、计算最终结果:
P(O∣λ)=∑i=1NαT(i)P(O|λ)=∑_{i=1}^Nα_T(i) P(O∣λ)=i=1∑N​αT​(i)
从递推公式可以看出,我们的算法时间复杂度是O(TN2)O(TN^2)O(TN2) ,比暴力解法的时间复杂度O(TNT)O(TN^{T})O(TNT) 少了几个数量级。

与之相对的还有后向算法也是类似的思想,这里就不详细说了。
βt(i)=P(ot+1,ot+2,...oT∣it=qi,λ)β_t(i)=P(o_{t+1},o_{t+2},...o_{T}|i_t=q_i,λ) βt​(i)=P(ot+1​,ot+2​,...oT​∣it​=qi​,λ)
输入:HMM模型λ=(A,B,Π)λ=(A,B,Π)λ=(A,B,Π) ,观测序列O=(o1,o2,...oT)O=(o_1, o_2,...o_T)O=(o1​,o2​,...oT​)
输出:观测序列概率P(O∣λ)​P(O |λ)​P(O∣λ)​

1、初始化时刻T 的各个隐藏状态后向概率:
βT(i)=1,i=1,2,...Nβ_T(i)=1,i=1,2,...N βT​(i)=1,i=1,2,...N
2、递推时刻T−1,T−2,…1 时刻的后向概率:
βt(i)=∑j=1Naijbj(ot+1)βt+1(j),i=1,2,...Nβ_t(i)=∑_{j=1}^Na_{ij}b_j(o_{t+1})β_{t+1}(j),i=1,2,...N βt​(i)=j=1∑N​aij​bj​(ot+1​)βt+1​(j),i=1,2,...N
3、计算最终结果:
P(O∣λ)=∑i=1Nπibi(o1)β1(i)P(O|λ)=∑_{i=1}^Nπ_ib_i(o_1)β_1(i) P(O∣λ)=i=1∑N​πi​bi​(o1​)β1​(i)
利用前向概率和后向概率,我们可以计算出HMM中单个状态概率公式。

给定模型λ和观测序列O ,在时刻t 处于状态qiq_iqi​ 的概率记为:
γt(i)=P(it=qi∣O,λ)=P(it=qi,O∣λ)P(O∣λ)γ_t(i)=P(i_t=q_i|O,λ)=P(i_t=q_i,O|λ)P(O|λ) γt​(i)=P(it​=qi​∣O,λ)=P(it​=qi​,O∣λ)P(O∣λ)
利用前向概率和后向概率的定义可知:
P(it=qi,O∣λ)=αt(i)βt(i)P(i_t=q_i,O|λ)=α_t(i)β_t(i) P(it​=qi​,O∣λ)=αt​(i)βt​(i)

(2)模型参数学习问题

即给定观测序列O=o1,o2,...oTO={o_{1},o_{2},...o_{T}}O=o1​,o2​,...oT​ ,估计模型λ=(A,B,Π)λ=(A,B,Π)λ=(A,B,Π) 的参数,使该模型下观测序列的条件概率P(O∣λ)​P(O|λ)​P(O∣λ)​ 最大。这个问题的求解需要用到基于EM算法。

对于m个样本观察数据x=(x(1),x(2),...x(m))​x=(x^{(1)},x^{(2)},...x^{(m)})​x=(x(1),x(2),...x(m))​ 中,找出样本的模型参数λ, 极大化模型分布的对数似然函数如下:
λ:=argmaxλ∑i=1mlogP(x(i)∣λ)λ:=\underset{λ}{argmax}\sum_{i=1}^{m}logP(x^{(i)}|λ) λ:=λargmax​i=1∑m​logP(x(i)∣λ)
如果我们得到的观察数据有未观察到的隐含数据z=(z(1),z(2),...z(m))​z=(z^{(1)},z^{(2)},...z^{(m)})​z=(z(1),z(2),...z(m))​ ,此时我们的极大化模型分布的对数似然函数如下:
λ:=argmaxλ∑i=1mlog∑z(i)P(x(i),z(i)∣λ)λ:=\underset{λ}{argmax}\sum_{i=1}^{m}log\sum_{z(i)}P(x^{(i)},z^{(i)}|λ) λ:=λargmax​i=1∑m​logz(i)∑​P(x(i),z(i)∣λ)
上面这个式子是没有 办法直接求出λ 的。因此需要一些特殊的技巧,我们首先对这个式子进行缩放如下:
∑i=1mlog∑z(i)P(x(i),z(i)∣λ)=∑i=1mlog∑z(i)Qi(z(i))P(x(i),z(i)∣λ)Qi(z(i))(1)≥∑i=1m∑z(i)Qi(z(i))logP(x(i),z(i)∣λ)Qi(z(i))(2)\sum_{i=1}^{m}log\sum_{z(i)}P(x^{(i)},z^{(i)}|λ)=\sum_{i=1}^{m}log\sum_{z(i)}Q_i(z^{(i)})\frac {P(x^{(i)},z^{(i)}|λ)}{Q_i(z^{(i)})} (1) \\\geq\sum_{i=1}^{m}\sum_{z(i)}Q_i(z^{(i)})log\frac {P(x^{(i)},z^{(i)}|λ)}{Q_i(z^{(i)})}(2) i=1∑m​logz(i)∑​P(x(i),z(i)∣λ)=i=1∑m​logz(i)∑​Qi​(z(i))Qi​(z(i))P(x(i),z(i)∣λ)​(1)≥i=1∑m​z(i)∑​Qi​(z(i))logQi​(z(i))P(x(i),z(i)∣λ)​(2)
上面第(1)式引入了一个未知的新的分布Qi(z(i))​Q_i(z^{(i)})​Qi​(z(i))​,第(2)式用到了Jensen不等式:
log∑jλjyj≥∑jλjlogyj,λj≥0,∑jλj=1log\sum_{j}λ_{j}y_{j}≥\sum_{j}λ_{j}logy_{j},λ_j≥0,\sum_jλ_j=1 logj∑​λj​yj​≥j∑​λj​logyj​,λj​≥0,j∑​λj​=1
或者说由于对数函数是凹函数,所以有:
f(E(x))≥E(f(x)),如果f(x)是凹函数f(E(x))≥E(f(x)),如果f(x)是凹函数 f(E(x))≥E(f(x)),如果f(x)是凹函数
此时,如果要满足Jensen不等式的等号,则有:
P(x(i),z(i)∣λ)Qi(z(i))=c,c为常数\frac {P(x^{(i)},z^{(i)}|λ)}{Q_i(z^{(i)})}=c,c为常数 Qi​(z(i))P(x(i),z(i)∣λ)​=c,c为常数
由于Qi(z(i))Q_i(z^{(i)})Qi​(z(i))是一个分布,所以满足:
∑zQi(z(i))=1\sum_{z}Q_i(z^{(i)})=1 z∑​Qi​(z(i))=1
从上面两式,我们可以得到:
Qi(z(i))=P(x(i),z(i)∣λ)∑zP(x(i),z(i)∣λ)=P(x(i),z(i)∣λ)P(x(i)∣λ)=P(z(i)∣x(i),λ))Q_i(z^{(i)})=\frac {P(x^{(i)},z^{(i)}|λ)}{\sum_{z}P(x^{(i)},z^{(i)}|λ)}=\frac {P(x^{(i)},z^{(i)}|λ)}{P(x^{(i)}|λ)}=P(z^{(i)}|x^{(i)},λ)) Qi​(z(i))=∑z​P(x(i),z(i)∣λ)P(x(i),z(i)∣λ)​=P(x(i)∣λ)P(x(i),z(i)∣λ)​=P(z(i)∣x(i),λ))
如果Qi(z(i))=P(z(i)∣x(i),λ))Q_i(z^{(i)})=P(z^{(i)}|x^{(i)},\lambda))Qi​(z(i))=P(z(i)∣x(i),λ)) , 则第(2)式是我们的包含隐藏数据的对数似然的一个下界。如果我们能极大化这个下界,则也在尝试极大化我们的对数似然。即我们需要最大化下式:
argmaxλ∑i=1m∑z(i)Qi(z(i))logP(x(i),z(i)∣λ)Qi(z(i))(3)\underset{λ}{argmax}\sum_{i=1}^{m}\sum_{z(i)}Q_i(z^{(i)})log\frac {P(x^{(i)},z^{(i)}|λ)}{Q_i(z^{(i)})}(3) λargmax​i=1∑m​z(i)∑​Qi​(z(i))logQi​(z(i))P(x(i),z(i)∣λ)​(3)
(3)式等价为:
argmaxλ∑i=1m(∑z(i)Qi(z(i))logP(x(i),z(i)∣λ)−∑z(i)Qi(z(i))logQi(z(i)))(4)\underset{λ}{argmax}\sum_{i=1}^{m}(\sum_{z(i)}Q_i(z^{(i)})log{P(x^{(i)},z^{(i)}|λ)}-\sum_{z(i)}Q_i(z^{(i)})log{Q_i(z^{(i)})})(4) λargmax​i=1∑m​(z(i)∑​Qi​(z(i))logP(x(i),z(i)∣λ)−z(i)∑​Qi​(z(i))logQi​(z(i)))(4)
去掉上式中为常数的部分(后面减掉的∑z(i)Qi(z(i))logQi(z(i))​\sum_{z(i)}Q_i(z^{(i)})log{Q_i(z^{(i)})}​∑z(i)​Qi​(z(i))logQi​(z(i))​),这部分求λ​\lambda​λ​过程中是不用考虑的。

则我们需要极大化的对数似然下界为:
argmaxλ∑i=1m∑z(i)Qi(z(i))logP(x(i),z(i)∣λ)argmaxλ∑i=1m∑z(i)P(z(i)∣x(i),λ))logP(x(i),z(i)∣λ)\underset{λ}{argmax}\sum_{i=1}^{m}\sum_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)},z^{(i)}|λ)} \\\underset{λ}{argmax}\sum_{i=1}^{m}\sum_{z^{(i)}}P(z^{(i)}|x^{(i)},λ))log{P(x^{(i)},z^{(i)}|λ)} λargmax​i=1∑m​z(i)∑​Qi​(z(i))logP(x(i),z(i)∣λ)λargmax​i=1∑m​z(i)∑​P(z(i)∣x(i),λ))logP(x(i),z(i)∣λ)
上式也就是我们的EM算法的M步,那E步呢?注意到上式中Qi(z(i))Q_i(z^{(i)})Qi​(z(i))是一个分布,因此∑z(i)Qi(z(i))logP(x(i),z(i)∣λ)\sum_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)},z^{(i)}|\lambda)}∑z(i)​Qi​(z(i))logP(x(i),z(i)∣λ)可以理解为logP(x(i),z(i)∣λ)log{P(x^{(i)},z^{(i)}|\lambda)}logP(x(i),z(i)∣λ)基于条件概率分布Qi(z(i))Q_i(z^{(i)})Qi​(z(i))的期望。

至此,我们理解了EM算法中E步和M步的具体数学含义。

(3)预测问题,也称为解码问题

即给定模型λ=(A,B,Π)λ=(A,B,Π)λ=(A,B,Π) 和观测序列O=o1,o2,...oTO={o_{1},o_{2},...o_{T}}O=o1​,o2​,...oT​ ,求给定观测序列条件下,最可能出现的对应的状态序列,这个问题的求解需要用到基于动态规划的维特比算法,这个问题是HMM模型三个问题中复杂度居中的算法。

在HMM模型的解码问题中,给定模型 λ=(A,B,Π)​λ=(A,B,Π)​λ=(A,B,Π)​ 和观测序列O=o1,o2,...oT​O={o_{1},o_{2},...o_{T}}​O=o1​,o2​,...oT​​ ,求给定观测序列O条件下,最可能出现的对应的状态序列 I=i1,i2,...iT​I={i_1,i_2,...i_T}​I=i1​,i2​,...iT​​ ,即P(I∣O)​P(I|O)​P(I∣O)​ 要最大化。

(1)近似解法

求出观测序列O在每个时刻t最可能的隐藏状态 it​i_t​it​​然后得到一个近似的隐藏状态序列 I=i1,i2,...iT​I={i_{1},i_{2},...i_{T}}​I=i1​,i2​,...iT​​ 。要这样近似求解不难,给定模型λ 和观测序列O 时,在时刻t 处于状态qi​q_i​qi​​ 的概率是$ γ_t(i)​$ ,这个概率可以通过HMM的前向算法与后向算法计算。这样我们有:
it=argmax1≤i≤N[γt(i)],t=1,2,...Ti_t=\underset{1≤i≤N}{arg max}[γ_t(i)],t=1,2,...T it​=1≤i≤Nargmax​[γt​(i)],t=1,2,...T
近似算法很简单,但是却不能保证预测的状态序列是整体是最可能的状态序列,因为预测的状态序列中某些相邻的隐藏状态可能存在转移概率为0的情况。

而维特比算法可以将HMM的状态序列作为一个整体来考虑,避免近似算法的问题,下面我们来看看维特比算法进行HMM解码的方法。

(2)维特比算法

维特比算法是一个通用的解码算法,是基于动态规划的求序列最短路径的方法。在分词原理中已经讲到了维特比算法的一些细节。

既然是动态规划算法,那么就需要找到合适的局部状态,以及局部状态的递推公式。在HMM中,维特比算法定义了两个局部状态用于递推。

第一个局部状态是在时刻t 隐藏状态为i所有可能的状态转移路径 i1,i2,...iti_1,i_2,...i_ti1​,i2​,...it​ 中的概率最大值。记为δt(i)δ_t(i)δt​(i) :
δt(i)=maxi1,i2,...it−1P(it=i,i1,i2,...it−1,ot,ot−1,...o1∣λ),i=1,2,...Nδ_t(i)=\underset {i_1,i_2,...i_{t−1}}{max}P(i_t=i,i_1,i_2,...i_{t−1},o_t,o_{t−1},...o_1|λ),i=1,2,...N δt​(i)=i1​,i2​,...it−1​max​P(it​=i,i1​,i2​,...it−1​,ot​,ot−1​,...o1​∣λ),i=1,2,...N
由δt(i)​δt(i)​δt(i)​ 的定义可以得到δ的递推表达式:
δt+1(i)=maxi1,i2,...itP(it+1=i,i1,i2,...it,ot+1,ot,...o1∣λ)(1)=max1≤j≤N[δt(j)aji]bi(ot+1)(2)δ_{t+1}(i)=\underset{i1,i2,...it}{max}P(i_{t+1}=i,i_1,i_2,...i_t,o_{t+1},o_t,...o_1|λ)(1)\\=\underset{1≤j≤N}{max}[δ_t(j)a_{ji}]b_i(o_{t+1})(2) δt+1​(i)=i1,i2,...itmax​P(it+1​=i,i1​,i2​,...it​,ot+1​,ot​,...o1​∣λ)(1)=1≤j≤Nmax​[δt​(j)aji​]bi​(ot+1​)(2)
第二个局部状态由第一个局部状态递推得。我们定义在时刻t隐藏状态为i 的所有单个状态转移路径(i1,i2,...,it−1,i)(i_1,i_2,...,i_{t−1},i)(i1​,i2​,...,it−1​,i) 中概率最大的转移路径中第t−1个节点的隐藏状态为Ψt(i)Ψ_t(i)Ψt​(i) ,其递推表达式可以表示为:
Ψt(i)=argmax1≤j≤N[δt−1(j)aji]Ψ_t(i)=\underset{1≤j≤N}{argmax}[δ_{t−1}(j)a_{ji}] Ψt​(i)=1≤j≤Nargmax​[δt−1​(j)aji​]
有了这两个局部状态,我们就可以从时刻0一直递推到时刻T,然后利用Ψt(i)​Ψ_t(i)​Ψt​(i)​ 记录的前一个最可能的状态节点回溯,直到找到最优的隐藏状态序列。

现在来总结下维特比算法的流程:

输入:HMM模型λ=(A,B,Π)λ=(A,B,Π)λ=(A,B,Π) ,观测序列O=(o1,o2,...oT)O=(o_1,o_2,...o_T)O=(o1​,o2​,...oT​)

输出:最有可能的隐藏状态序列I=i1,i2,...iTI={i_1,i_2,...i_T}I=i1​,i2​,...iT​

1、初始化局部状态:
δ1(i)=πibi(o1),i=1,2...Nδ_1(i)=π_ib_i(o_1),i=1,2...N δ1​(i)=πi​bi​(o1​),i=1,2...N

Ψ1(i)=0,i=1,2...NΨ_1(i)=0,i=1,2...N Ψ1​(i)=0,i=1,2...N

2、 进行动态规划递推时刻t=2,3,…T 时刻的局部状态:
δt(i)=max1≤j≤N[δt−1(j)aji]bi(0t),i=1,2...NΨt(i)=argmax1≤j≤N[δt−1(j)aji],i=1,2...Nδ_t(i)=\underset{1≤j≤N}{max}[δ_{t−1}(j)a_{ji}]b_i(0_t),i=1,2...N\\ Ψ_t(i)=\underset{1≤j≤N}{argmax}[δ_{t−1}(j)a_{ji}],i=1,2...N δt​(i)=1≤j≤Nmax​[δt−1​(j)aji​]bi​(0t​),i=1,2...NΨt​(i)=1≤j≤Nargmax​[δt−1​(j)aji​],i=1,2...N
3、计算时刻T 最大的δT(i)δ_T(i)δT​(i) ,即为最可能隐藏状态序列出现的概率。计算时刻T 最大的Ψt(i)Ψ_t(i)Ψt​(i) ,即为时刻T 最可能的隐藏状态。
P=max1≤j≤NδT(i)P=\underset{1≤j≤N}{max}δ_T(i) P=1≤j≤Nmax​δT​(i)

iT=argmax1≤j≤N[δT(i)]i_T=\underset{1≤j≤N}{argmax}[δ_T(i)] iT​=1≤j≤Nargmax​[δT​(i)]

4、 利用局部状态Ψ(i)Ψ(i)Ψ(i) 开始回溯。对于t=T−1,T−2,...,1t=T−1,T−2,...,1t=T−1,T−2,...,1 :
it=Ψt+1(it+1)i_t=Ψ_{t+1}(i_{t+1}) it​=Ψt+1​(it+1​)
计算时刻T 最大的δT(i)δ_T(i)δT​(i) ,即为最可能隐藏状态序列出现的概率。计算时刻T 最大的Ψt(i)Ψ_t(i)Ψt​(i) ,即为时刻T 最可能的隐藏状态。

HMM模型及相关算法相关推荐

  1. HMM模型与viterbi算法

    2021SC@SDUSC HMM(Hidden Markov Model): 隐式马尔科夫模型.HMM 模型可以应用在很多领域,所以它的模型参数描述一般都比较抽象,HMM 的典型介绍就是这个模型是一个 ...

  2. python自然语言处理实战核心技术与算法——HMM模型代码详解

    本人初学NLP,当我看着<python自然语言处理实战核心技术与算法>书上这接近200行的代码看着有点头皮发麻,于是我读了接近一天基本把每行代码的含义给读的个七七八八,考虑到可能会有人和我 ...

  3. HMM模型和Viterbi算法

    一.隐含马尔可夫模型(Hidden Markov Model) 1.简介 隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是 ...

  4. 中文分词之HMM模型详解

    文章转载自: http://yanyiwu.com/work/2014/04/07/hmm-segment-xiangjie.html HMM(Hidden Markov Model): 隐式马尔科夫 ...

  5. 一文读懂 HMM 模型和 Viterbi 算法

    隐含马尔可夫模型(Hidden Markov Model) 隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是以他名字命名的 ...

  6. 机器学习算法 10 —— HMM模型(马尔科夫链、前向后向算法、维特比算法解码、hmmlearn)

    文章目录 系列文章 隐马尔科夫模型 HMM 1 马尔科夫链 1.1 简介 1.2 经典举例 2 HMM简介 2.1 简单案例 2.2 案例进阶 问题二解决 问题一解决 问题三解决 3 HMM模型基础 ...

  7. 什么是结构风险?在决策树类相关算法中通常有哪些正则化参数来控制模型的结构风险?解读一下

    什么是结构风险?在决策树类相关算法中通常有哪些正则化参数来控制模型的结构风险?解读一下 什么是结构风险? 详细参考:结构风险和经验风险是什么?怎么去平衡它们? 当样本容量足够大时,经验风险最小化能够保 ...

  8. 机器学习知识点(二十四)隐马尔可夫模型HMM维特比Viterbi算法Java实现

    1.隐马尔可夫模型HMM    学习算法,看中文不如看英文,中文喜欢描述的很高深.    http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/ht ...

  9. 统计学习方法第十章作业:HMM模型—概率计算问题、Baum-Welch学习算法、维特比预测算法 代码实现

    HMM模型 import numpy as npclass HMM:def __init__(self,A=None,B=None,Pi=None,O = None):if A:self.A = np ...

最新文章

  1. Shell中判断字符串是否为数字的6种方法分享
  2. 畅玩mt3单机游戏服务器维护,【梦幻西游】MT3仿端手工游戏服务端源码[教程+授权物品后台]...
  3. python绘制蝴蝶曲线_如何编程实现蝴蝶函数曲线
  4. 1061: [Noi2008]志愿者招募 - BZOJ
  5. Flink架构及工作原理
  6. java enum 变量_java枚举使用详解
  7. 【HDU - 5889】Barricade(最短路+网络流,最小割)
  8. 死于非命的中国亿万富翁们 1
  9. hdu-4080 Stammering Aliens 字符串hash 模板题
  10. 谷歌更新漏洞披露规则:不管补丁打没打,够90天才披露
  11. VirtualBox扩容失败-Progress state: VBOX_E_NOT_SUPPORTED
  12. Mysql 引优化分析
  13. ImageLoader的简单分析(二)
  14. 小米路由老毛子 潘多拉Padavan 无线桥接中继
  15. 如何使用GitHub客户端
  16. 【更新】iWebOffice2009全文批注 V10.8发布 | 附下载
  17. IsPostBack深入探讨
  18. 中国推动全球4G标准制定
  19. 【122天】尚学堂高琪Java300集视频精华笔记(43-46)
  20. 鸿蒙5G多少钱一部手机,5G+鸿蒙,就是我下一部手机的标配,不接受反驳

热门文章

  1. html2canvas微信头像没绘制,解决使用canvas生成含有微信头像的邀请海
  2. xupt2017 I 威尔逊的无底胃
  3. canvas画圆和线条动画
  4. gantt/甘特图完整代码(带注释,可以复制)
  5. win7计算机广告更改,Win7电脑如何找到带来弹窗广告的软件【图文教程】
  6. Outlook Business Contact Manager 2010入门
  7. LeetCode:14. Longest Commen Prefix(Easy)
  8. 「史诗级干货」新人up主B站运营炫酷玩法,轻松实现UP!UP!UP!
  9. ESP32+阿里云+vscode_Pio
  10. SF1006-ASEMI超快恢复二极管SF1006