机器学习笔记（十四）——HMM估计问题和前向后向算法

一、隐马尔科夫链的第一个基本问题

估计问题：给定一个观察序列O=O1O2…OTO=O_1O_2\dots O_T和模型u=(A,B,π)u = (\boldsymbol{A,B,\pi}),如何快速地计算出给定模型uu情况下，观察序列OO的概率，即P(O|u)P(O|u)?

二、求解观察序列的概率

其实，求解这个问题就是一个解码问题。对于任意的状态序列Q=q1q2…qTQ=q_1q_2\dots q_T,有

P(O|Q,u)=∏t=1T−1P(Ot|qt,qt+1,u)=bq1(O1)bq2(O2)…bqT(OT)

P(O|Q,u)= \prod_{t=1}^{T-1} P(O_t|q_t,q_t+1,u) \\ =b_{q1}(O_1)b_{q2}(O_2)\dots b_{qT}(O_T)
并且

P(Q|u)=πq1aq1q2aq2q3…aqT−1qT

P(Q|u) = \pi _{q_1}a_{q_1q_2}a_{q_2q_3} \dots a_{q_{T-1}q_T}
由于

P(O,Q|u)=P(O|Q,u)P(Q|u)

P(O,Q|u) = P(O|Q,u)P(Q|u)
所以

P(O|u)=∑QP(O,Q|u)∑QP(O|Q,u)P(Q|u)=∑Qπq1bq1(O1)∏t=1T−1aqtqt+1bqt+1(Ot+1)

P(O|u) = \sum _{Q} P(O,Q|u) \\ \sum _{Q}P(O|Q,u)P(Q|u) \\ =\sum _{Q}\pi _{q_1}b_{q1}(O_1)\prod_{t=1}^{T-1}a_{q_{t}q_{t+1}}b_{q_{t+1}}(O_{t+1})
上述推导过程很直接，但是实际的计算量是非常庞大的，它要穷尽所有可能的状态序列，如果模型中有 NN个状态，时间长度为TT，那么有 NTN^T个可能的状态序列，这导致了并不能有效地执行这个算法。因此，人们提出了前向算法，利用动态规划来解决指数爆炸的问题。

三、HMM中的前向算法

为了实现前向算法，需要定义一个前向变量αt(i)\alpha_t(i).
定义1 前向变量αt(i)\alpha_t(i)是在时间tt， HMM输出序列O=O1O2…OtO=O_1O_2\dots O_t并且位于状态sis_i的概率：

αt(i)=P(O1O2…Ot,qt=si|u)

\alpha_t(i) = P(O_1O_2\dots O_t, q_t=s_i|u)

前向算法的主要思想是，如果可以快速地计算前向变量αt(i)\alpha_t(i)，那么就可以根据αt(i)\alpha_t(i)计算出P(O|u)P(O|u) , 因为P(O|u)P(O|u) 是在所有状态下观察到序列O=O1O2…OtO=O_1O_2\dots O_t的概率：

P(O|u)=∑siP(O1O2…OT,qT=si|u)=∑i=1NαT(i)

P(O|u) = \sum _{s_i}P(O_1O_2\dots O_T, q_T=s_i|u)= \sum _{i=1}^{N}\alpha_T(i)
在前向算法中，采用动态规划的方法计算前向变量 αt(i)\alpha_t(i)，其思想基于如下观察：在时间t+1的前向变量可以根据时间t时的前向变量 αt(1)，αt(2)，…,αt(N)\alpha_t(1)，\alpha_t(2)，\dots, \alpha_t(N)来归纳计算：

αt+1(j)=(∑i=1Nαt(i)aij)bj(Ot+1)

\alpha_{t+1}(j) = (\sum_{i=1}^{N}\alpha_t(i)a_{ij})b_j({O_{t+1}})

前向算法

1 初始化： α1(i)=πibi(O1),1≤i≤N\alpha_1(i)=\pi_ib_i(O_1), 1 \le i \le N
2 归纳计算： αt+1(j)=(∑Ni=1αt(i)aij)bj(Ot+1),1≤t≤T−1\alpha_{t+1}(j) = (\sum_{i=1}^{N}\alpha_t(i)a_{ij})b_j({O_{t+1}}) , 1 \le t \le T-1
3 求和终结： P(O|u)=∑Ni=1αT(i)P(O|u) = \sum _{i=1}^{N}\alpha_T(i)

前向算法的时间复杂度为O(N2T)O(N^2T)

四、HMM中的后向算法

快速计算P(O|u)P(O|u)还有一种后向算法。
对应于前向变量，定义一个后向变量βt(i)\beta_t(i).
定义2 后向变量βt(i)\beta_t(i)是在给定模型u=(A,B,π)u = (\boldsymbol{A,B,\pi})并且在时间tt状态为sis_i的条件下，HMM的输出观察序列O=Ot+1Ot+2…OTO=O_{t+1}O_{t+2}\dots O_T的概率：

βt(i)=P(Ot+1Ot+2…OT|qt=si|u)

\beta_t(i) = P(O_{t+1}O_{t+2}\dots O_T| q_t=s_i|u)
类似于前向算法，也可以用动态规划算法计算后向变量。
1. 从时间 tt到时间t+1t+1, HMM的状态 sis_i到状态 sjs_j输出 Ot+1O_{t+1},概率为 aijbj(Ot+1)a_{ij}b_j(O_{t+1})
2. 在时间 t+1t+1的状态为 sjs_j的条件下，HMM输出观察序列 Ot+2…OTO_{t+2}\dots O_T,概率为： βt+1(j)\beta_{t+1}(j)
则，归纳关系为：

βt(i)=∑j=1Naijbj(Ot+1)βt+1(j)

\beta_t(i)=\sum_{j=1}^{N}a_{ij}b_j(O_{t+1})\beta_{t+1}(j)
后向算法

1 初始化：βT(i)=1,1≤i≤N\beta_T(i)=1, 1 \le i \le N
2 归纳计算：βt(i)=∑Nj=1aijbj(Ot+1)βt+1(j),T−1≥t≥1;1≤i≤N\beta_t(i)=\sum_{j=1}^{N}a_{ij}b_j(O_{t+1})\beta_{t+1}(j), T-1 \ge t \ge 1; 1 \le i \le N
3 求和终结：P(O|u)=∑Ni=1πibi(O1)β1(i)P(O|u) = \sum _{i=1}^{N}\pi_ib_i(O_1)\beta_1(i)

后向算法的时间复杂度为O(N2T)O(N^2T)