隐马尔可夫模型（四）学习问题

学习问题

已知观测序列O，估计模型λ的参数，使得在该模型下观测序列概率P（O|λ）最大。

解决算法

最大似然估计（有监督）

有监督意味着已知在给定的训练集中观测序列O={o₁,o₂,…,o_T}和隐状态序列I={i₁,i₂,…,i_T}

求模型λ=(A,B,π)的参数，也就是转移矩阵，发射矩阵，初始概率矩阵。

算法流程如下：

转移概率a_ij的估计
设样本中时刻 t 处于状态 i 时刻 t+1 转移到状态j的次数为 A_ij，从状态转移到状态的概率a_ij的估计是：

其中，分母表示从状态 i 转移到任意状态的次数。

观测概率b_j(k)的估计:
设样本中状态为 j 并观测为 k 的频数是B_jk，那么状态为j观测为k的概率b_j(k）的估计是:

其中，分母表示在状态 j 下发射出任意状态的次数.

初始状态转移概率π_i1为样本中初始状态的概率：

其中分子表示初始状态是 i 的次数，分母表示所有初始状态出现的次数

由于监督学习需要使用训练数据，而人工标注训练数据往往代价很高，有时就会利用非监督学习的方法。

Baum-Welch算法（鲍姆-韦尔奇算法）(无监督)

EM算法：是含有隐变量的概率模型参数的极大似然估计法，或极大后验概率估计法。原理是通过不断求解下界的极大化逼近求解对数似然函数极大化的算法。EM算法的相关介绍可参照EM算法及其推广学习笔记

无监督意味着给定的训练集中只有观测序列O={o₁,o₂,…,o_T}，此时需要采用EM算法思想，先假设参数，通过期望最大化来获得隐状态序列I={i₁,i₂,…,i_T}（硬划分隐状态序列对应到值，软化分隐状态序列对应到概率），然后根据隐状态序列来更新参数，不断迭代至收敛。

分析：
我们的目标是学习隐马尔可夫模型λ=（A,B,π）的参数。我们将观测序列数据看作观测数据O，状态序列数据看作不可观测的隐数据 I，那么隐马尔可夫模型实际上是一个含有隐变量的概率模型:

EM算法推导Baum-Welch算法流程如下：

输入：观测数据O = (o1, o2, …, oT)
输出：隐马尔科夫模型参数

约束条件：

采用EM算法，将需要最大化的概率函数转化为对数似然函数:

EM算法的E步:求Q函数

左边等式中第一个λ是要极大化的隐马尔可夫模型参数，第二个λ是隐马尔可夫模型参数的当前估计值。
带入可得以下公式：

式中求和都是对所有训练数据的序列总长度T进行的。

EM 算法的M步:极大化Q函数，求模型参数A、B、π。
由于要极大化的参数在上式中单独地出现在3个项中，所以只需对各项分别极大化。

第一项：

利用拉格朗日乘子法，写出拉格朗日函数：

约束条件：

求偏导为0:

代回偏导数为0的式子中，最终得到：

第二项：

约束条件：

同上求得：

第三项：

约束条件：

同上求得：

化简可表示为：

Baum-Welch算法具体求解流程如下:

初始化，对n=0，选取a_ij⁽⁰⁾，b_j(k)⁽⁰⁾，π_i⁽⁰⁾，得到模型
递推n=1,2,3…

3.终止。得到模型参数:

参考文献：

https://blog.csdn.net/zgcr654321/article/details/92639420
https://blog.csdn.net/firparks/article/details/54934112
https://blog.csdn.net/qq_37334135/article/details/86302735