1. HMM模型参数求解概述

    HMM模型参数求解根据已知的条件可以分为两种情况。

    第一种情况较为简单,就是我们已知DD个长度为TT的观测序列和对应的隐藏状态序列,即{(O1,I1),(O2,I2),...(OD,ID)}{(O1,I1),(O2,I2),...(OD,ID)}是已知的,此时我们可以很容易的用最大似然来求解模型参数。

    假设样本从隐藏状态qiqi转移到qjqj的频率计数是AijAij,那么状态转移矩阵求得为:

A=[aij],其中aij=Aij∑s=1NAisA=[aij],其中aij=Aij∑s=1NAis

    假设样本隐藏状态为qjqj且观测状态为vkvk的频率计数是BjkBjk,那么观测状态概率矩阵为:

B=[bj(k)],其中bj(k)=Bjk∑s=1MBjsB=[bj(k)],其中bj(k)=Bjk∑s=1MBjs

    假设所有样本中初始隐藏状态为qiqi的频率计数为C(i)C(i),那么初始概率分布为:

Π=π(i)=C(i)∑s=1NC(s)Π=π(i)=C(i)∑s=1NC(s)

    可见第一种情况下求解模型还是很简单的。但是在很多时候,我们无法得到HMM样本观察序列对应的隐藏序列,只有DD个长度为TT的观测序列,即{(O1),(O2),...(OD)}{(O1),(O2),...(OD)}是已知的,此时我们能不能求出合适的HMM模型参数呢?这就是我们的第二种情况,也是我们本文要讨论的重点。它的解法最常用的是鲍姆-韦尔奇算法,其实就是基于EM算法的求解,只不过鲍姆-韦尔奇算法出现的时代,EM算法还没有被抽象出来,所以我们本文还是说鲍姆-韦尔奇算法。

2. 鲍姆-韦尔奇算法原理

    鲍姆-韦尔奇算法原理既然使用的就是EM算法的原理,那么我们需要在E步求出联合分布P(O,I|λ)P(O,I|λ)基于条件概率P(I|O,λ¯¯¯)P(I|O,λ¯)的期望,其中λ¯¯¯λ¯为当前的模型参数,然后再M步最大化这个期望,得到更新的模型参数λλ。接着不停的进行EM迭代,直到模型参数的值收敛为止。

    首先来看看E步,当前模型参数为λ¯¯¯λ¯, 联合分布P(O,I|λ)P(O,I|λ)基于条件概率P(I|O,λ¯¯¯)P(I|O,λ¯)的期望表达式为:

L(λ,λ¯¯¯)=∑d=1D∑IP(I|O,λ¯¯¯)logP(O,I|λ)L(λ,λ¯)=∑d=1D∑IP(I|O,λ¯)logP(O,I|λ)

    在M步,我们极大化上式,然后得到更新后的模型参数如下: 

λ¯¯¯=argmaxλ∑d=1D∑IP(I|O,λ¯¯¯)logP(O,I|λ)λ¯=argmaxλ∑d=1D∑IP(I|O,λ¯)logP(O,I|λ)

    通过不断的E步和M步的迭代,直到λ¯¯¯λ¯收敛。下面我们来看看鲍姆-韦尔奇算法的推导过程。

3. 鲍姆-韦尔奇算法的推导

    我们的训练数据为{(O1,I1),(O2,I2),...(OD,ID)}{(O1,I1),(O2,I2),...(OD,ID)},其中任意一个观测序列Od={o(d)1,o(d)2,...o(d)T}Od={o1(d),o2(d),...oT(d)},其对应的未知的隐藏状态序列表示为:Od={i(d)1,i(d)2,...i(d)T}Od={i1(d),i2(d),...iT(d)}

    首先看鲍姆-韦尔奇算法的E步,我们需要先计算联合分布P(O,I|λ)P(O,I|λ)的表达式如下:

P(O,I|λ)=πi1bi1(o1)ai1i2bi2(o2)...aiT−1iTbiT(oT)P(O,I|λ)=πi1bi1(o1)ai1i2bi2(o2)...aiT−1iTbiT(oT)

    我们的E步得到的期望表达式为:

L(λ,λ¯¯¯)=∑d=1D∑IP(I|O,λ¯¯¯)logP(O,I|λ)L(λ,λ¯)=∑d=1D∑IP(I|O,λ¯)logP(O,I|λ)

    在M步我们要极大化上式。由于P(I|O,λ¯¯¯)=P(I,O|λ¯¯¯)/P(O|λ¯¯¯)P(I|O,λ¯)=P(I,O|λ¯)/P(O|λ¯),而P(O|λ¯¯¯)P(O|λ¯)是常数,因此我们要极大化的式子等价于:

λ¯¯¯=argmaxλ∑d=1D∑IP(O,I|λ¯¯¯)logP(O,I|λ)λ¯=argmaxλ∑d=1D∑IP(O,I|λ¯)logP(O,I|λ)

    我们将上面P(O,I|λ)P(O,I|λ)的表达式带入我们的极大化式子,得到的表达式如下:

λ¯¯¯=argmaxλ∑d=1D∑IP(O,I|λ¯¯¯)(logπi1+∑t=1T−1logaitait+1+∑t=1Tbit(ot))λ¯=argmaxλ∑d=1D∑IP(O,I|λ¯)(logπi1+∑t=1T−1logaitait+1+∑t=1Tbit(ot))

    我们的隐藏模型参数λ=(A,B,Π)λ=(A,B,Π),因此下面我们只需要对上式分别对A,B,ΠA,B,Π求导即可得到我们更新的模型参数λ¯¯¯λ¯ 

    首先我们看看对模型参数ΠΠ的求导。由于ΠΠ只在上式中括号里的第一部分出现,因此我们对于ΠΠ的极大化式子为:

πi¯¯¯¯¯=argmaxπi1∑d=1D∑IP(O,I|λ¯¯¯)logπi1=argmaxπi∑d=1D∑i=1NP(O,i(d)1=i|λ¯¯¯)logπiπi¯=argmaxπi1∑d=1D∑IP(O,I|λ¯)logπi1=argmaxπi∑d=1D∑i=1NP(O,i1(d)=i|λ¯)logπi

    由于πiπi还满足∑i=1Nπi=1∑i=1Nπi=1,因此根据拉格朗日子乘法,我们得到πiπi要极大化的拉格朗日函数为:

argmaxπi∑d=1D∑i=1NP(O,i(d)1=i|λ¯¯¯)logπi+γ(∑i=1Nπi−1)argmaxπi∑d=1D∑i=1NP(O,i1(d)=i|λ¯)logπi+γ(∑i=1Nπi−1)

    其中,γγ为拉格朗日系数。上式对πiπi求偏导数并令结果为0, 我们得到:

∑d=1DP(O,i(d)1=i|λ¯¯¯)+γπi=0∑d=1DP(O,i1(d)=i|λ¯)+γπi=0

    令ii分别等于从1到NN,从上式可以得到NN个式子,对这NN个式子求和可得:

∑d=1DP(O|λ¯¯¯)+γ=0∑d=1DP(O|λ¯)+γ=0

    从上两式消去γγ,得到πiπi的表达式为:

πi=∑d=1DP(O,i(d)1=i|λ¯¯¯)∑d=1DP(O|λ¯¯¯)=∑d=1DP(O,i(d)1=i|λ¯¯¯)DP(O|λ¯¯¯)=∑d=1DP(i(d)1=i|O,λ¯¯¯)D=∑d=1DP(i(d)1=i|O(d),λ¯¯¯)Dπi=∑d=1DP(O,i1(d)=i|λ¯)∑d=1DP(O|λ¯)=∑d=1DP(O,i1(d)=i|λ¯)DP(O|λ¯)=∑d=1DP(i1(d)=i|O,λ¯)D=∑d=1DP(i1(d)=i|O(d),λ¯)D

    利用我们在隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率里第二节中前向概率的定义可得:

P(i(d)1=i|O(d),λ¯¯¯)=γ(d)1(i)P(i1(d)=i|O(d),λ¯)=γ1(d)(i)

    因此最终我们在M步πiπi的迭代公式为:

πi=∑d=1Dγ(d)1(i)Dπi=∑d=1Dγ1(d)(i)D

    现在我们来看看AA的迭代公式求法。方法和ΠΠ的类似。由于AA只在最大化函数式中括号里的第二部分出现,而这部分式子可以整理为:

∑d=1D∑I∑t=1T−1P(O,I|λ¯¯¯)logaitait+1=∑d=1D∑i=1N∑j=1N∑t=1T−1P(O,i(d)t=i,i(d)t+1=j|λ¯¯¯)logaij∑d=1D∑I∑t=1T−1P(O,I|λ¯)logaitait+1=∑d=1D∑i=1N∑j=1N∑t=1T−1P(O,it(d)=i,it+1(d)=j|λ¯)logaij

    由于aijaij还满足∑j=1Naij=1∑j=1Naij=1。和求解πiπi类似,我们可以用拉格朗日子乘法并对aijaij求导,并令结果为0,可以得到aijaij的迭代表达式为:

aij=∑d=1D∑t=1T−1P(O(d),i(d)t=i,i(d)t+1=j|λ¯¯¯)∑d=1D∑t=1T−1P(O(d),i(d)t=i|λ¯¯¯)aij=∑d=1D∑t=1T−1P(O(d),it(d)=i,it+1(d)=j|λ¯)∑d=1D∑t=1T−1P(O(d),it(d)=i|λ¯)

    利用隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率里第二节中前向概率的定义和第五节ξt(i,j)ξt(i,j)的定义可得们在M步aijaij的迭代公式为:

aij=∑d=1D∑t=1T−1ξ(d)t(i,j)∑d=1D∑t=1T−1γ(d)t(i)aij=∑d=1D∑t=1T−1ξt(d)(i,j)∑d=1D∑t=1T−1γt(d)(i)

    现在我们来看看BB的迭代公式求法。方法和ΠΠ的类似。由于BB只在最大化函数式中括号里的第三部分出现,而这部分式子可以整理为:

∑d=1D∑I∑t=1TP(O,I|λ¯¯¯)logbit(ot)=∑d=1D∑j=1N∑t=1TP(O,i(d)t=j|λ¯¯¯)logbj(ot)∑d=1D∑I∑t=1TP(O,I|λ¯)logbit(ot)=∑d=1D∑j=1N∑t=1TP(O,it(d)=j|λ¯)logbj(ot)

    由于bj(ot)bj(ot)还满足∑k=1Mbj(ot=vk)=1∑k=1Mbj(ot=vk)=1。和求解πiπi类似,我们可以用拉格朗日子乘法并对bj(k)bj(k)求导,并令结果为0,得到bj(k)bj(k)的迭代表达式为:

bj(k)=∑d=1D∑t=1TP(O,i(d)t=j|λ¯¯¯)I(o(d)t=vk)∑d=1D∑t=1TP(O,i(d)t=j|λ¯¯¯)bj(k)=∑d=1D∑t=1TP(O,it(d)=j|λ¯)I(ot(d)=vk)∑d=1D∑t=1TP(O,it(d)=j|λ¯)

    其中I(o(d)t=vk)I(ot(d)=vk)当且仅当o(d)t=vkot(d)=vk时为1,否则为0. 利用隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率里第二节中前向概率的定义可得bj(ot)bj(ot)的最终表达式为:

bj(k)=∑d=1D∑t=1,o(d)t=vkTγ(d)t(i)∑d=1D∑t=1Tγ(d)t(i)bj(k)=∑d=1D∑t=1,ot(d)=vkTγt(d)(i)∑d=1D∑t=1Tγt(d)(i)

    有了πi,aij,bj(k)πi,aij,bj(k)的迭代公式,我们就可以迭代求解HMM模型参数了。

4. 鲍姆-韦尔奇算法流程总结

    这里我们概括总结下鲍姆-韦尔奇算法的流程。

    输入: DD个观测序列样本{(O1),(O2),...(OD)}{(O1),(O2),...(OD)}

    输出:HMM模型参数

    1)随机初始化所有的πi,aij,bj(k)πi,aij,bj(k)

    2) 对于每个样本d=1,2,...Dd=1,2,...D,用前向后向算法计算γ(d)t(i),ξ(d)t(i,j),t=1,2...Tγt(d)(i),ξt(d)(i,j),t=1,2...T

    3)  更新模型参数:

πi=∑d=1Dγ(d)1(i)Dπi=∑d=1Dγ1(d)(i)D
aij=∑d=1D∑t=1T−1ξ(d)t(i,j)∑d=1D∑t=1T−1γ(d)t(i)aij=∑d=1D∑t=1T−1ξt(d)(i,j)∑d=1D∑t=1T−1γt(d)(i)
bj(k)=∑d=1D∑t=1,o(d)t=vkTγ(d)t(i)∑d=1D∑t=1Tγ(d)t(i)bj(k)=∑d=1D∑t=1,ot(d)=vkTγt(d)(i)∑d=1D∑t=1Tγt(d)(i)

    4) 如果πi,aij,bj(k)πi,aij,bj(k)的值已经收敛,则算法结束,否则回到第2)步继续迭代。

    以上就是鲍姆-韦尔奇算法的整个过程。

转载:http://www.cnblogs.com/pinard/p/6972299.html

http://www.itdadao.com/articles/c15a132036p0.html

转载于:https://www.cnblogs.com/ylHe/p/7199023.html

鲍姆-韦尔奇算法求解HMM参数相关推荐

  1. 隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数

    在本篇我们会讨论HMM模型参数求解的问题,这个问题在HMM三个问题里算是最复杂的.在研究这个问题之前,建议先阅读这个系列的前两篇以熟悉HMM模型和HMM的前向后向算法,以及EM算法原理总结,这些在本篇 ...

  2. 人工智能里的数学修炼 | 隐马尔可夫模型:基于EM的鲍姆-韦尔奇算法求解模型参数

    人工智能里的数学修炼 | 概率图模型 : 隐马尔可夫模型 人工智能里的数学修炼 | 隐马尔可夫模型:前向后向算法 人工智能里的数学修炼 | 隐马尔可夫模型 : 维特比(Viterbi)算法解码隐藏状态 ...

  3. 隐马尔可夫模型(三)——鲍姆-韦尔奇算法(Baum-Welch算法)

    一.问题回顾 模型参数的学习问题.即给定观测序列O={o1,o2,-oT},估计模型λ=(A,B,Π)的参数.这个问题的求解需要用到鲍姆-韦尔奇算法,我会在隐马尔可夫模型系列的第三篇博客中讲解,这个问 ...

  4. 隐马尔科夫模型(前向后向算法、鲍姆-韦尔奇算法、维特比算法)

    隐马尔科夫模型(前向后向算法.鲍姆-韦尔奇算法.维特比算法) 概率图模型是一类用图来表达变量相关关系的概率模型.它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的变表是变量间的概 ...

  5. 机器学习算法总结(七)——隐马尔科夫模型(前向后向算法、鲍姆-韦尔奇算法、维特比算法)...

    概率图模型是一类用图来表达变量相关关系的概率模型.它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的变表是变量间的概率相关关系.根据边的性质不同,可以将概率图模型分为两类:一类是 ...

  6. 机器学习算法拾遗:(七)隐马尔科夫模型(前向后向算法、鲍姆-韦尔奇算法、维特比算法)

    1.隐马尔科夫模型HMM 隐马尔科夫模型的图结构如下 从上图中主要有两个信息:一是观测变量xi 仅仅与与之对应的状态变量yi 有关:二是当前的状态变量yi 仅仅与它的前一个状态变量yi-1 有关. 隐 ...

  7. HMM 训练 鲍姆-韦尔奇算法(Baum-Welch)

    是什么? 整个观测序列,t时刻状态为i的概率.

  8. 鲍姆-韦尔奇算法 数学推导

    转载于:https://www.cnblogs.com/shwenrobert/p/10326819.html

  9. HMM-鲍姆-韦尔奇算法

    作者:金良(golden1314521@gmail.com) csdn博客: http://blog.csdn.net/u012176591 Baum-Welch算法实现 def getelnalph ...

最新文章

  1. 神经网络原来这么简单,机器学习入门贴送给你 | 干货
  2. 1.20 main()方法
  3. python :案例:银行卡
  4. C# 系统应用之透明罩MyOpaqueLayer实现360界面阴影效果
  5. sqlite mysql pgsql_SQLite 、MySQL 与PostgreSQL三个关系型数据库的比较
  6. .net excel循环插数据_科普:1根、2根、4根内存条插在主板内存插槽的位置
  7. nobelking 3 js 数字和数字相加 字符串连接 数字和字符串连接1
  8. python实现胶囊网络_胶囊网络 -- Capsule Networks
  9. 前端学习(16):跳转链接小练习
  10. Bluetooth Obex
  11. 一个分布式 JVM 监控工具,非常实用!
  12. 值传递,指针传递,引用传递
  13. 网站创业项目商业计划书的写法
  14. html网页制作代码大全:庆余年——电影网站7页,不包含js 有登陆注册,表格 table布局 ,有的登录注册页面,内嵌 css
  15. cs1.6服务器弹道优化,cs1.6弹道优化参数
  16. (转载)基于联盟链区块链的九个方面对比
  17. iOS App添加扩展App Extension
  18. Unity Profiler
  19. 实时联网游戏后台服务技术选型和挑战(一)
  20. 投资百万运营网站 为何只坚持了一年?

热门文章

  1. word如何设置上标形式_word2013批量设置上标地方的方法步骤
  2. Spark源码走读概述
  3. .有一千万条短信,有重复,以文本文件的形式保 请用5 分钟时间,找出重复出现最多的前10 条。
  4. 某型雷达的报文收发实录
  5. 2020华为春招--N阶方阵旋转(python)
  6. Tkinter 库---python小应用 贷款利息计算器
  7. 计算机组成原理学习笔记————计算机指令,MIPS指令集,存储器操作数,数据传送指令,取数存数指令
  8. 【正点原子STM32连载】第二十一章 通用定时器实验 摘自【正点原子】MiniPro STM32H750 开发指南_V1.1
  9. 【Wiki】XWiki数据备份
  10. 对接第三方系统实操经验分享