再次参考HTK book的12章、13章。重新捋一遍识别网络的构建过程和维特比解码过程。

构建识别网络是重中之重,而它的基础是lattice,描述lattice的是Standard Lattice Format (SLF)文件。它的来源可能是Task Grammar或者bigram language model,用到的工具分别是HParse和HBuild。

有了Word Net,发音字典dictionary和HMM模型集合,就可以进行识别了。可以从三个不同层次来看这个识别网络:词级别、模型级和状态级。

GMM-HMM传统框架的识别过程是,首先训练一个HMM模型集合,一个hmm模型一般是对phone建模,而每个hmm包含多个状态,对应subphone,可能是phone的初始、中间、结尾状态。

因此hmm的状态标记是全局唯一的。一般情况下它的个数是phone数量的3倍。

这个训练过程一般叫做“embedded training”,因为无法为每个state进行数据标注。根据lexicon对整句话构建一个大的HMM,输入还包括wav数据或特征提取后的参数数据,然后通过Baum-Welch算法迭代训练知道次数到了或者误差不再变化,从而得到HMM模型参数和状态转移举证A。

Network里有很多NetNode,它们之间连接通过NetLink连接,且每个NetNode还包含一个NetInst,它是model instance(模型实例)。每个NetNode的NetInst执行一个双向的链表,链表节点就是NetInst,它记录了当前为止经过了哪些节点NetNode,对应的状态token如何。

每个NetNode包含一个或者多个NetLink,每个NetLink表明该节点执行下一个NetNode,以及score。每个NetNode有个标志type,表明当前NetNode是什么类型hmm还是word。

还有一个数据就是chain,NetWork里有个NetNode类型的chain数据项,每个NetNode也有一个chain,它们的区别是什么,以及chain又代表什么?这些问题是我理解识别模型网络的最后盲点。

HTK的解码过程的理解又遇到瓶颈了相关推荐

  1. 单个神经元不可靠!这项新研究推翻以往认知,感知的最大限制在于解码过程...

    来源:凹非寺 "单个神经元不可靠!" 一项关于神经元的研究,让众人看嗨了. 这项研究通过在小鼠身上做实验,先展示了神经元"不靠谱"的一面: 单个神经元两次对相同 ...

  2. ffmpeng编解码过程

    1  术语: 什么是影片?其实就是一组(很多张)图片,时间间隔很小的连续展示出来,人们就觉得画面中的人物在动,这就是影片.那电影的实质就是N多张图片的集合.那 每张图片和帧又有什么关系呢?事实上,如果 ...

  3. HDMI/DVI中TMDS编解码算法的理解

    HDMI/DVI中TMDS编解码算法的理解 TMDS简介 TMDS编码 TMDS解码 TMDS简介 HDMI和DVI协议使用TMDS作为它们的物理层.支持高达225MHz的传输速率,一个传输链路能满足 ...

  4. PyTorch 学习笔记(六):PyTorch hook 和关于 PyTorch backward 过程的理解 call

    您的位置 首页 PyTorch 学习笔记系列 PyTorch 学习笔记(六):PyTorch hook 和关于 PyTorch backward 过程的理解 发布: 2017年8月4日 7,195阅读 ...

  5. TS流的解码过程-ES-PES-DTS-PTS-PCR

    from: http://blog.chinaunix.net/uid-9688646-id-1998407.html TS 流解码过程: 1. 获取TS中的PAT 2. 获取TS中的PMT 3. 根 ...

  6. ie 不执行回调函时_javascript引擎执行的过程的理解--执行阶段

    一.概述 js引擎执行过程主要分为三个阶段,分别是语法分析,预编译和执行阶段,上篇文章我们介绍了语法分析和预编译阶段,那么我们先做个简单概括,如下: 1.语法分析: 分别对加载完成的代码块进行语法检验 ...

  7. javascript引擎执行的过程的理解--执行阶段

    一.概述 js引擎执行过程主要分为三个阶段,分别是语法分析,预编译和执行阶段,上篇文章我们介绍了语法分析和预编译阶段,那么我们先做个简单概括,如下: 1.语法分析: 分别对加载完成的代码块进行语法检验 ...

  8. H.264的CAVLC(编码.解码)过程详解

    看264也看到CAVLC来了,把这方面的资料贴在这里: 编码过程: 假设有一个4*4数据块 (变化,量化后就送入熵编码) {    0 , 3 , -1 , 0,    0, -1 ,   1, 0, ...

  9. uboot加载linux内核加载那些内容,几个地址参数及uboot加载启动内核过程的理解

    关于uBoot和Linux内核中几个地址参数及uboot加载启动内核过程的理解 uboot一般使用mkimage工具先制作一个启动映象文件来引导识别内核的,uboot源代码的tools/目录下有mki ...

最新文章

  1. 【网络安全】XSS盲打实战案例:某网页漫画
  2. xstream 数字映射不上去_6个做端口映射的步骤,外网访问内网,菜鸟也能做?
  3. 持续集成之配置TeamCity
  4. python 反射机制
  5. vue多选框点击其中一个控制div隐藏_Vue 零碎知识点
  6. SCPPO(十一):网站发布中的问题锦集—ReportViewer版本问题
  7. Android高级UI系列教程(一)
  8. 智伴机器人自动关机后怎么开机_智伴机器人
  9. 机器翻译的流程(原理)是怎么样的?
  10. 如何快速更换证件照背景颜色
  11. 仓库如何盘点?使用盘点机盘点有什么好处?仓库盘点方法?
  12. 求线段或直线与圆的交点
  13. 基于深度学习的单人步态识别系统
  14. IEEE754详解(最详细简单有趣味的介绍)
  15. python语言控制nao行走
  16. 后端常用开发工具下载地址
  17. Tampermonkey插件安装出现“无法从该网站添加应用、扩展程序和用户脚本”问题解决
  18. 2021牛客暑期多校训练营1 赛后总结
  19. 【身份证识别】BP神经网络身份证号码识别【含Matlab源码 1344期】
  20. 中国科学技术计算机网的英文缩写,2012计算机Internet与网络基础(answer)

热门文章

  1. 【强化学习论文合集】二十六.2020国际人工智能联合会议论文(IJCAI2020)
  2. PYTHON 双引号 单引号 多引号区别
  3. Linux内核教程(1) - 道路千万条,调试最重要
  4. matlab2016泰勒,matlab泰勒逼近
  5. 51单片机能否实现硬件仿真
  6. MPLS VPN跨域-optionC2
  7. 安卓投屏软件_AirPlay经常投屏失败,安卓投屏逐渐超越ios?
  8. (附源码)计算机毕业设计ssm房地产销售系统
  9. 虚拟环境下安装pytorch成功但import不成功
  10. SAP EPIC 银企直连 银行/现金交易对账(中国)