从寒假前的博客:语音识别系统原理介绍---从gmm-hmm到dnn-hmm,最近有时间的时候我还是在不断的去理解gmm-hmm这个基准模型。下面我讲从提玩mfcc特征开始说起,希望可以让你有所收获吧。

提完mfcc特征,就相当于剩下一个13维*帧数的矩阵。接下来,就是用混合高斯模型了。怎么用?就用多维的高斯模型区模拟我们得到的矩阵,相当于拟合。相当于我们假设其服从高斯分布,然后我们寻找均值和方差矩阵。可以理解为下图吧。

我们可以看到特征后用一个多维高斯函数去模拟。此外,这里还有个重要的东西,首先我们在训练阶段,我们是知道这段语音所表示的句子吧。我们通过句子,然后分词,然后分成每个音素,在隐马尔科夫(HMM)模型中一般用3-5个上述的单元表示一个音素。简单的理解就是我们每个音素的均值和方差矩阵知道,通过我们的句子我们也知道每个音素间的转移概率矩阵。当然,这些是HMM里的事情。提取特征后的第一步就完成了,简单的说就是为了拟合多维高斯函数。再贴两个图,便于理解:

下面继续说,接下来就得说隐马尔科夫模型了。如果你不清楚,建议你去看《hmm最佳学习范例》。

一开始,我们设置每个音素的均值和方差分别为0和1,转移概率矩阵在htk里也是可以设置两头小中间大,这个对于5个状态的hmm,即每个音素分为5个状态。这步就是初始化hmm。

然后,生成各个音素的hmm。这个可以根据发音字典和原始的hmm来生成。

最后,我们根据训练数据来训练音素级的hmm。这里用到hmm的三大问题。通过训练,我们会得到三个参数:初始状态概率分布π、隐含状态序列的转移矩阵A(就是某个状态转移到另一个状态的概率观察序列中的这个均值或者方差的概率)和某个隐含状态下输出观察值的概率分布B(也就是某个隐含状态下对应于)。

有人总结了语音识别就分为三步:第一步,把帧识别成状态(难点)。第二步,把状态组合成音素。第三步,把音素组合成单词。第一步可以当做gmm做的,后面都是hmm做的。如果你能把单词识别出来,那句子也就很简单了。当然,识别句子就会有语言模型的作用。

今天先说这里吧,hmm具体的怎么操作,我想你应该可以理解了点。下次,希望我可以更加的详细的说……

此外,dnn的作用无非是为了更好的去拟合那个函数,但已经不是高斯函数了。

最后,希望大家提出建议和想法,欢迎交流……

2014.6.1更新:最近看到一个好的博文,附上网址:GMM-HMM语音识别模型 原理篇

语音识别系统原理介绍----gmm-hmm相关推荐

  1. 室内空气流动原理图_新风系统原理图—新风系统原理介绍

    如今我们在进行新家的装修的时候,不少人为了家人的健康着想,都在选购家电的同时会选择安装一款新风系统.但是尽管如此,大家对新风系统原理其实并不了解,更不要提新风系统各部分的原理了,下面小编就结合新风系统 ...

  2. 计算机房需要排风吗,机房新风排风系统怎么样 机房新风排风系统原理介绍【详解】...

    因为机房设备属于高精密设备,对周边环境的要求非常高,如果机房内空气中有太多杂质,可能导致静电放电问题,可能会损坏元器件.所以一台机房新风排风系统不仅会会解决这样的问题,而且还会为企业节省大笔的资金,下 ...

  3. LD3320的嵌入式语音识别系统的应用

    摘要:语音交互系统是比较人性化的人机操作界面,它需要语音识别系统的支持.LD3320就是这样一款语音识别芯片.介绍了该芯片的工作原理及应用,给出了LD3320与微处理器的硬件接口电路及软件程序.随着M ...

  4. 语音识别技术是什么 语音识别基本方法介绍【图文】

    语音识别技术,语音识别技术是什么意思 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例 ...

  5. 门禁系统原理及其组成模块电路分析

    门禁系统是安防监控市场中很常见的一类产品(门禁系统的种类),它与我们的实际生活息息相关,小编在上一篇文章中就门禁系统的功能作了详细介绍,这只是其比较基础的知识.本篇文章中,小编将对门禁系统做更深入解读 ...

  6. 语音识别传统方法(GMM+HMM+NGRAM)概述

    春节后到现在近两个月了,没有更新博客,主要是因为工作的关注点正从传统语音(语音通信)转向智能语音(语音识别).部门起了个新项目,要用到语音识别(准备基于Kaldi来做).我们之前做的传统音频已基本成熟 ...

  7. 传统语音识别(GMM+HMM)

    语音信号的采集: 语音信号计算机中是采用PCM编码按时间序列保存的一连串数据.计算机中最原始语音文件是wav,可以通过各种录音软件录制,录制是包括三个参数 fs:采样率 8000Hz 115200Hz ...

  8. 语音识别技术原理是什么 讯飞语音识别技术特点介绍【详解】

    语音识别技术原理简介 自动语音识别技术(Auto Speech Recognize,简称ASR)所要解决的问题是让计算机能够"听懂"人类的语音,将语音中包含的文字信息"提 ...

  9. AI大语音(七)——基于GMM的0-9语音识别系统(深度解析)

    本文来自公众号"AI大道理". 这里既有AI,又有生活大道理,无数渺小的思考填满了一生. 1 系统概要 孤立词识别:语音中只包含一个单词的英文识别 识别对象:0-9以及o的英文语音 ...

  10. 智能语音识别系统_语音识别技术原理_智能语音识别系统如何识别用户意图_企业服务汇...

    编者按:智能语音识别系统目前已经实现商业化应用,广泛应用于客服行业,包括智能语音客服和智能客服呼叫中心.那么智能语音识别系统如何识别客户意图,如何判断智能客服系统的语音识别能力呢?本文我们将结合语音识 ...

最新文章

  1. iOS开发笔记(十七):持久化方案之 NSUserDefaults
  2. Jquery对象本质和隐式迭代
  3. 字符流中的编码解码问题
  4. 三维球体换算到二维_AutoCAD三维入门,这些硬核干货要知道,看不懂建议备份收藏...
  5. SAP Hybris backoffice加载的zul文件和zk文件是什么东西
  6. 工作314:uni-提交成功加入表单验证
  7. SQL - 将NULL设置为 NOT NULL
  8. 成为优秀的Java程序员要具备哪些技能?
  9. pytorch 图像增强
  10. php 打印 wap,PHP 输出简单动态WAP页面
  11. 【BZOJ3489】A simple rmq problem(树套树)
  12. 软考:项目中的常见问题
  13. mysql 删除重复数据,需要给子查询的表,起一个别名
  14. mysql安装_win版
  15. ROBOGUIDE软件:FANUC机器人弧焊焊接系统配置与虚拟仿真
  16. 数学建模好学吗?半年带出几十位省奖和十几位国奖
  17. 51单片机外设LCD12864显示字符串
  18. JAVA生成纯色背景图-自定义大小-自定义颜色
  19. yyds、yygq、xswl...都是什么意思?
  20. 微星迫击炮B550M MORTAR WIFI 插三根内存不开机、黑屏、蓝屏、BIOS报错

热门文章

  1. 华为三层交换机-路由-硬件防火墙的配置
  2. maven项目的构建
  3. 【智能家居v1.0项目】C#实现scoket通信
  4. [导入]Asp.Net 学习资源列表
  5. win10的文件夹(文件资源管理器)卡住了
  6. python 导入excel至oracle,Python读取Excel数据并将其导入Oracle数据库,导入到
  7. javaaop模式供其他项目调用_结构性模型-静态代理模式
  8. python运算符手写笔记_Python笔记(四)-运算符
  9. c语言语法分析常见问题,C语言语法提要与常见错误分析.doc
  10. mysql确定数据表中是否存在某字段_MySQL判断表是否存在某个列