语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成。一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文、说话者、语音风格等;

协同发音:(指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。)的存在使得音素的感知与标准不一样,所以我们需要根据上下文来辨别音素。将一个音素划分为几个亚音素单元。如:数字“three”,音素的第一部分与在它之前的音素存在关联,中间部分是稳定的部分,而最后一部分则与下一个音素存在关联,这就是为什么在用HMM模型做语音识别时,选择音素的三状态HMM模型。

有时候,音素会被放在上下文中考虑,这样就形成了三元音素或者多元音素。但它与亚音素不同,他们在波形中匹配时长度还是和单一音素一样。只是名字上的不同而已,所以我们更倾向于将这样的多元音素称为senone。一个senone的上下文依赖比单纯的左右上下文复杂得多,它是一个可以被决策树或者其他方式来定义的复杂函数。(英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。)

特征:我们用帧frames去分割语音波形,每帧大概25(原文10ms,大部分资料都是以25ms为基准)ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的特征,用特征向量来表示。而如何提取特征向量是当下热门的研究课题,但这些提取方法都是由频谱衍生出来的。

https://blog.csdn.net/zouxy09/article/details/7941055

语音识别补充(一)(音素,三音素)相关推荐

  1. 传统语音识别介绍【五】—— 单音素和三音素

    一.音素(单音素) 音素(phone),是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素.音素分为元音与辅音两大类.如汉语音节 ā(啊)只有一个音素,ài( ...

  2. 《kaldi语音识别实战》阅读笔记:三音素模型训练—train_deltas.sh解析

    一.使用说明 1.1 描述 训练三音素模型.与单音素模型训练相比,因为建模单元变为三音素,因此多了决策树状态绑定. steps/deltas.sh Usage: steps/train_deltas. ...

  3. [语音识别] 单音素、三音素、决策树

    了解单音素.三音素.决策树主要从几个问题出发: (1)什么是音素? 以前的音标现在也可以叫音素,而且现在正广泛的把音标叫音素. 每一种语言中的音素都是不一样的,即使是同种语言中,方言的音素也是不一样的 ...

  4. kaldi 学习笔记-三音素训练1(Decision Tree)

    开始介绍kaldi三音素训练大致流程.本文主要介绍决策树(Decision Tree)部分. 1. acc-tree-stats Usage: acc-tree-stats [options] < ...

  5. kaldi学习笔记-三音素训练2

    本文介绍三音素训练部分. 上篇文章已经提到了如何对三音素聚类,构建决策树,接下来进行对三音素中各个GMM进行训练.三音素训练部分和单音素大致相同,都是运用EM算法进行参数的更新,具体部分可以看单音素训 ...

  6. 从0开始学习kaldi决策树绑定+三音素

    从0开始的Kaldi决策树绑定+三音素 这个博客主要介绍了三音素GMM的原理以及Kaldi对其的实现,由于没有分篇幅所以全篇较长 三音素GMM 在单音素GMM中,我们对每一个音素建立一个HMM模型,并 ...

  7. Kaldi三音素GMM学习笔记

    建议在csdn资源页中免费下载该学习笔记的PDF版进行阅读:)点击进入下载页面 Kaldi三音素GMM学习笔记 三音素GMM与单音素GMM的主要差别在于决策树状态绑定,与GMM参数更新相关的原理.程序 ...

  8. 从单音素到三音素模型

    参考文章: <Tree-Based State Tying for High Accuracy Acoustic Modelling Basics Triphone Tying Decision ...

  9. 语音识别common1(音素,三音素)

    语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成. 一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文.说话者.语音风格等: 协同发音(指的是一个音受前 ...

最新文章

  1. Linux 黑话解释:什么是定时任务
  2. 非常详尽的 Shiro 架构解析!
  3. java虚拟机规范这本书怎么样_JVM规范系列开篇:为什么要读JVM规范?
  4. java.sql.sqlexception: 无效的名称模式:_PSQLException:错误:关系&ldquo; TABLE_NAME&rdquo;不存在...
  5. c# Sockect 通信
  6. 日志中的秘密:Windows登录类型知多少
  7. 字王谈M1字形与个人云字库
  8. python的ctypes模块详解数组_python ctypes结构数组
  9. qt动画效果_Qt编写自定义控件44-天气仪表盘
  10. java stringbuffer原理_深入理解String, StringBuffer, StringBuilder的区别(基于JDK1.8)
  11. JSP——九大内置对象和其四大作用域
  12. 搜索c盘大文件_硬核干货,如何给c盘“减肥”?
  13. CSDN新版下载频道改版上线了
  14. FastAPI基础:Depends怎么用?
  15. 重磅!上海985教授当选!全球仅4人!
  16. 用计算机术语形容人性格的词语,概括人物形象(性格品质)的词语
  17. 爬取图片到mysql数据库_爬取微博图片数据存到Mysql中遇到的各种坑\mysql存储图片\爬取微博图片...
  18. IOS证书申请最新版2021
  19. 运行时异常一般异常的区别
  20. 开机点用户名登录显示rfc服务器不可用,rpc服务器不可用怎么办(修复RPC服务器不可用方法)...

热门文章

  1. 移植NXP官方U-boot全过程
  2. template模板引擎的使用例子
  3. Python【进程和线程】保姆式教学,1个台机子多只手干活的秘籍
  4. 快手男性护肤市场正在迅速崛起!品牌方如何入局“他经济”市场?
  5. 对假虎照指证不表态 政府公信力面临危机
  6. PHP中sql语句大全,php操作mssql的命令语句大全
  7. python - 常用Excel模块
  8. 领悟《信号与系统》之 连续系统的频域分析
  9. 什么蓝牙耳机适合realme手机?适合realme手机的高端蓝牙耳机推荐
  10. Vue2基础-Vue2.x 多层级组件数据通信 EventBus 和 Vuex