一、音素(单音素)

音素(phone),是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节 ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。如“普通话”,由三个音节组成,可以分析成“p, u, t, o, ng, h, u, a”八个音素。

详细介绍:音素_百度百科

二、三音素

三音素,音素的一种,与单音素(如t, o, ng)不同,三音素表示为如 t-o+ng,即由三个单音素组成,与单音素o类似,但其考虑了上下文的关系,即,上文为t,下文为ng。

以“搜狗语音”为例:

拼音表示:sou1 gou3 yu3 yin1

单音素表示:s ou1 g ou3 y u3 y in1

三音素表示:sil-s+ou1 s-ou1+g ou1-g+ou3 g-ou3+y ou3-y+u3 y-u3+y u3-y+in1 y-in1+sil

1、为什么要用三音素建模

单音素建模没有考虑协同发音效应,也就是上下文音素会对当前的中心音素发音有影响,会产生协同变化,这与该音素的单独发音会有所不同(数据统计也就有所不同)。

考虑到这个影响,需要使用三音素建模,使得模型描述更加精准。并且在倒谱特征提取时,汉宁窗向左、向右包含了冗余的频谱,因此,用三音素代替单音素是合理的。

2、为什么需要状态绑定

原因:(1)单音素复制为三音素后,状态的个数成指数增加。如果进行精细建模,模型参数非常巨大。

(2)需要对三音素进行精细建模,则需要大量的数据,而实际上很难获得。

例子:  假设音素表有50个音素,则需要的三音素总个数有:50×50×50=125,000

假设3个状态,每个状态对应1个GMM,1个GMM用8个高斯(44个参数=8+(8+1)×8/2),则1个三音素对应132个参数

总的模型参数有:16500000,显然模型参数非常大。

另外,每个三音素的模型建立,如果要全覆盖,则需要很大的训练数据,一般很难覆盖到。所以,精细建模不太现实,需要状态绑定来减小参数。

3、通过聚类进行状态绑定

方法一:传统的三音素方法就是模型绑定,也就是归一化三音素,使用一个后验平滑的方法。尽管如此,基于模型的上下文绑定是受限的,因为上下文音素不能单独的对待。

方法二:当前中心音素,如果上下文的发音类型相似,则对当前音素的影响是相似的,则可以将这些数据聚为1类;具体要如何制定这些规则(决策树规则),靠语言发音学家的经验知识。(音素判别,再到状态绑定) 对于节点分裂,需要寻找最佳的问题,按照look like hood增加的原则。kaldi可以自动产生问题集,根据音素本身数据上的相似性,自动聚为一类,这不需要语言学知识。

传统语音识别介绍【五】—— 单音素和三音素相关推荐

  1. [语音识别] 单音素、三音素、决策树

    了解单音素.三音素.决策树主要从几个问题出发: (1)什么是音素? 以前的音标现在也可以叫音素,而且现在正广泛的把音标叫音素. 每一种语言中的音素都是不一样的,即使是同种语言中,方言的音素也是不一样的 ...

  2. 《kaldi语音识别实战》阅读笔记:三音素模型训练—train_deltas.sh解析

    一.使用说明 1.1 描述 训练三音素模型.与单音素模型训练相比,因为建模单元变为三音素,因此多了决策树状态绑定. steps/deltas.sh Usage: steps/train_deltas. ...

  3. 传统语音识别介绍【三】—— 声学模型

    近年来,随着深度学习的兴起,使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(泛指深度神经网络)所替代,模型精度也有了突飞猛进的变化. 整体来看声学建模技术从建模单元.模型结构. ...

  4. 从单音素到三音素模型

    参考文章: <Tree-Based State Tying for High Accuracy Acoustic Modelling Basics Triphone Tying Decision ...

  5. 语音识别common1(音素,三音素)

    语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成. 一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文.说话者.语音风格等: 协同发音(指的是一个音受前 ...

  6. 语音识别补充(一)(音素,三音素)

    语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成.一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文.说话者.语音风格等: 协同发音:(指的是一个音受前 ...

  7. 传统语音识别介绍【四】—— 语言模型

    前言 语言模型是针对某种语言建立的概率模型,目的是建立一个能够描述给定词序列在语言中的出现的概率的分布. 给定下边两句话: 定义机器人时代的大脑引擎,让生活更便捷.更有趣.更安全. 代时人机器定义引擎 ...

  8. 传统语音识别介绍【一】—— 前端处理

    前段时间做过语音识别相关的内容,先把小组整理的文档发布出来,供大家参考. 一.语音预处理 在对语音信号进行分析和处理之前,必须对其进行预加重.分帧.加窗等预处理操作.这些操作的目的是尽可能减小因为人类 ...

  9. 从0开始学习kaldi决策树绑定+三音素

    从0开始的Kaldi决策树绑定+三音素 这个博客主要介绍了三音素GMM的原理以及Kaldi对其的实现,由于没有分篇幅所以全篇较长 三音素GMM 在单音素GMM中,我们对每一个音素建立一个HMM模型,并 ...

最新文章

  1. Java黑皮书课后题第5章:*5.23(演示抵消错误)当处理一个很大的数字或很小的数字时候,会产生一个抵消错误。……编写程序对上面的数列从左到右和从右向左计算的结果进行比较,n=50000
  2. 实习笔记0708 https协议/ django中间件/接口测试/内网与外网/域名系统DNS
  3. 上班从不迟到,生病不敢请假,加班唯命是从,明明已经很拼命了,为什么还是缺钱?...
  4. Description Resource Path Location Type Java compiler level does not match the version of the insta
  5. [SCOI2010]连续攻击游戏
  6. 27. JavaScript Cookies
  7. linux整人指令,六个愚人节Linux恶作剧
  8. android关于无法debug
  9. 计算机电子表格操作步骤,Excel电子表格操作基本步骤.doc
  10. 使用FastReport进行基于富盛SBO程序开发框架的报表开发
  11. 百度引流软文怎么写?如何利用软文从百度引流?
  12. 我眼中的机器学习(二) 解方程 为什么需要用到机器学习算法
  13. 绝妙!不用外部电路检测芯片工作电压!
  14. 亲测 可用 des 加密
  15. 泡妞技术帖:一物降一物 金庸爷爷教你如何谈恋爱
  16. Mapper代理文件实现
  17. js生成excel表格并下载
  18. 【算法】从后向前的字符串匹配算法——BMH算法+sunday算法
  19. python性能还是不错的
  20. python计算两个矩形的重叠_python计算两个矩形框重合百分比的实例

热门文章

  1. 日升日落,总有黎明——暖色系原木风装修
  2. 俞敏洪:度过有意义的生命
  3. 特斯拉Q4财报:底部反弹70%,为信仰打call
  4. 固态变 SATAFIRM S11
  5. iphone备忘录删除怎么恢复?分享苹果数据找回办法
  6. Deepin-TIM或Deepin-QQ调整界面DPI字体大小的方法
  7. 已知一个字典包含若干员工信息,姓请编写一个函数,删除性别为男的员工信息
  8. nRF24L01 无线数传模块之间的区别 干货分析
  9. [转帖]《魔兽世界》的成功之道
  10. Linux驱动之DMA