一、音素（单音素）

音素（phone），是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节 ā（啊）只有一个音素，ài（爱）有两个音素，dāi（呆）有三个音素等。如“普通话”，由三个音节组成，可以分析成“p, u, t, o, ng, h, u, a”八个音素。

详细介绍：音素_百度百科

二、三音素

三音素，音素的一种，与单音素（如t, o, ng）不同，三音素表示为如 t-o+ng，即由三个单音素组成，与单音素o类似，但其考虑了上下文的关系，即，上文为t，下文为ng。

以“搜狗语音”为例：

拼音表示：sou1 gou3 yu3 yin1

单音素表示：s ou1 g ou3 y u3 y in1

三音素表示：sil-s+ou1 s-ou1+g ou1-g+ou3 g-ou3+y ou3-y+u3 y-u3+y u3-y+in1 y-in1+sil

1、为什么要用三音素建模

单音素建模没有考虑协同发音效应，也就是上下文音素会对当前的中心音素发音有影响，会产生协同变化，这与该音素的单独发音会有所不同(数据统计也就有所不同)。

考虑到这个影响，需要使用三音素建模，使得模型描述更加精准。并且在倒谱特征提取时，汉宁窗向左、向右包含了冗余的频谱，因此，用三音素代替单音素是合理的。

2、为什么需要状态绑定

原因：（1）单音素复制为三音素后，状态的个数成指数增加。如果进行精细建模，模型参数非常巨大。

（2）需要对三音素进行精细建模，则需要大量的数据，而实际上很难获得。

例子：假设音素表有50个音素，则需要的三音素总个数有：50×50×50=125,000

假设3个状态，每个状态对应1个GMM，1个GMM用8个高斯(44个参数=8+（8+1）×8/2)，则1个三音素对应132个参数

总的模型参数有：16500000，显然模型参数非常大。

另外，每个三音素的模型建立，如果要全覆盖，则需要很大的训练数据，一般很难覆盖到。所以，精细建模不太现实，需要状态绑定来减小参数。

3、通过聚类进行状态绑定

方法一：传统的三音素方法就是模型绑定，也就是归一化三音素，使用一个后验平滑的方法。尽管如此，基于模型的上下文绑定是受限的，因为上下文音素不能单独的对待。

方法二：当前中心音素，如果上下文的发音类型相似，则对当前音素的影响是相似的，则可以将这些数据聚为1类；具体要如何制定这些规则(决策树规则)，靠语言发音学家的经验知识。(音素判别，再到状态绑定) 对于节点分裂，需要寻找最佳的问题，按照look like hood增加的原则。kaldi可以自动产生问题集，根据音素本身数据上的相似性，自动聚为一类，这不需要语言学知识。

传统语音识别介绍【五】—— 单音素和三音素相关推荐

[语音识别] 单音素、三音素、决策树
了解单音素.三音素.决策树主要从几个问题出发: (1)什么是音素? 以前的音标现在也可以叫音素,而且现在正广泛的把音标叫音素. 每一种语言中的音素都是不一样的,即使是同种语言中,方言的音素也是不一样的 ...
《kaldi语音识别实战》阅读笔记：三音素模型训练—train_deltas.sh解析
一.使用说明 1.1 描述训练三音素模型.与单音素模型训练相比,因为建模单元变为三音素,因此多了决策树状态绑定. steps/deltas.sh Usage: steps/train_deltas. ...
传统语音识别介绍【三】—— 声学模型
近年来,随着深度学习的兴起,使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(泛指深度神经网络)所替代,模型精度也有了突飞猛进的变化. 整体来看声学建模技术从建模单元.模型结构. ...
从单音素到三音素模型
参考文章: <Tree-Based State Tying for High Accuracy Acoustic Modelling Basics Triphone Tying Decision ...
语音识别common1（音素，三音素）
语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成. 一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文.说话者.语音风格等: 协同发音(指的是一个音受前 ...
语音识别补充(一)（音素，三音素）
语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成.一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文.说话者.语音风格等: 协同发音:(指的是一个音受前 ...
传统语音识别介绍【四】—— 语言模型
前言语言模型是针对某种语言建立的概率模型,目的是建立一个能够描述给定词序列在语言中的出现的概率的分布. 给定下边两句话: 定义机器人时代的大脑引擎,让生活更便捷.更有趣.更安全. 代时人机器定义引擎 ...
传统语音识别介绍【一】—— 前端处理
前段时间做过语音识别相关的内容,先把小组整理的文档发布出来,供大家参考. 一.语音预处理在对语音信号进行分析和处理之前,必须对其进行预加重.分帧.加窗等预处理操作.这些操作的目的是尽可能减小因为人类 ...
从0开始学习kaldi决策树绑定+三音素
从0开始的Kaldi决策树绑定+三音素这个博客主要介绍了三音素GMM的原理以及Kaldi对其的实现,由于没有分篇幅所以全篇较长三音素GMM 在单音素GMM中,我们对每一个音素建立一个HMM模型,并 ...

传统语音识别介绍【五】—— 单音素和三音素