传统语音识别介绍【三】—

近年来，随着深度学习的兴起，使用了接近30年的语音识别声学模型HMM（隐马尔科夫模型）逐渐被DNN（泛指深度神经网络）所替代，模型精度也有了突飞猛进的变化。

整体来看声学建模技术从建模单元、模型结构、建模流程等三个维度都有了比较明显的变化，如图5所示：

其中，深度神经网络超强的特征学习能力大大简化了特征抽取的过程，降低了建模对于专家经验的依赖，由此带来的影响是：

（1）建模流程逐步从之前复杂多步的流程转向了简单的端到端的建模流程。

（2）建模单元逐步从状态、三音素模型向音节、字等较大单元演进。

（3）模型结构从经典的GMM-HMM向DNN+CTC转变，演进的中间态是DNN-HMM的混合模型结构。

一、声学模型演变流程

1、GMM-HMM（高斯混合模型-隐马尔科夫模型，传统方法）

HMM最早创立于20世纪70年代。80年代得到了传播和发展，成为信号处理的一个重要方向，现已成功地用于语音识别，行为识别，文字识别以及故障诊断等领域。

详细来看，经典的HMM建模框架如下所示：

其中，输出概率使用高斯混合模型GMM建模，如下：

2、 DNN-HMM（深度神经网络-隐马尔科夫模型，用DNN代替GMM）

2012年，微软邓力和俞栋老师将前馈神经网络FFDNN (Feed Forward Deep Neural Network) 引入到声学模型建模中，将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率，引领了DNN-HMM混合系统的风潮，很多研究者使用了FFDNN、CNN、RNN、LSTM等多种网络结构对输出概率进行建模，并取得了很好的效果，如图7所示。

DNN-HMM建模框架中，输入特征使用了在当前帧左右拼帧的方式来实现模型对时序信号长时相关性的建模，模型输出则保持了GMM-HMM经常使用的trihone（三音素）共享状态，中文大词汇量连续语音识别中状态数一般设置在1万左右。

3、RNN及LSTM的引入（用LSTM代替HMM）

语音的协同发音现象说明声学模型需要考虑到语音帧之间的长时相关性，尽管上文中DNN-HMM通过拼帧的方式对上下文信息进行了建模，但是毕竟拼接的帧数有限，建模能力不强，因此引入了RNN（循环神经网络）增强了长时建模的能力，RNN隐层的输入除了接收前一个隐层的输出之外，还接收前一时刻的隐层输出作为当前输入，通过RNN的隐层的循环反馈，保留了长时的历史信息，大大增强了模型的记忆能力，语音的时序特性通过RNN也得到了很好的描述。但是RNN的简单结构在模型训练进行BPTT (Backpropagation Through Time) 时很容易引起梯度消失/爆炸等问题，因此在RNN的基础上引入了LSTM（长短时记忆模型），LSTM是一种特殊的RNN，通过Cell以及三个门控神经元的特殊结构对长时信息进行建模，解决了RNN出现的梯度问题，实践也证明了LSTM的长时建模能力优于普通RNN。

4、CTC的引入（DNN+CTC）

上述的建模技术在模型训练时需要满足一个条件，就是训练数据中每一帧都要预先确定对应的标注，即对应DNN输出状态的序号，训练特征序列和标注特征序列必须是等长的，而为了得到标注，需要使用已有模型对训练数据序列和标注序列进行强制对齐。

【问题一】基于大数据训练时标注的准备比较耗费时间；

【问题二】对齐使用的模型精度往往存在偏差，训练中使用的标注会存在错误；

因此引入了CTC (Connectionist Temporal Classification|连接主义时间分类) 准则，解决了标注序列与特征序列不等长的问题，通过前向后向算法自动学习语音特征中的模型边界，这种准则与用于时序建模的神经网络（如LSTM）的结合可以直接用于端到端的模型建模，颠覆了语音识别使用接近30年之久的HMM框架。

CTC准则引入了blank类别（空类别），用于吸收发音单元内部的混淆性，更加突出模型与其他模型之间的差异性，因此CTC具有非常明显的尖峰效果，图13是使用triphone-lstm-ctc模型对内容为“搜狗语音”的语音进行识别后的输出概率分布，可以看到大部分区域都被blank吸收，识别出的triphone对应着明显尖峰。

可以预期，基于CTC或者引用CTC概念（如LFMMI）的端到端识别技术将逐渐成为主流，HMM框架将逐渐被替代。