如何构建中英文混合的语音识别模型？

outline:

一、构建基于HMM的中英文混合语音识别系统

1、识别系统基本架构

2、音子集的构建

3、数据的准备

二、构建基于end-to-end的中英文混合语音识别系统

-------------------------------------------------------------------------

一、构建基于HMM的中英文混合语音识别系统

1、识别系统基本架构

利用通用的音子集建立一个跨语言的声学模型，形成一个多语言的混合语音识别系统。这种方法的出发点是将多语言混合看做是一种新的语言，它的音子集包含了多种语言的音子集，声学模型也是用多种语言的数据共同训练而成。这样的一个系统既能够单独用来对一种语言进行识别也能够对多种语言的混合进行识别。下图是这样的一个系统示意图。

图中可以看到整个系统的结构是基于CD-DNN-HMM的。使用DNN（包括全连接DNN、CNN、RNN等）来对声学模型建模已经是语音识别的标配。几年前不好解决的多语言混合的语音识别问题在有了深度神经网络之后就变得容易了。如果某种语言的可用训练数据非常少，那么可以通过一个多语言共享的深度神经网络层来解决。因此在可用资源非常少的情况下建立单一语种的语音识别系统是可行的。此外，深度神经网络的建模能力远远超过对角高斯混合模型，因此对付更大的音子集也是有可能的。利用深度神经网络建立一个多语言混合的语音识别系统，解决多语言交替问题甚至一句话中出现多种语言的问题，这样的一个系统能够对多语言的任何语音进行识别。

在这样的系统中，基于深度神经网络的混合声学模型是利用多语言的训练数据共同训练的，因此通用音子集是建立声学模型的必要条件。此外，这个混合系统的语言模型是利用多语言混合的语料集建立的。这也是此系统能够对多语言混合进行识别的关键。

2、音子集的构建

音子集是建立词典以及声学模型所必须的，一个好的音子集能够对声学模型产生重要的影响。这部分也是建立中英文混合识别系统的关键所在。下面介绍三种音子集构建方案：

a) 音子集合并

构建音子集最极端的方式就是将中文和英文语言所有的音子集全部放在一起，形成一个合并的音子集。尽管这种粗暴的方式在过去的系统中性能表现并不好，但是这种方式建立的音子集也并不是一点好处都没有。使用中英文所有的音子集能够保留每种语言各自音子集的上下文关系，即他们三音子的数量和跳转关系仍然由各自的语言来定义。而在其它方式形成的音子集中，这种三音子上下文关系将会被共享的音子扰乱。并且当训练数据中两种语言混合的语音数量增多的时候，中文和英文之间三音子的上下文关系也会得到训练和加强。因此将中文和英文所有的音子集合并也不失为一种好的方法，只是传统的实验往往受限于训练数据的规模以及解码方式。

此外，深度神经网络的描述能力比高斯混合模型要好很多，因此对中文和英文所有的音子集的三音子状态建模也合乎情理。

b) 音子集映射

构建音子集另外一种极端的方式是将一种语言的音子集完全用另外一种语言的音子集来表示。由于不同种类语言的发音方法不同，必然会有一些无法表示的情况，这是就需要用多个音子的组合来表示，当然也有很多是近似的表示。

在中英文混合识别中，由于中文是主要的语言，英文仅仅会出现一些单词或简单的句子，因此可以将英文的音子集映射到中文音子集中，利用中文音子或是音子的组合来表示英文音子。尽管其中有些音子的表示较为牵强，但是使用这种方法能够在已有模型的基础上快速构建中英文混合语音识别的系统。例如已经在大规模的训练数据上建立了中文的连续语音识别系统，那么所有三音子状态都已经有了一个模型。在这种情况下，构建中英文混合语音识别无需重新训练声学模型。只要将待识别的英文单词用中文音子表示，并添加到识别词典当中，那么就能够识别到英文单词。如果想要在中文的句子中识别到出现的英文单词，只需对语言模型进行适当的调整就能实现。

另外，正如历史发展篇中所述，一旦系统变成一个通用的系统那么其性能必然会比专门的系统有所下降。因此，这种方法建立的中英文混合系统虽然对英文的识别率可能不高，但是它一定是对中文识别率影响最小的一个系统。考虑到中英文混合识别系统仍然是以识别中文为主，仅会识别个别的英文单词或简单英文句子，因此这样的一种音子集构建方式和混合语音识别系统搭建方式可以用作搭建一个基线系统。

c) 音子集融合

音子集的融合指是在简单的音子集合并的基础之上进行进一步处理，通常是将发音类似的音子合并成一个。这里既可以利用专家编撰的方法，也可以使用数据驱动的方法，比如基于混淆矩阵[P.-Y. Shih，2008]的方法。

3、数据准备

a)要训练中英文混合的语音识别系统，当然要有中英文混合的标注语音数据。当然音子集映射的方法可以不改变声学模型，因此没有声学训练用的标注语音数据也可以。而其他两种音子集形成的方式都离不开带标注的声学训练数据。

b)语言模型也必须包含中英文混合的数据。

c)词典自然要包含想识别出的所有汉字和单词，音子集就用上述方法构建得到的即可。

二、构建基于end-to-end的中英文混合语音识别系统

End-to-end语音识别系统已经有不少paper了，google、百度也相继发出过他们的CTC系统。使用RNN取代HMM对时序进行建模是近几年的趋势。而HMM的取缔，也意味着音子集时代的结束。换句话说就是神经网络模型能够对G2P（Grapheme-to-Phoneme）进行建模。

End-to-end的方法中，中文通常直接使用汉字来建模，而英文为了避免词巨大汇量带来的模型爆炸通常使用Gram-char进行建模，包括uni-char（就是字符），bi-char以及GRAM-CTC[Hairong Liu，2017]中这种数据驱动的Gram-char。对于这种结构的识别系统来说，有了带标注中英文混合语音数据和中英文混合文本数据就足够建立一个识别系统了。

参考文献：

1、H. Lin, L. Deng, D. Yu, Y.-f. Gong, A. Acero, and C.-H. Lee, “A study on multilingual acoustic modeling for large vocabulary asr,” in Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on, pp. 4333–4336, IEEE, 2009

2、P.-Y. Shih, J.-F. Wang, H.-P. Lee, H.-J. Kai, H.-T. Kao, and Y.-N. Lin, “Acoustic and phoneme modeling based on confusion matrix for ubiquitous mixed-language speech recognition,” in Proceedings of the 2008 IEEE International Conference on Sensor Networks, Ubiquitous, and Trustworthy Computing (sutc 2008)-Volume 00, pp. 500–506, IEEE Computer Society, 2008

3、Hairong Liu, Zhenyao Zhu, Xiangang Li, Sanjeev Satheesh,“Gram-CTC: Automatic Unit Selection and Target Decomposition for Sequence Labelling”，2017

未经允许请勿转载

如何构建中英文混合的语音识别模型？相关推荐

更好的中英文混合语音识别系统
语音作为人与人交流的直接媒介,承载着人们日常生活中的大部分信息来源.基于近年来通信技术与物联网的发展,各式各样的语音助手.智能家具等软硬件层出不穷,人机交互技术的发展及人们对其需求日益攀升.语音识别技 ...
PaddleOCR加载chinese_ocr_db_crnn_modile模型进行中英文混合预测（Http服务）实践
1. 环境搭建参考:<PaddleOCR加载chinese_ocr_db_crnn_server模型进行中英文混合预测(命令行)实践> 2. 服务端部署 hub serving star ...
PaddleOCR加载chinese_ocr_db_crnn_server/chinese_ocr_db_crnn_modile模型进行中英文混合预测（代码）实践
1. 环境搭建参考:<PaddleOCR加载chinese_ocr_db_crnn_server模型进行中英文混合预测(命令行)实践> 2. 代码 import paddlehub as ...
基于RNN和CTC的语音识别模型，探索语境偏移解决之道
摘要:在本文介绍的工作中,我们展示了一个基于RNN和CTC的语音识别模型,在这个模型中,基于WFST的解码能够有效地融合词典和语言模型. 本文分享自华为云社区<语境偏移如何解决?专有领域端到端A ...
百度输入法开启AI时代，突破方言、中英文混合识别难题
电脑在我国普及,第一个急需要解决的问题就是,如何将汉字输入到电脑中,于是产生了汉字输入法.汉字输入法发展至今主流的方式大致可以分为,笔画.拼音.五笔.手写.语音.云输入法. 当前国内输入法存在很多问题 ...
OpenAI的人工智能语音识别模型Whisper详解及使用
1 whisper介绍拥有ChatGPT语言模型的OpenAI公司,开源了 Whisper 自动语音识别系统,OpenAI 强调 Whisper 的语音识别能力已达到人类水准. Whisper是一个 ...
重磅！MaxCompute助力阿里开源自研语音识别模型DFSMN，准确率高达96.04%
阿里开源语音识别模型DFSMN 在近期举行的云栖大会武汉峰会上,装有DFSMN语音识别模型的"AI收银员"在与真人店员的PK中,在嘈杂环境下准确识别了用户的语音点单,在短短49秒内 ...
利用 AssemblyAI 在 PyTorch 中建立端到端的语音识别模型
作者 | Comet 译者 | 天道酬勤,责编 | Carol 出品 | AI 科技大本营(ID:rgznai100) 这篇文章是由AssemblyAI的机器学习研究工程师Michael Nguyen ...
基于Transformer的高效、低延时、流式语音识别模型
从场景上,语音识别可以分为流式语音识别和非流式语音识别.非流式语音识别(离线识别)是指模型在用户说完一句话或一段话之后再进行识别,而流式语音识别则是指模型在用户还在说话的时候便同步进行语音识别.流式语 ...

如何构建中英文混合的语音识别模型？

如何构建中英文混合的语音识别模型？相关推荐

最新文章

热门文章