开源语音识别工具包 - CMUSphinx

开源语音识别工具包
语音识别简介
- 语音的构成
- 识别过程
- 模型
- 其他概念
CMU Sphinx
- 简介
- Sphinx初体验
- - 下载
  - 编译
  - 运行

开源语音识别工具包

目前开源世界里存在多种不同的语音识别工具包，它们为开发者构建语音识别相关的应用提供了很大的帮助。以下是目前比较流行的语音识别工具包：

CMU Sphinx
Kaldi
HTK
Julius
ISIP
作为语音识别小白，我将从CMU Sphinx入手，从简单的应用搭建到CMU Sphinx代码的阅读和理解，逐步深入了解语音识别这个深奥的世界。

语音识别简介

语音其实上是一个复杂的现象，人们很少理解语音是怎么产生和感知的，最直观的理解就是语言是由多个单词组成的，而每个单词又是由多个音素（phone）组成的，但事实却并不是这样。事实上，语言/语音是一个连续动态的过程，之间没有明显的分界，如果你用一个语音编辑器来看的话，波形就是下面的样子：

语音实际上是一个概率问题，从而意味着在一段连续的语音中，单词之间没有明显的分界，所以从语音到文字的转换永远不可能100% 正确，这其实颠覆了许多程序员的认知。作为程序员，大多数都在处理一就是一，二就是二的问题，而不是一有可能是一，也有可能是二的问题，而语音识别就是后者。

语音的构成

语音是一种连续的音频流，这个音频流是稳定状态与动态改变状态的叠加，在这种状态序列中，可以定义相似类别的声音或音素。对应于每个音素的波形的声学特性受许多因素影响——环境，扬声器，语音风格等。另外，协同发音（指的是一个音受前后相邻音的影响而发生变化，从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变，从而使得后一个音的频谱与其他条件下的频谱产生差异）的存在使得音素的感知与标准不一样，所以我们需要根据上下文来辨别音素。将一个音素划分为几个亚音素单元。如：数字“three”，音素的第一部分与在它之前的音素存在关联，中间部分是稳定的部分，而最后一部分则与下一个音素存在关联，这就是为什么在用HMM模型做语音识别时，选择音素的三状态HMM模型。上下文相关建模方法在建模时考虑了这一影响，从而使模型能更准确地描述语音，只考虑前一音的影响的称为双音素Bi-Phone，考虑前一音和后一音的影响的称为 3音素Tri-Phone，甚至4音素Qin-phones。
从计算角度出发，只检测3音素的一部分比把3音素作为整体考虑要有用的多，例如，现在你想创建一个3音素头部部分的检测器，那么你只需要一小部分（大约4000个）不同的短的声音检测器，我们称这些检测器为senones。一个senone的上下文依赖比单纯的左右上下文复杂得多，它是一个可以被决策树或者其他方式来定义的复杂函数。
音素phones构成亚单词单元，也就是音节syllables。音节是一个比较稳定的实体，因为当语音变得比较快的时候，音素往往会发生改变，但是音节却不变。音节与节奏语调的轮廓有关。有几种方式去产生音节：基于形态学或者基于语音学。音节经常在词汇语音识别中使用。
亚单词单元（音节）构成单词。单词在语音识别中很重要，因为单词约束了音素的组合。假如共有40个音素，然后每个单词平均有7个音素，那么就会存在40^7个单词，但幸运的是就算一个受过优等教育的人也很少使用过20k个单词，这就使识别变得可行。
单词和一些非语言学声音构成了话语（语句，utterances），我们把非语言学声音称为填充物（fillers），例如呼吸，um，uh，咳嗽等，它们在音频中是以停顿做分离的。所以它们更多只是语义上面的概念，不算是一个句子。

识别过程

语音识别一般的方法是：录制语音波形，再把波形通过静音（语句之间的间断，silences）分割为多个语句，然后去识别每个语句所表达的意思。为了达到这个目的，我们需要用单词的所有可能组合去匹配这段音频，然后选择匹配度最高的组合。
在匹配中有几个关键的概念需要了解的：

特征
由于描述一个语音需要的参数个数非常多，这样对处理速度的要求就很高（而且也没必要处理那么多的信息，我们只需要处理对识别有帮助的就行），所以我们需要做优化，进行降维。我们用帧frames去分割语音波形，每帧大概10ms，然后每帧提取可以代表该帧语音的39个数字，这39个数字也就是该帧语音的特征，用特征向量来表示。而如何提取特征向量是当下热门的研究课题，不过简单说来，这些提取方法都是由频谱衍生出来的。
模型
模型是用来描述一些数学对象的。这些数学对象描述了一些口语的共同属性。在实际应用中，senone的音频模型就是三态高斯混合模型。简单的说，它就是一个最有可能的特征向量。对于模型，有几个问题需要考虑：模型到底多大程度上可以描述实际情况？在模型本身的局限情况下模型能表现得更优吗？自适应模型如何改变条件？
经典的语言模型称为隐马尔科夫模型（Hidden Markov Model, HMM），在该模型中，过程被描述为以一定概率彼此改变的状态序列。此模型旨在描述任何顺序过程，如语音。 HMM已被证明对语音解码非常实用。
匹配算法
语音识别需要对所有的特征向量和所有的模型做比较匹配，这是一个非常耗时的工作。而在这方面的优化往往是使用一些技巧，在每一点的匹配时，我们通过保留最好的匹配变体（variants），然后通过它在下一帧产生最好的匹配变体。

模型

根据语音结构，在语音识别中需要用到三种模型：

声学模型
一个声学模型包含每个senone的声学属性，包括不依赖上下文的模型和依赖上下文的模型。其中不依赖上下文的模型包括不依赖于上下文的属性（每个音素最大可能的特征向量），而依赖上下文的模型包括依赖于上下文的属性（根据上下文构建的senone）。
语音学字典
语音学字典包含了从单词到音素之间的映射，这种映射并不是十分有效，例如，在字典中只标注了两到三个发音变体，但是这种方法在大多数时候够用。字典并不是描述单词到音素之间的映射的唯一方法。可以通过运用机器学习算法去学习得到一些复杂的函数去完成映射功能。
语言模型
语言模型是用来约束单词搜索的，它定义了哪些词能跟在上一个已经识别的词的后面（匹配是一个顺序的处理过程），这样就可以为匹配过程排除一些不可能的单词。最常用的语言模型是n-gram模型，它包含了单词序列的统计和有限状态模型，通过有限状态机来定义语音序列，有时候会加入权值。为了达到比较好的识别准确率，语言模型必须能够很好的约束空间搜索，也就是说可以更好的预测下一个词。语言模型是约束词汇包含的单词的，这就出现一个问题，就是名字识别（因为名字可以随便由几个单词组成）。为了处理这种情况，语言模型可以包含更小的块，例如亚单词，甚至音素。但是这种情况，识别准确率将会低于基于单词的语言模型。
特征、模型和搜索算法三部分构成了一个语音识别系统。如果你需要识别不同的语言，那么就需要修改这三个部分。很多语言，都已经存在声学模型，字典，甚至大词汇量语言模型可供下载了。

其他概念

网格（Lattice）是一个代表识别变体的有向图。一般来说，很难去获得一个最好的语音匹配结果，所以Lattices就是一个比较好的格式去存放语音识别的中间结果。
N-best lists of variants和网格（lattice）有点像，但是它没有网格那么密集（也就是保留的结果没有网格多）。N-best搜索和多遍搜索：为在搜索中利用各种知识源，通常要进行多遍搜索，第一遍使用代价低的知识源（如声学模型、语言模型和音标词典），产生一个候选列表或词候选网格，在此基础上进行使用代价高的知识源（如4阶或5阶的N-Gram、4阶或更高的上下文相关模型）的第二遍搜索得到最佳路径。
单词混淆网络是从网格的边缘得到的一个严格的节点顺序序列。
语音数据库是一个从任务数据库得到的典型的录音集。如果我们开发的是一个对话的系统，那么数据库就是包含了多个用户的对话录音。而对于听写系统，包含的就是朗读的录音。语音数据库是用来训练，调整和测试解码系统的（也就是语音识别系统）。
文本数据库是为了训练语言模型而收集的文本，一般是以样本文本的方式来收集形成的。而收集过程存在一个问题就是误把PDFs, web pages, scans等现成文档也当成口语文本的形式放进数据库中。所以，我们就需要把这些文件里的标签和文件头去掉，还有把数字展开为它们的语音形式（例如1展开为英文的one或者汉语的yi），另外还需要把缩写给扩大还原为完整单词。

CMU Sphinx

简介

CMU Sphinx(简称Sphinx)是美国卡内基梅隆大学开发的一系列语音识别工具包以及相关工具（例如声学模型训练软件，语言模型编辑软件和语音词典CMUDICT等）的总称。在2000年，卡内基梅隆的Sphinx小组致力于开源几个语音识别器组件，包括Sphinx 2和后来的Sphinx 3（2001年）。Sphinx包括许多工具包，可以用于搭建具有不同需求的应用。

Pocketsphinx - 用C语言编写的轻量级的语音识别库；
Sphinxbase - Pocketsphinx的支撑库；
Sphinx4 - 用Java编写的自适应的，可修改的语音识别库；
Sphinxtrain - 声学模型训练软件；
现在最新的发布版本是：
sphinxbase-5prealpha
pocketsphinx - 5prealpha
sphinx4 - 5prealpha
sphinxtrain - 5prealpha
Sphinx除了是开源之外，还具有很多优势，可以自己定制声音模型，语言模型，语音学字典，用于多个不同的场景，例如语音搜索，语义分析，翻译，智能助手等。
如何选择你需要的工具包呢？
由于Sphinx有用不同的编程语言开发的工具包，所以开发者可以根据自己的习惯选择相应的语言识别包。
如果你想要快速和可携带性，那么选择pocketsphinx，如果你想要灵活和可管理，那么可以选择sphinx4.

Sphinx初体验

让我们先来用Sphinx自带的Pocketsphinx来体验一下Sphinx语音识别的效果吧。由于Pocketsphinx依赖于SphinxBase库（提供了公共的函数功能），所以需要同时安装SphinxBase和Pocketsphinx，Pocketsphinx才能正常工作。Pocketsphinx可以安装在Linux，windows，MacOS，iPhone和Android上，本文中我们将在windows上进行安装。

下载

sphinxbase下载页
pocketsphinx下载页

下载"sphinxbase-5prealpha-win32.zip"和“pocketsphinx-5prealpha-win32.zip”，并解压缩。

编译

编译Sphinxbase
用visual studio打开sphinxbase\sphinxbase.sln，编译所有项目，其中visual studio版本需要是MS Visual Studio 2012及以上，我使用的是visual studio 2017。由于编译版本不一样，在打开solution时，会弹出如下窗口，选择OK。

编译后的结果：
编译Pocketsphinx
用visual studio打开pocketsphinx\pocketsphinx.sln，编译所有项目。其他步骤与编译sphinxbase相同。编译结果如下：
拷贝sphinxbase.dll到上图中的文件夹中
在这个地方有个小trick，理论上应该是我们自己编译出spinxbase.dll之后进行拷贝，但是我们从网站上下载的pocketsphinx中，bin\Debug\Win32下自带拷贝好的sphinxbase.dll，当然你也可以把你编译好的dll重新拷贝覆盖掉之前的dll。提示：如果你编译了pocketsphinx，最好是把你编译的sphinxbase结果也复制过去，否则可能出现不匹配，造成程序如法运行。

运行

运行命令：
bin\Release\Win32\pocketsphinx_continuous.exe -inmic yes -hmm model\en-us\en-us -lm model\en-us\en-us.lm.bin -dict model\en-us\cmudict-en-us.dict

参数说明：

inmic：使用麦克风，如果使用file，修改为-infile
hmm：指定声学模型
lm：指定语言模型
dict：指定语言学字典

运行结果：你可以开始说话了，不过识别结果感人，暂时原因未知，还需要继续学习。

如果在命令行运行时，遇到如下错误：

其中MSVCR110D.dll是MSVCR110.dll的debug版本。如果遇到这个问题，说明你的phocketsphinx与sphinxbase不匹配，需要将编译好的sphinxbase结果复制过去。

下一篇 PocketSphinx在windows上的应用示例，开发工具Visual Studio