ASRT语音识别项目

转自：https://www.zhihu.com/question/23473262/answer/812989806

作者：zahet
链接：https://www.zhihu.com/question/23473262/answer/812989806
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

开源的语音识别首先推荐的当然就是ASRT语音识别项目

这是一个基于中文的语音识别开源项目，GitHub地址为：

nl8590687/ASRT_SpeechRecognitiongithub.com

项目主页：https://asrt.ailemon.me

ASRT是一套基于深度学习实现的语音识别系统，全称为Auto Speech Recognition Tool，由AI柠檬博主开发并在GitHub上开源(GPL 3.0协议)。本项目声学模型通过采用卷积神经网络（CNN）和连接性时序分类（CTC）方法，使用大量中文语音数据集进行训练，将声音转录为中文拼音，并通过语言模型，将拼音序列转换为中文文本。算法模型在测试集上已经获得了80%的正确率。基于该模型，在Windows平台上实现了一个基于ASRT的语音识别应用软件，取得了较好应用效果。这个应用软件包含Windows 10 UWP商店应用和Windows 版.Net平台桌面应用，也一起开源在GitHub上了。

ASRT语音识别系统的声学模型采用了深度全卷积神经网络，直接将语谱图作为输入。模型结构上，借鉴了图像识别中效果最好的网络配置VGG，这种网络模型有着很强的表达能力，可以看到非常长的历史和未来信息，相比RNN在鲁棒性上更出色。在输出端，这种模型可以和CTC方案可以完美结合，以实现整个模型的端到端训练，将声音波形信号直接转录为中文普通话拼音序列。在语言模型上，通过最大熵隐含马尔可夫模型，将拼音序列转换为中文文本。并且，为了通过网络提供服务给所有的用户，本项目还使用了Python的HTTP协议基础服务器包，提供基于网络HTTP协议的语音识别API，客户端软件通过网络，调用该API实现语音识别功能。

系统的流程

特征提取

将普通的wav语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号，即语谱图。

声学模型

基于Keras和TensorFlow框架，使用这种参考了VGG的深层的卷积神经网络作为网络模型，并训练。

CTC解码 在语音识别系统的声学模型的输出中，往往包含了大量连续重复的符号，因此，我们需要将连续相同的符合合并为同一个符号，然后再去除静音分隔标记符，得到最终实际的语音拼音符号序列。

语言模型 使用统计语言模型，将拼音转换为最终的识别文本并输出。拼音转文本的本质被建模为一条隐含马尔可夫链，这种模型有着很高的准确率。

其原理请看：

统计语言模型：从中文拼音到文本 | AI柠檬blog.ailemon.me

基于HTTP协议的API接口

本项目使用了Python内置的http.server包来实现了一个基础的基于http协议的API服务器。通过将声学模型和语言模型连接起来，使用该服务器程序，可以直接实现一个简单的API服务器，通过POST方式进行数据交互。

客户端

本项目的客户端分为两种，均为Windows客户端，一个是UWP客户端，另一个是WPF客户端，源码均需要使用VS2017来开发和编译，使用C#和XAML编写。项目包含有界面逻辑和录音模块、语音识别API调用模块，并包含对wav文件的raw格式进行的解析。

关于ASRT语音识别的详细介绍：

ASRT：一个中文语音识别系统blog.ailemon.me

GitHub地址：