ASRT 是一套基于深度学习实现的语音识别系统,全称为 Auto Speech Recognition Tool,由 AI 柠檬博主开发并在 GitHub 上开源(GPL 3.0 协议)。本项目声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。基于该模型,作者在 Windows 平台上实现了一个基于 ASRT 的语音识别应用软件它同样也在 GitHub 上开源了。ASRT 项目主页:https://asrt.ailemon.me

GitHub 项目地址:https://github.com/nl8590687/ASRT_SpeechRecognition

这个开源项目主要用于语音识别的研究,作者希望它可以一步步发展为极高准确率的 ASR 系统。此外,因为模型和训练代码都是开源的,所以能节省开发者很多时间。同样,如果开发者想要根据需求修改这个项目,那也非常简单,因为 ASRT 的代码都是经过高度封装的,所有模块都是可以自定义的。如下展示了该项目的一些特征:

系统流程

特征提取:将普通的 wav 语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,即语谱图。

声学模型:基于 Keras 和 TensorFlow 框架,使用这种参考了 VGG 的深层的卷积神经网络作为网络模型,并训练。

CTC 解码:在语音识别系统的声学模型输出中,往往包含了大量连续重复的符号,因此,我们需要将连续相同的符号合并为同一个符号,然后再去除静音分隔标记符,得到最终实际的语音拼音符号序列。

语言模型:使用统计语言模型,将拼音转换为最终的识别文本并输出。拼音转文本本质被建模为一条隐含马尔可夫链,这种模型有着很高的准确率。

使用流程

如果读者希望直接使用预训练的中文语音识别系统,那么直接下载 Release 的文件并运行就好了:

下载地址:https://github.com/nl8590687/ASRT_SpeechRecognition/releases/tag/v0.4.2

如果读者希望修改某些模块,或者在新的数据集上进行训练,那么我们可以复制整个项目到本地,再做进一步处理。首先我们通过 Git 将本项目复制到本地,并下载训练所需要的数据集。作者在项目 README 文件中提供了两个数据集,即清华大学 THCHS30 中文语音数据集和 AIShell-1 开源版数据集。$ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git

THCHS30 和 ST-CMDS 国内下载镜像:http://cn-mirror.openslr.org/

在下载数据集后,我们需要将 datalist 目录下的所有文件复制到 dataset 目录下,也就是将其与数据集放在一起:$ cp -rf datalist/* dataset/

在开始训练前,我们还需要安装一些依赖库:python_speech_features

TensorFlow

Keras

wave

当然,其它如 NumPy、Matplotlib、Scipy 和 h5py 等常见的科学计算库也都是需要的。一般有这些包后,环境应该是没什么问题的,有问题也可以根据报错安装对应缺少的库。

训练模型可以执行命令行:$ python3 train_mspeech.py

测试模型效果可以运行:$ python3 test_mspeech.py

测试之前,请确保代码中填写的模型文件路径存在。最后,更多的用法和特点可以查看原 GitHub 项目和文档。

绝佳的ASR学习方案:这是一套开源的中文语音识别系统相关推荐

  1. github上能找到中文博主吗_绝佳的ASR学习方案:这是一套开源的中文语音识别系统...

    语音识别目前已经广泛应用于各种领域,那么你会想做一个自己的语音识别系统吗?这篇文章介绍了一种开源的中文语音识别系统,读者可以借助它快速训练属于自己的中文语音识别模型,或直接使用预训练模型测试效果.所以 ...

  2. python语音库_绝佳的ASR学习方案:这是一套开源的中文语音识别系统

    ASRT 是一套基于深度学习实现的系统,全称为 Auto Speech Recognition Tool,由 AI 柠檬博主开发并在 GitHub 上开源(GPL 3.0 协议).本项目声学模型通过采 ...

  3. 开源(离线)中文语音识别ASR(语音转文本)工具整理

    开源(离线)中文语音识别ASR(语音转文本)工具整理 目录 文章目录 目录 @[toc] open ai 的开源工具:whisper whisper介绍 引用 ASRT语音识别项目 ASRT介绍 引用 ...

  4. 基于深度学习的中文语音识别系统框架(pluse)

    目录 声学模型 GRU-CTC DFCNN DFSMN 语言模型 n-gram CBHG 数据集 本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 声学模型 ...

  5. 基于深度学习的中文语音识别系统框架搭建

    基于深度学习的中文语音识别系统框架 转自@https://blog.csdn.net/chinatelecom08/article/details/82557715 本文搭建一个完整的中文语音识别系统 ...

  6. Python足够开一家语音识别公司的中文语音识别系统源码方案

    标题中开一家公司有些夸张,但是足够你用来学习练手了.对于刚开始接触语音领域的新人来说,如何学习入门是一个棘手的问题.那么今天我就在这里做一些如何入门的介绍和相关资料的推荐吧. 做语音识别主要需要学习这 ...

  7. 语音识别——基于深度学习的中文语音识别系统框架

    本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 该系统实现了基于深度框架的语音识别中的声学模型和语言模型建模,其中声学模型包括CNN-CTC.GRU-CT ...

  8. 腾讯AI足球队夺冠Kaggle竞赛,绝悟强化学习方案迁移至足球队

    12月30日,腾讯宣布其人工智能球队摘得首届谷歌足球Kaggle竞赛冠军.该冠军球队来自腾讯AI Lab研发的绝悟WeKick版本,凭借1785.8的总分在与全球顶级技术团队的竞技中以显著优势胜出. ...

  9. 实用的it知识学习_IT榜样 | 寇宇宸:认真听讲是学习知识的绝佳途径

    You never know your luck 优秀毕业生 寇宇宸 01 个人简介 ♬..♩~ ♫. ♪♫. ♪ ~ ♬..♩ 寇宇宸,男,汉族,辽宁省抚顺市人,共青团员,天津理工大学2020届优秀 ...

最新文章

  1. Linux中yum源配置及软件安装管理
  2. 显示服务器图片url,服务器上图片的url地址
  3. Good Bye G.cn
  4. MySQL为关联表添加数据
  5. 网易10万+课程迅速刷屏又迅速被封:“违规”背后的思考
  6. for循环十万条数据内存溢出_强如 Disruptor 也发生内存溢出?
  7. 社区团购战国七雄出场了
  8. 2021李宏毅机器学习课程笔记——Recurrent Neural Network
  9. Linux驱动开发经典书籍
  10. 安全测试 - XSS如何防御
  11. 易语言大漠透明图制作与使用
  12. 正确认识计算机专业,如何正确认识计算机科学与技术专业
  13. 视频录制后有噪音怎么办?教你简答几步去除视频噪音!
  14. 回溯法解决部落冲突问题
  15. 微信小程序实现分类列表
  16. composer搭建php框架,利用 Composer 一步一步构建自己的 PHP 框架(一)——基础准备...
  17. NET Framework合集
  18. jupyter–lab 配置文件jupyter_lab_config.py
  19. 联想安装Ubuntu16.04LTS(双系统)知识点汇总(六个小时才下好
  20. vsftpd的配置详解

热门文章

  1. 关于内存对齐介绍的比较好的一个文章
  2. 2013,HTML5将席卷国内互联网
  3. Flash捕神--swf seeker 下载试用版
  4. Linq在sharepoint中的查询
  5. CCF NOI1053 相似度
  6. ubuntu 搜狗输入法的安装
  7. (操作系统)系统调用
  8. windows 画图工具 —— mspaint 的使用
  9. Python web —— webbrowser + feedparser 网络爬虫刷博器
  10. 【学习 OpenCV】—— imgproc.hpp 核心api