ASRT 是一套基于深度学习实现的系统,全称为 Auto Speech Recognition Tool,由 AI 柠檬博主开发并在 GitHub 上开源(GPL 3.0 协议)。本项目声学模型通过采用(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过,将拼音序列转换为中文文本。基于该模型,作者在 Windows 平台上实现了一个基于 ASRT 的语音识别应用软件它同样也在 GitHub 上开源了。

ASRT 项目主页:https://asrt.ailemon.me

GitHub 项目地址:https://github.com/nl8590687/ASRT_SpeechRecognition

这个开源项目主要用于语音识别的研究,作者希望它可以一步步发展为极高准确率的 ASR 系统。此外,因为模型和训练代码都是开源的,所以能节省开发者很多时间。同样,如果开发者想要根据需求修改这个项目,那也非常简单,因为 ASRT 的代码都是经过高度封装的,所有模块都是可以自定义的。如下展示了该项目的一些特征:

系统流程

特征提取:将普通的 wav 语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,即语谱图。

声学模型:基于 Keras 和TensorFlow框架,使用这种参考了VGG的深层的 卷积神经网络 作为网络模型,并训练。

CTC 解码:在语音识别系统的声学模型输出中,往往包含了大量连续重复的符号,因此,我们需要将连续相同的符号合并为同一个符号,然后再去除静音分隔标记符,得到最终实际的语音拼音符号序列。

语言模型:使用统计语言模型,将拼音转换为最终的识别文本并输出。拼音转文本本质被建模为一条隐含马尔可夫链,这种模型有着很高的准确率。

使用流程

如果读者希望直接使用预训练的中文语音识别系统,那么直接下载 Release 的文件并运行就好了:

下载地址:https://github.com/nl8590687/ASRT_SpeechRecognition/releases/tag/v0.4.2

如果读者希望修改某些模块,或者在新的数据集上进行训练,那么我们可以复制整个项目到本地,再做进一步处理。首先我们通过 Git 将本项目复制到本地,并下载训练所需要的数据集。作者在项目 README 文件中提供了两个数据集,即清华大学 THCHS30 中文语音数据集和 AIShell-1 开源版数据集。

$ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git

THCHS30 和 ST-CMDS 国内下载镜像:http://cn-mirror.openslr.org/

在下载数据集后,我们需要将 datalist 目录下的所有文件复制到 dataset 目录下,也就是将其与数据集放在一起:

$ cp -rf datalist/* dataset/

在开始训练前,我们还需要安装一些依赖库:

python_speech_features

TensorFlow

Keras

wave

当然,其它如 NumPy、Matplotlib、Scipy 和 h5py 等常见的科学计算库也都是需要的。一般有这些包后,环境应该是没什么问题的,有问题也可以根据报错安装对应缺少的库。

训练模型可以执行命令行:

$ python3 train_mspeech.py

测试模型效果可以运行:

$ python3 test_mspeech.py

测试之前,请确保代码中填写的模型文件路径存在。最后,更多的用法和特点可以查看原 GitHub 项目和文档。

python语音库_绝佳的ASR学习方案:这是一套开源的中文语音识别系统相关推荐

  1. github上能找到中文博主吗_绝佳的ASR学习方案:这是一套开源的中文语音识别系统...

    语音识别目前已经广泛应用于各种领域,那么你会想做一个自己的语音识别系统吗?这篇文章介绍了一种开源的中文语音识别系统,读者可以借助它快速训练属于自己的中文语音识别模型,或直接使用预训练模型测试效果.所以 ...

  2. 绝佳的ASR学习方案:这是一套开源的中文语音识别系统

    ASRT 是一套基于深度学习实现的语音识别系统,全称为 Auto Speech Recognition Tool,由 AI 柠檬博主开发并在 GitHub 上开源(GPL 3.0 协议).本项目声学模 ...

  3. python语音库_介绍几个python的音频处理库

    图 3比如我的机器的地址就是 192.168.152.130.然后将这个ip地址填入 图2 的Host Name 一栏,注意默认端口为22,不要去改它,然后点击open,就会弹出一个登陆界面,接着输入 ...

  4. python机器人库_机器人之实战深度学习(上)OpenCV库

    本文主要向大家介绍了机器人之实战深度学习(上)OpenCV库,通过具体的内容向大家展现,希望对大家学习机器人有所帮助. 在如今人工智能的浪潮下,无数模拟机器学习和深度学习的开发者工具倍出,其中在计算机 ...

  5. python语音建模_该系统实现了基于深度框架的语音识别中的声学模型和语言模型建模...

    基于深度学习的中文语音识别系统 如果觉得有用的话,小手给个star吧~ 注意:本人于近期想对该项目进行翻新,tf现在已经将keras作为重要的一部分,因此可能将代码用TensorFlow2来进行修改. ...

  6. 开源(离线)中文语音识别ASR(语音转文本)工具整理

    开源(离线)中文语音识别ASR(语音转文本)工具整理 目录 文章目录 目录 @[toc] open ai 的开源工具:whisper whisper介绍 引用 ASRT语音识别项目 ASRT介绍 引用 ...

  7. python语音特征提取_使用Python从视频中提取语音

    python语音特征提取 In this post, I will show you how to extract speeches from a video recording file. Afte ...

  8. python gis库_使用开放的python库自动化GIS和遥感工作流

    python gis库 Over my career I've worked on many geospatial related projects using the ArcGIS platform ...

  9. python并行运算库_最佳并行绘图Python库简介:“ HiPlot”

    python并行运算库 HiPlot is Facebook's Python library to support visualization of high-dimensional data ta ...

最新文章

  1. 给Nginx配置一个自签名的SSL证书
  2. 【Asp.Net】得到http请求中的参数语句
  3. Python两个内置函数——locals 和globals
  4. 计算机里的音乐都是什么名字,PAPI
  5. 实例介绍Cocos2d-x开关菜单
  6. Linux环境编程之同步(四):Posix信号量
  7. 每天20分钟,只需一年,一年级学生英语听力达到六年级水平!关键是坚持一点都不难!
  8. 孙丕恕:应把云计算大数据融在一起 降低社会运营成本
  9. Go range实现原理及性能优化剖析
  10. 从JSON示例数据生成Web应用程序代码
  11. struct与class的区别
  12. 新书榜TOP 20占了17位!榜单里有哪些值得入手的技术新书?
  13. Sketch中文版教程,已加星标的更新如何使用?什么是Sketch星标功能?
  14. 微信小程序 页面递归生成
  15. jlink6.80a烧写序列号(serial number)问题记录
  16. 如何通过Filter过滤敏感词汇
  17. SAP S4 OP/Cloud大乱斗(转载)
  18. linux磁盘组修复,Linux磁盘坏道的检测及修复
  19. 【Novel AI】基于Koishi的QQ群配置AI绘图机器人方法
  20. 工欲善其事,必先利其器!idea最详细的Debug技巧及方法,让你定位bug如探囊取物!

热门文章

  1. jQuery $.ajax传递数组的traditional参数传递必须true
  2. traditional: true异步请求后台接收不到参数需要将这个属性修改为true,默认为false
  3. 十进制转换十六进制Java实现
  4. Java 探针技术:java agent
  5. 网易无规则生存人数最多服务器,绝地求生拿下六项吉尼斯世界纪录:同时在线人数最多的游戏...
  6. ubuntu18关闭系统自动更新
  7. 一个网络主播,每个月能赚多少钱
  8. int与char[]的相互转换
  9. Mybatis常见的注解
  10. linux中less命令详解,linux中的less命令的详细解释