基于深度学习的中文语音识别系统框架

请输入测试拼音：ta1 mei2 you3 duo1 shao3 hao2 yan2 zhuang4 yu3 dan4 ta1 que4 ba3 ai4 qin1 ren2 ai4 jia1 ting2 ai4 zu3 guo2 ai4 jun1 dui4 wan2 mei3 de tong3 yi1 le qi3 lai2
她没有多少豪言壮语但她却把爱亲人爱家庭爱祖国爱军队完美地统一了起来请输入测试拼音：chu2 cai2 zheng4 bo1 gei3 liang3 qian1 san1 bai3 wan4 yuan2 jiao4 yu4 zi1 jin1 wai4 hai2 bo1 chu1 zhuan1 kuan3 si4 qian1 wu3 bai3 qi1 shi2 wan4 yuan2 xin1 jian4 zhong1 xiao3 xue2
除财政拨给两千三百万元教太资金外还拨出专款四千五百七十万元新建中小学请输入测试拼音：ke3 shi4 chang2 chang2 you3 ren2 gao4 su4 yao2 xian1 sheng1 shuo1 kan4 jian4 er4 xiao3 jie3 zai4 ka1 fei1 guan3 li3 he2 wang2 jun4 ye4 wo4 zhe shou3 yi1 zuo4 zuo4 shang4 ji3 ge4 zhong1 tou2
可是常常有人告诉姚先生说看见二小姐在咖啡馆里和王俊业握着族一坐坐上几个钟头

数据集

数据集采用了目前我能找到的所有中文免费数据，包括：thchs-30、aishell、primewords、st-cmd四个数据集，训练集总计大约450个小时，在实验过程中，使用thchs-30+aishell+st-cmd数据集对DFCNN声学模型进行训练，以64batch_size训练。

数据集

共计约430小时,相关链接：http://www.openslr.org/resources.php

st-cmd、primewords、Aishell、thchs30四个数据集，整理为相同格式，放于some_expriment\data_process\datalist中。包含了解压后数据的路径，以及训练所需的数据标注格式，其中prime数据没有区分训练集等，为我手工区分。各个数据集的数量（句）如下：

Name	train	dev	test
aishell	120098	14326	7176
primewords	40783	5046	5073
thchs-30	10000	893	2495
st-cmd	10000	600	2000

这是目前能找到的所有开源中文语料，如果还有希望大神能够留言提示。

基于深度学习的中文语音识别系统框架搭建相关推荐

基于深度学习的中文语音识别系统框架（pluse）
目录声学模型 GRU-CTC DFCNN DFSMN 语言模型 n-gram CBHG 数据集本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 声学模型 ...
语音识别——基于深度学习的中文语音识别系统框架
本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 该系统实现了基于深度框架的语音识别中的声学模型和语言模型建模,其中声学模型包括CNN-CTC.GRU-CT ...
语音识别——基于深度学习的中文语音识别tutorial（代码实践）
文章目录利用thchs30为例建立一个语音识别系统 1. 特征提取 2. 数据处理下载数据 2.1 生成音频文件和标签文件列表定义函数`source_get`,获取音频文件及标注文件列表确认相 ...
基于深度学习的中文车牌识别与管理系统（含UI界面，Python代码）
摘要:本文详细介绍基于深度学习的中文车牌识别与管理系统,在介绍算法原理的同时,给出Python的实现代码以及PyQt的UI界面.在界面中既可以选择需要识别的车牌视频.图片文件.批量图片进行检测识别,也 ...
【论文笔记】《基于深度学习的中文命名实体识别研究》阅读笔记
作者及其单位:北京邮电大学,张俊遥,2019年6月,硕士论文摘要实验数据:来源于网络公开的新闻文本数据:用随机欠采样和过采样的方法解决分类不均衡问题:使用BIO格式的标签识别5类命名实体,标注11 ...
基于深度学习算法的语音识别（华为云）
基于深度学习算法的语音识别训练完模型后可反复使用,训练时可以选购云环境,节省时间,本地除非你的服务器性能够强劲,本次教程基本上也是实验级别的,主要是看看代码,本次实验我的小米配置不行,就直接把代码写 ...
基于深度学习的车型识别系统（Python+清新界面+数据集）
摘要:基于深度学习的车型识别系统用于识别不同类型的车辆,应用YOLO V5算法根据不同尺寸大小区分和检测车辆,并统计各类型数量以辅助智能交通管理.本文详细介绍车型识别系统,在介绍算法原理的同时,给出P ...
PRP项目--基于深度学习的股票分析系统--立项
基于深度学习的股票分析系统一.项目介绍这个项目利用各种数据(消息,财报,日线,交易数据),建立深度学习模型,预测股票的趋势. 从科学的角度来说,这个项目不是很严肃,但我觉得应该还是比较有趣.我们也 ...
python dlib caffe人脸相似度_基于深度学习的人脸识别系统（Caffe+OpenCV+Dlib）【一】如何配置caffe属性表...
前言基于深度学习的人脸识别系统,一共用到了5个开源库:OpenCV(计算机视觉库).Caffe(深度学习库).Dlib(机器学习库).libfacedetection(人脸检测库).cudnn(gp ...

基于深度学习的中文语音识别系统框架搭建

基于深度学习的中文语音识别系统框架

文章目录

声学模型

GRU-CTC

DFCNN

DFSMN

语言模型

n-gram

CBHG

数据集

基于深度学习的中文语音识别系统框架搭建相关推荐

最新文章

热门文章