kaldi中文语音识别thchs30模型训练
1.准备thchs30中文数据集
今天开始做语言模型啦,数据集采用的是清华大学的中文数据集thchs30,下载地址在http://www.openslr.org/18/ ,由于是在服务器做训练,以下步骤均采用shell语句进行。
1.1 在服务器上使用shell命令(wget -P 目录 网址)下载thchs30,并保存到指定文件(egs/thchs30/s5/thchs30-openslr)
wget –p egs/thchs30/s5/thchs30-openslr http://www.openslr.org/resources/18/data_thchs30.tgz |
wget –p egs/thchs30/s5/thchs30-openslr http://www.openslr.org/resources/18/test-noise.tgz |
wget –p egs/thchs30/s5/thchs30-openslr http://www.openslr.org/resources/18/test-noise.tgz |
1.2解压在thchs30-openslr下
tar -zxvf data_thchs30.tgz |
tar -zxvf test-noise.tgz |
tar -zxvf test-noise.tgz |
2.修改脚本
2.1修改thchs30/s5文件夹下的cmd.sh:先找到s5 目录下的cmd.sh,右键编辑,将内容更改为:
export train_cmd=run.pl export decode_cm="run.pl" export mkgraph_cmd="run.pl " export cuda_cmd="run.pl" |
2.2修改thchs30/s5文件夹下的run.sh: 先找到s5 目录下的cmd.sh,右键编辑,将内容更改为:
n=2 #parallel jobs(根据cpu的个数来定) |
thchs=***********/egs/thchs30/s5/thchs30-openslr (中文数据集的文件路径) |
3.开始语言模型训练
Shell语句cd到s5,运行run.sh:
cd ***********/egs/thchs30/s5./ |
./run.sh |
4.总结
以下主要针对run.sh脚本命令及结果进行解读,这个过程主要是:数据准备,特征提取,monophone单音素训练, tri1三因素训练, trib2进行lda_mllt特征变换,trib3进行sat自然语言适应,trib4做quick,后面就是dnn了。目前我只跑到了monophone单音素训练,因此只讲解到monophone单音素训练,后续过程以后再讲。
4.1数据准备
4.2特征提取
梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC),对于语音特征参数MFCC提取过程详解,有一位博主写的很详细,这里就不详述了,链接为:https://my.oschina.net/jamesju/blog/193343
4.3准备发音词典和训练语言模型
4.4训练monophone模型和解码
train_mono.sh用法和其中的参数设置,训练单音素的基础HMM模型,迭代40次,并按照realign_iters的次数对数据对齐。
thchs-30_decode.sh测试单音素模型,实际使用mkgraph.sh建立完全的识别网络,并输出一个有限状态转换器,最后使用decode.sh以语言模型和测试数据为输入计算WER.
kaldi中文语音识别thchs30模型训练相关推荐
- kaldi中文语音识别(1)
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/zyziszy/article/details/82919957 </div><li ...
- kaldi中文语音识别_基于thchs30(7)
接上回,mfcc特征咱们暂时看完了,总结一下,此处引用别人的分析: 特征提取 MFCC compute-mfcc-feats.cc Create MFCC feature files. Usage: ...
- kaldi中文语音识别_基于thchs30(3)
接上回,我们继续看run.sh #you can obtain the database by uncommting the following lines #[ -d $thchs ] || mkd ...
- Ubuntu下GloVe中文词向量模型训练
开启美好的九月 最近在学习textCNN进行文本分类,然后随机生成向量构建embedding网络的分类效果不是很佳,便考虑训练Glove词向量来进行训练,整个过程还是有遇到一些问题,希望懂的旁友能来指 ...
- 基于Kaldi的语音识别
cnblog: https://www.cnblogs.com/ye-buaascse/ 第二十九届"冯如杯"学生学术科技作 品竞赛项目论文 基于Kaldi的语音识别 摘要 近年来 ...
- AI周报丨中文巨量模型源1.0比GPT-3强在哪里?;谷歌用协同训练策略实现多个SOTA,单一ViT模型执行多模态多任务
01 # 行业大事件 语言大模型的终极目标是什么? 在自然语言处理(NLP)领域,暴力美学仍在延续. 自 2018 年谷歌推出 BERT(3.4 亿参数)以来,语言模型开始朝着「大」演进.国内外先后出 ...
- (八)kaldi thchs30 单音素模型训练(line 62-68)
概览 先把代码放在这里: #monophone steps/train_mono.sh --boost-silence 1.25 --nj $n --cmd "$train_cmd" ...
- 《kaldi语音识别实战》阅读笔记:三音素模型训练—train_deltas.sh解析
一.使用说明 1.1 描述 训练三音素模型.与单音素模型训练相比,因为建模单元变为三音素,因此多了决策树状态绑定. steps/deltas.sh Usage: steps/train_deltas. ...
- kaldi上第一个免费的中文语音识别例子
今天在清华大学cslt实验室王东老师的分享下,kaldi终于有了免费的中文语音识别的例子,网址为:https://github.com/kaldi-asr/kaldi/tree/master/egs/ ...
最新文章
- Linux进程控制——exec函数族
- 【设计模式】中介者模式 ( 简介 | 适用场景 | 优缺点 | 代码示例 )
- 开启iOS自动化测试之门
- Jsch ssh登陆
- 【大二在读】说说我对“软件工程”的理解
- 利用JS实现复制/粘贴功能
- 机器学习-分类之多层感知机原理及实战
- json类的解析,调试实例
- python列表添加元素的三种方法定义集合数据对象_(1) List,tuple,dictionary,Python语法基础集,一,之,列表,元组,字典,集合...
- python逻辑回归代码_Logistic 逻辑回归及 python 实现
- mysql large pages_Innodb内存管理解析
- C++中的临时对象都是const类型
- 李佳琦618直播清单都在这张思维导图上了
- Myeclipse自定义包自动加入
- NFine框架因新增页面而显示无法链接资源
- 编写一个函数,输入n为偶数时,调用函数求1/2+1/4+…+1/n,当输入n为奇数时,调用函数求1/1+1/3+…+1/n
- Laravel验证器的使用
- Anntec ZKUXFT XT2 FGPA卡DPDK使用方法
- 博士申请 | 香港大学赵恒爽老师招收CV/ML/AI方向全奖博士/博后/RA
- Nginx 简介和安装
热门文章
- 导之以行——儿子喝酸奶篇
- vuejs实现购物车满多少减多少
- 2016全球大数据战略版图剖析(7):跨基础设施/分析篇
- 笔记本计算机回收站在哪里,电脑回收站不见了怎么办 四种方法教你快速解决问题【图文教程】...
- xp如何添加桌面计算机回收站,WinXP如何找到回收站图标?
- FFA 2021 专场解读 - 平台建设
- 【论文解读】文本分类上分利器:Bert微调trick大全
- php手册3.1,thinkphp3.1手册下载|thinkphp3.1手册(thinkphp3.1开发手册chm版下载)_星星软件园...
- 《IT项目经理成长手记》读后感
- PMS权限管理和鉴权过程