1.准备thchs30中文数据集

今天开始做语言模型啦,数据集采用的是清华大学的中文数据集thchs30,下载地址在http://www.openslr.org/18/ ,由于是在服务器做训练,以下步骤均采用shell语句进行。

1.1 在服务器上使用shell命令(wget -P 目录 网址)下载thchs30,并保存到指定文件(egs/thchs30/s5/thchs30-openslr)

wget –p egs/thchs30/s5/thchs30-openslr http://www.openslr.org/resources/18/data_thchs30.tgz

wget –p egs/thchs30/s5/thchs30-openslr http://www.openslr.org/resources/18/test-noise.tgz

wget –p egs/thchs30/s5/thchs30-openslr http://www.openslr.org/resources/18/test-noise.tgz

1.2解压在thchs30-openslr下

tar  -zxvf data_thchs30.tgz

tar  -zxvf test-noise.tgz

tar  -zxvf test-noise.tgz

2.修改脚本

2.1修改thchs30/s5文件夹下的cmd.sh:先找到s5 目录下的cmd.sh,右键编辑,将内容更改为:

export train_cmd=run.pl

export decode_cm="run.pl"

export mkgraph_cmd="run.pl "

export cuda_cmd="run.pl"

2.2修改thchs30/s5文件夹下的run.sh: 先找到s5 目录下的cmd.sh,右键编辑,将内容更改为:

n=2      #parallel jobs(根据cpu的个数来定)

thchs=***********/egs/thchs30/s5/thchs30-openslr (中文数据集的文件路径)

3.开始语言模型训练

Shell语句cd到s5,运行run.sh:

cd  ***********/egs/thchs30/s5./

./run.sh

4.总结

以下主要针对run.sh脚本命令及结果进行解读,这个过程主要是:数据准备,特征提取,monophone单音素训练, tri1三因素训练, trib2进行lda_mllt特征变换,trib3进行sat自然语言适应,trib4做quick,后面就是dnn了。目前我只跑到了monophone单音素训练,因此只讲解到monophone单音素训练,后续过程以后再讲。

4.1数据准备

4.2特征提取

梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC),对于语音特征参数MFCC提取过程详解,有一位博主写的很详细,这里就不详述了,链接为:https://my.oschina.net/jamesju/blog/193343

4.3准备发音词典和训练语言模型

4.4训练monophone模型和解码

train_mono.sh用法和其中的参数设置,训练单音素的基础HMM模型,迭代40次,并按照realign_iters的次数对数据对齐。

thchs-30_decode.sh测试单音素模型,实际使用mkgraph.sh建立完全的识别网络,并输出一个有限状态转换器,最后使用decode.sh以语言模型和测试数据为输入计算WER.

kaldi中文语音识别thchs30模型训练相关推荐

  1. kaldi中文语音识别(1)

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/zyziszy/article/details/82919957 </div><li ...

  2. kaldi中文语音识别_基于thchs30(7)

    接上回,mfcc特征咱们暂时看完了,总结一下,此处引用别人的分析: 特征提取 MFCC compute-mfcc-feats.cc Create MFCC feature files. Usage: ...

  3. kaldi中文语音识别_基于thchs30(3)

    接上回,我们继续看run.sh #you can obtain the database by uncommting the following lines #[ -d $thchs ] || mkd ...

  4. Ubuntu下GloVe中文词向量模型训练

    开启美好的九月 最近在学习textCNN进行文本分类,然后随机生成向量构建embedding网络的分类效果不是很佳,便考虑训练Glove词向量来进行训练,整个过程还是有遇到一些问题,希望懂的旁友能来指 ...

  5. 基于Kaldi的语音识别

    cnblog: https://www.cnblogs.com/ye-buaascse/ 第二十九届"冯如杯"学生学术科技作 品竞赛项目论文 基于Kaldi的语音识别 摘要 近年来 ...

  6. AI周报丨中文巨量模型源1.0比GPT-3强在哪里?;谷歌用协同训练策略实现多个SOTA,单一ViT模型执行多模态多任务

    01 # 行业大事件 语言大模型的终极目标是什么? 在自然语言处理(NLP)领域,暴力美学仍在延续. 自 2018 年谷歌推出 BERT(3.4 亿参数)以来,语言模型开始朝着「大」演进.国内外先后出 ...

  7. (八)kaldi thchs30 单音素模型训练(line 62-68)

    概览 先把代码放在这里: #monophone steps/train_mono.sh --boost-silence 1.25 --nj $n --cmd "$train_cmd" ...

  8. 《kaldi语音识别实战》阅读笔记:三音素模型训练—train_deltas.sh解析

    一.使用说明 1.1 描述 训练三音素模型.与单音素模型训练相比,因为建模单元变为三音素,因此多了决策树状态绑定. steps/deltas.sh Usage: steps/train_deltas. ...

  9. kaldi上第一个免费的中文语音识别例子

    今天在清华大学cslt实验室王东老师的分享下,kaldi终于有了免费的中文语音识别的例子,网址为:https://github.com/kaldi-asr/kaldi/tree/master/egs/ ...

最新文章

  1. Linux进程控制——exec函数族
  2. 【设计模式】中介者模式 ( 简介 | 适用场景 | 优缺点 | 代码示例 )
  3. 开启iOS自动化测试之门
  4. Jsch ssh登陆
  5. 【大二在读】说说我对“软件工程”的理解
  6. 利用JS实现复制/粘贴功能
  7. 机器学习-分类之多层感知机原理及实战
  8. json类的解析,调试实例
  9. python列表添加元素的三种方法定义集合数据对象_(1) List,tuple,dictionary,Python语法基础集,一,之,列表,元组,字典,集合...
  10. python逻辑回归代码_Logistic 逻辑回归及 python 实现
  11. mysql large pages_Innodb内存管理解析
  12. C++中的临时对象都是const类型
  13. 李佳琦618直播清单都在这张思维导图上了
  14. Myeclipse自定义包自动加入
  15. NFine框架因新增页面而显示无法链接资源
  16. 编写一个函数,输入n为偶数时,调用函数求1/2+1/4+…+1/n,当输入n为奇数时,调用函数求1/1+1/3+…+1/n
  17. Laravel验证器的使用
  18. Anntec ZKUXFT XT2 FGPA卡DPDK使用方法
  19. 博士申请 | 香港大学赵恒爽老师招收CV/ML/AI方向全奖博士/博后/RA
  20. Nginx 简介和安装

热门文章

  1. 导之以行——儿子喝酸奶篇
  2. vuejs实现购物车满多少减多少
  3. 2016全球大数据战略版图剖析(7):跨基础设施/分析篇
  4. 笔记本计算机回收站在哪里,电脑回收站不见了怎么办 四种方法教你快速解决问题【图文教程】...
  5. xp如何添加桌面计算机回收站,WinXP如何找到回收站图标?
  6. FFA 2021 专场解读 - 平台建设
  7. 【论文解读】文本分类上分利器:Bert微调trick大全
  8. php手册3.1,thinkphp3.1手册下载|thinkphp3.1手册(thinkphp3.1开发手册chm版下载)_星星软件园...
  9. 《IT项目经理成长手记》读后感
  10. PMS权限管理和鉴权过程