输入:text(所有录音的分词文本信息- 如果是自己的数据没有人工分词可能要提前jieba等工具分词一下)

输出:data/local/dict文件夹(含extra_questions.txt、lexicon.txt、silence_phones.txt、nonsilence_phones.txt、optional_silence.txt等文件)

local/prepare_dict.sh || exit 1;

流程:

1.处理自身数据集
- 获取数据集中所有单词【从text中获取】-> 生成words.txt
- 把整个数据集的单词分成ch和en两个词典 -> 生成words-{en,ch}.txt
2.生成【英文发音字典】,通过CMU字典生成lexicon-en.txt(格式:数据集中的英文单词 及其对应的拼音发音)
- Downloading CMU dictionary
- 格式化cmu字典(把字典中重音和发音标记去除)
- 生成words-en-oov.txt  (数据集中有,字典中没有的单词)
- 生成lexicon-en-iv.txt (数据集能在字典中取得的单词,及其对应的cmu音素)
- 下载安装g2p_model(单词到音素模型,用于转换oov)
- 生成lexicon-en-oov.txt (使用g2p_model生成,oov 及其对应的cmu因素 *由于words-en-oov中含有【VISA卡】这种中英文混用的单词会导致转换失败,会少21条数据,不知道对后面会不会有影响*)
- 生成lexicon-en-phn.txt (merge in-vocab and oov lexicon)
- 将cmu和拼音中无法转换的cmu音素替换成可以转换的因素

[语音识别] kaldi -- aidatatang_200zh脚本解析:词典准备相关推荐

  1. 语音识别kaldi该如何学习?

    我目前使用kaldi分成两块: hmm-gmm和神经网络. 学习kaldi的话,先从hmm-gmm入手比较好,像steps/train_delta.sh, steps/train_fmllr.sh, ...

  2. ns-3网络仿真(简易脚本解析)

    ns-3简易脚本解析 点对点有线网络(first.cc) 头文件 命名空间 NS_LOG_COMPONENT_DEFINE main()函数中的准备工作 创建网络拓扑 点对点有线网络(first.cc ...

  3. SteamVR脚本解析

    SteamVR各脚本的功能 SteamVR/Scripts/下脚本各功能的实现 Paste_Image.png 1.SteamVR.cs 单例管理类,管理SteamVR程序的运行和终止. 2.Stea ...

  4. 脚本解析photoshop文本属性

    尊重原创,转载请在文首注明出处:http://blog.csdn.net/cai612781/article/details/78072531 在做unity项目中,用到了psd2ngui插件来把ps ...

  5. ps脚本解析psd文本字号

    ps脚本解析psd中文本字号最简单的方法,通过DOM获取:var size = activeDocument.activeLayer.textItem.size; 但是当该文本被拉伸过后,DOM解析出 ...

  6. steamvr自定义按键_SteamVR脚本解析

    SteamVR各脚本的功能 SteamVR/Scripts/下脚本各功能的实现 Paste_Image.png 1.SteamVR.cs 单例管理类,管理SteamVR程序的运行和终止. 2.Stea ...

  7. [转载]SteamVR脚本解析

    Paste_Image.png 1.SteamVR.cs 单例管理类,管理SteamVR程序的运行和终止. 2.SteamVR_Camera.cs 给场景添加一个最基本可运行的SteamVR组. 3. ...

  8. 语音识别——kaldi - Online Audio Server(服务器客户端建立方法-旧版在线解码)

    文章目录 一.服务器客户端识别系统建立方法 1. Command line to start the **server**(服务器端启动方式): 1.1 Arguments are as follow ...

  9. Qt文档阅读笔记-编写应用脚本解析与实例

    目录 官方解析 博主例子 官方解析 编写应用脚本 Qt提供了JavaScript脚本对应用程序的支持.下面将全方位说明JavaScript在Qt中的应用. Scripting Classes 如下的类 ...

最新文章

  1. matlab球落点的数学建模,MATLAB数学建模:智能优化算法-人工鱼群算法
  2. Exchange 2010/2013 删除默认数据库
  3. php 删除文件时间,php删除文件后重建,文件创建时间(filectime)未变化怎么解决??...
  4. java编写通信录管理系统_Java 实现通讯录管理系统教程
  5. main(int argc,char *argv[ ],char *env)参数详解
  6. c语言健身房会员管理系统,健身房会员管理系统c#.net
  7. python词频统计之《哈姆雷特》_哈姆雷特词频统计,Hamlet
  8. Tomcat7下配置SSI,同时解决中文乱码问题
  9. 七easy网络陷阱上当
  10. 在c++和C中,malloc函数的头文件是什么?C头文件, <stdlib.h>;C++头文件, <cstdlib>
  11. DNF装备强化的算法分析与实现
  12. 解决nohup.out文件过大的方法
  13. 解决联想笔记本 FN键不起作用的方法
  14. python--列表、数组扁平化
  15. 我们怎么保证软件开发的质量?
  16. 论文笔记:Meta-attention for ViT-backed Continual Learning CVPR 2022
  17. 收音机设计与制作漫谈——高频电路之最优化
  18. [bzoj4816][Sdoi2017]数字表格 (反演+逆元)
  19. U812.0凭证冲销后前台不能删除问题
  20. termux配置python安装kali_安卓用termux安装kali linux教程

热门文章

  1. 厨房java_【ROM制作】java环境配置,厨房安装
  2. 基于SSM的疫情物业系统
  3. CSS 基础入门教程
  4. rsync同步远程主机目录,并通过md5校验目录
  5. ORA-7445(jtc_active_clint_init_ncomp_slots)错误
  6. Origin2017中如何鼠标拖动缩放图形
  7. 中国水果粉市场趋势报告、技术动态创新及市场预测
  8. 倍频器 CD4046 加74161
  9. 年度规划的一些创新想法
  10. 刚论文(四国军棋游戏软件)答辩完,发发牢骚