[语音识别] kaldi -- aidatatang_200zh脚本解析:词典准备
输入:text(所有录音的分词文本信息- 如果是自己的数据没有人工分词可能要提前jieba等工具分词一下)
输出:data/local/dict文件夹(含extra_questions.txt、lexicon.txt、silence_phones.txt、nonsilence_phones.txt、optional_silence.txt等文件)
local/prepare_dict.sh || exit 1;
流程:
1.处理自身数据集
- 获取数据集中所有单词【从text中获取】-> 生成words.txt
- 把整个数据集的单词分成ch和en两个词典 -> 生成words-{en,ch}.txt
2.生成【英文发音字典】,通过CMU字典生成lexicon-en.txt(格式:数据集中的英文单词 及其对应的拼音发音)
- Downloading CMU dictionary
- 格式化cmu字典(把字典中重音和发音标记去除)
- 生成words-en-oov.txt (数据集中有,字典中没有的单词)
- 生成lexicon-en-iv.txt (数据集能在字典中取得的单词,及其对应的cmu音素)
- 下载安装g2p_model(单词到音素模型,用于转换oov)
- 生成lexicon-en-oov.txt (使用g2p_model生成,oov 及其对应的cmu因素 *由于words-en-oov中含有【VISA卡】这种中英文混用的单词会导致转换失败,会少21条数据,不知道对后面会不会有影响*)
- 生成lexicon-en-phn.txt (merge in-vocab and oov lexicon)
- 将cmu和拼音中无法转换的cmu音素替换成可以转换的因素
[语音识别] kaldi -- aidatatang_200zh脚本解析:词典准备相关推荐
- 语音识别kaldi该如何学习?
我目前使用kaldi分成两块: hmm-gmm和神经网络. 学习kaldi的话,先从hmm-gmm入手比较好,像steps/train_delta.sh, steps/train_fmllr.sh, ...
- ns-3网络仿真(简易脚本解析)
ns-3简易脚本解析 点对点有线网络(first.cc) 头文件 命名空间 NS_LOG_COMPONENT_DEFINE main()函数中的准备工作 创建网络拓扑 点对点有线网络(first.cc ...
- SteamVR脚本解析
SteamVR各脚本的功能 SteamVR/Scripts/下脚本各功能的实现 Paste_Image.png 1.SteamVR.cs 单例管理类,管理SteamVR程序的运行和终止. 2.Stea ...
- 脚本解析photoshop文本属性
尊重原创,转载请在文首注明出处:http://blog.csdn.net/cai612781/article/details/78072531 在做unity项目中,用到了psd2ngui插件来把ps ...
- ps脚本解析psd文本字号
ps脚本解析psd中文本字号最简单的方法,通过DOM获取:var size = activeDocument.activeLayer.textItem.size; 但是当该文本被拉伸过后,DOM解析出 ...
- steamvr自定义按键_SteamVR脚本解析
SteamVR各脚本的功能 SteamVR/Scripts/下脚本各功能的实现 Paste_Image.png 1.SteamVR.cs 单例管理类,管理SteamVR程序的运行和终止. 2.Stea ...
- [转载]SteamVR脚本解析
Paste_Image.png 1.SteamVR.cs 单例管理类,管理SteamVR程序的运行和终止. 2.SteamVR_Camera.cs 给场景添加一个最基本可运行的SteamVR组. 3. ...
- 语音识别——kaldi - Online Audio Server(服务器客户端建立方法-旧版在线解码)
文章目录 一.服务器客户端识别系统建立方法 1. Command line to start the **server**(服务器端启动方式): 1.1 Arguments are as follow ...
- Qt文档阅读笔记-编写应用脚本解析与实例
目录 官方解析 博主例子 官方解析 编写应用脚本 Qt提供了JavaScript脚本对应用程序的支持.下面将全方位说明JavaScript在Qt中的应用. Scripting Classes 如下的类 ...
最新文章
- matlab球落点的数学建模,MATLAB数学建模:智能优化算法-人工鱼群算法
- Exchange 2010/2013 删除默认数据库
- php 删除文件时间,php删除文件后重建,文件创建时间(filectime)未变化怎么解决??...
- java编写通信录管理系统_Java 实现通讯录管理系统教程
- main(int argc,char *argv[ ],char *env)参数详解
- c语言健身房会员管理系统,健身房会员管理系统c#.net
- python词频统计之《哈姆雷特》_哈姆雷特词频统计,Hamlet
- Tomcat7下配置SSI,同时解决中文乱码问题
- 七easy网络陷阱上当
- 在c++和C中,malloc函数的头文件是什么?C头文件, <stdlib.h>;C++头文件, <cstdlib>
- DNF装备强化的算法分析与实现
- 解决nohup.out文件过大的方法
- 解决联想笔记本 FN键不起作用的方法
- python--列表、数组扁平化
- 我们怎么保证软件开发的质量?
- 论文笔记:Meta-attention for ViT-backed Continual Learning CVPR 2022
- 收音机设计与制作漫谈——高频电路之最优化
- [bzoj4816][Sdoi2017]数字表格 (反演+逆元)
- U812.0凭证冲销后前台不能删除问题
- termux配置python安装kali_安卓用termux安装kali linux教程