六、改进现有的声学模型
本文主要描述了如何通过对声学模型做一些简单工作去改进语音识别。但需要注意的是,所谓的改进是不将系统针对特定人,而是是你提供的适应数据和模型的匹配。例如:可以适应你的声音使得口语较好的识别,或者也可以使用特定的录音环境,适应你的或者用户的口音等等。
arctic20.fileids 控制文件:记录我的语音文件(读arctic20.txt里面的句子的录音)的路径
arctic20.transcription 脚本文件:中文句子和语音文件的对应
arctic20.dic 字典文件:记录arctic20.txt里面的句子的因素组成
你确定吗
打开我的电脑,确定还是取消
关闭计算机,退出浏览器
你好吗?可以退出程序吗
返回上一页还是返回主菜单
放大还是缩小页面
今天的天气不错,不下雨
你喜欢听音乐吗,需要打开音乐播放器吗,听第几首歌
需要浏览图片,上一张还是下一张
我想看视频,有什么电影
打开系统设置,基本设置
进入主菜单,请控制,向左,向右,还是,向上,向下
arctic_0001
arctic_0002
arctic_0003
arctic_0004
arctic_0005
arctic_0006
arctic_0007
arctic_0008
arctic_0009
arctic_0010
arctic_0011
arctic_0012
(3)arctic20.transcription
<s> 你确定吗 </s> (arctic_0001)
<s> 打开我的电脑,确定还是取消 </s> (arctic_0002)
<s> 关闭计算机,退出浏览器 </s> (arctic_0003)
<s> 你好吗?可以退出程序吗 </s> (arctic_0004)
<s> 返回上一页还是返回主菜单 </s> (arctic_0005)
<s> 放大还是缩小页面 </s> (arctic_0006)
<s> 今天的天气不错,不下雨 </s> (arctic_0007)
<s> 你喜欢听音乐吗,需要打开音乐播放器吗,听第几首歌 </s> (arctic_0008)
<s> 需要浏览图片,上一张还是下一张 </s> (arctic_0009)
<s> 我想看视频,有什么电影 </s> (arctic_0010)
<s> 打开系统设置,基本设置 </s> (arctic_0011)
<s> 进入主菜单,请控制,向左,向右,还是,向上,向下 </s> (arctic_0012)
(4)arctic20.dic字典文件:
你确定吗 n i q uxe d ing m a
打开我的电脑,确定还是取消 d a k ai w o d e d ian n aoq uxe d ing h ai sh ibq ux x i ao
关闭计算机,退出浏览器 g uan b i j i s uan j i t ui ch u l iu l an q i
你好吗?可以退出程序吗 n i h ao m a k e y i t ui ch u ch engx ux m a
返回上一页还是返回主菜单 f an h ui sh ang y i y e h aish ib f an h ui zh u c ai d an
放大还是缩小页面 f ang d a h ai sh ib s uo x iao y e m ian
今天的天气不错,不下雨 j in t ian d e t ian q i b u c uo b u x ia y u
你喜欢听音乐吗,需要打开音乐播放器吗,听第几首歌 n i x i h uan t ing y iny uxs uxe m a x ux y ao d a k ai y in y uxe b o f ang q i m a t ing d i j i sh ou g e
需要浏览图片,上一张还是下一张 x ux y ao l iu l an t u p ian sh ang y i zh ang h ai sh i x ia y i zh ang
我想看视频,有什么电影 w o x iang k an sh i p in y ou sh en m e d ian y ing
打开系统设置,基本设置 d a k ai x i t ong sh ezh ib j i b en sh e zh ib
进入主菜单,请控制,向左,向右,还是,向上,向下 j in r u zh u c ai d an q ing k ong zh ib x iang z uo x iang y ou h ai sh i x iang sh ang x iang x ia
2.录制你的适应数据
for i in `seq 1 12`; dofn=`printf arctic_%04d $i`;read sent; echo $sent;rec -r 16000 -e signed-integer -b 16 -c 1 $fn.wav 2>/dev/null;
done < arctic20.txt
#apt-get install sox
#chmod 777 rec_wav.sh
#./rec_wav.sh
for i in *.wav; do play $i; done
#cp -a /usr/local/share/pocketsphinx/model/hmm/zh/tdt_sc_8k/ .
2.生成声学特征文件
#sphinx_fe -argfile tdt_sc_8k/feat.params -samprate 16000 -c arctic20.fileids -di . -do . -ei wav -eo mfc -mswav yes
3.转化sendump和mdef文件
#cp ../sourcecode/pocketsphinx-extra/model/hmm/zh/mandarin_sc3_notone_3s_8k.cd_semi_5000/mixture_weights tdt_sc_8k/
#pocketsphinx_mdef_convert -text tdt_sc_8k/mdef tdt_sc_8k/mdef.txt
4.累加观察序列
#cp ../sourcecode/sphinxtrain-1.0.7/bin.i686-pc-linux-gnu/bw .
#cp ../sourcecode/sphinxtrain-1.0.7/bin.i686-pc-linux-gnu/mk_s2sendump .
#cp ../sourcecode/sphinxtrain-1.0.7/bin.i686-pc-linux-gnu/map_adapt .
#cp ../sourcecode/sphinxtrain-1.0.7/bin.i686-pc-linux-gnu/mllr_solve .
./bw -hmmdir tdt_sc_8k -moddeffn tdt_sc_8k/mdef.txt -ts2cbfn .semi. -feat 1s_c_d_dd -svspec 0-12/13-25/26-38 -cmn current -agc none -dictfn arctic20.dic -ctlfn arctic20.fileids -lsnfn arctic20.transcription -accumdir .
5.创建MLLR(最大似然线性回归算法)变换
#./mllr_solve -meanfn tdt_sc_8k/means -varfn tdt_sc_8k/variances -outmllrfn mllr_matrix -accumdir .
6.通过MAP更新声学模型
#cp tdt_sc_8k/ -rf tdt_sc_8kadapt
#./map_adapt -meanfn tdt_sc_8k/means -varfn tdt_sc_8k/variances -mixwfn tdt_sc_8k/mixture_weights -tmatfn tdt_sc_8k/transition_matrices -accumdir . -mapmeanfn tdt_sc_8kadapt/means -mapvarfn tdt_sc_8kadapt/variances -mapmixwfn tdt_sc_8kadapt/mixture_weights -maptmatfn tdt_sc_8kadapt/transition_matrices
7.重新创建适应的sendump文件
#./mk_s2sendump -pocketsphinx yes -moddeffn tdt_sc_8kadapt/mdef.txt -mixwfn tdt_sc_8kadapt/mixture_weights -sendumpfn tdt_sc_8kadapt/sendump
8.拷贝到我们的软件目录
#pocketsphinx_continuous -hmm <your_new_model_folder> -lm <your_lm> -dict <your_dict>
六、改进现有的声学模型相关推荐
- Ajax 改造,第 3 部分: 用 jQuery、Ajax 选项卡和照片 carousel 改进现有的站点
关于本文 Ajax 资源中心 请访问 Ajax 资源中心,这是有关 Ajax 编程模型信息的一站式中心,包括很多文档.教程.论坛.blog.wiki 和新闻.任何 Ajax 的新信息都能在这里找到. ...
- Ajax 改造,第 1 部分: 使用 Ajax 和 jQuery 改进现有站点
Ajax 技术改变了大型商业 Web 应用程序的外观,但是许多较小的 Web 站点都不具备足够的资源重新构建完整的用户界面(UI).Ajax 的一些新特性能够解决实际中的界面问题并改善用户体验.本文将 ...
- PocketSphinx语音识别系统语言模型的训练和声学模型的改进
PocketSphinx语音识别系统语言模型的训练和声学模型的改进 zouxy09@qq.com http://blog.csdn.net/zouxy09 关于语音识别的基础知识和sphinx的知识, ...
- [转]PocketSphinx语音识别系统语言模型的训练和声学模型的改进
PocketSphinx语音识别系统语言模型的训练和声学模型的改进 zouxy09@qq.com http://blog.csdn.net/zouxy09 关于语音识别的基础知识和sphinx的知识, ...
- 优思学院|六西格玛设计方法IDDOV是什么?
IDDOV是什么? IDDOV是六西格玛设计(DFSS)实现高绩效的方法模型之一,它是以客户为起点,以客户为终点.IDDOV将本來的定义(Define)阶段划分为两个模块,其中Identify侧重于将 ...
- 掌握这六步,搭建完美的机器学习项目
全文共7778字,预计学习时长15分钟 上图白板展示了一系列机器学习项目启动 机器学习覆盖的范围十分广泛.这篇文章将整体描述机器学习适用的典型问题,提供实现机器学习项目雏形的框架. 首先厘清一些定义. ...
- 优思学院|六西格玛黑带的职责包括什么?
经常都会有人希望知道正式的六西格玛黑带的职责通常包括哪些?六西格玛黑带日常的工作是什么?因为这些朋友们可能都在职业的探索阶段,在被这些知识吸引之余,却不知道自己是否有能力胜任成为一个六西格玛黑带. 六 ...
- 优思学院:六西格玛证书有用吗?有什么方法获取六西格玛证书?
六西格玛绿带/黑带证书含金量相当高,优思学院和LSSPA在2020年做了一次中国六西格玛调查研究,根据这份调查报告,六西格玛黑带工资中位数在国内为20000元. 另外,受访者被问及六西格玛证书对他们的 ...
- 如何利用六西格玛制订战略计划?|优思学院
制订战略计划(strategic planning)需要回答的核心问题是:"作为一家公司,我们现在的位置是什么?我们想变成什么样?以及我们怎么才能做到?"管理者需要制定有针对性的战 ...
最新文章
- 针对上上篇博文--仿优酷菜单---的bug修改
- OpenCV alpha(权因子) 融合举例
- jboss 7 as1 日志配置
- MyEclipse中导入java文件出现乱码问题的解决方法
- 庖丁解牛TLD(二)——初始化工作(为算法的准备)
- MATLAB产生线性等分量函数 linspace
- 阿群笔记:CentOS7 在线安装 docker 的推荐方法
- Android4清理代码缓存,Android清除应用缓存的两种方法
- 2022百度之星程序设计大赛 - 复赛 1003 最大值
- 安卓手机安装谷歌框架
- IDEA常用插件、设置、注释
- 关于购物网站的设计概念
- Pytorch实现性别识别,男女分类
- 实时系统vxWorks - 动态库、静态库建立及调用
- c++ 多边形求交集代码(凸多边形与凸多边形交集)
- 难做的IP游戏 究竟要如何才能跨时代持续成功?
- 269 t101 对称二叉树
- SCT52240STDR,SCT52240MTER,SCT52240QSTDR,SCT52240QMTER,栅极驱动器
- DotAsterisk(点星PBX)IPPBX V4.1下载地址
- 写给Krpano小白们的最最最入门级教程(二)
热门文章
- FZU 1921 栀子花开
- Android中userId的作用
- 【cortex-m3/m4/m7常见死机、跑飞、异常、hardfault等查找方法】
- 【网络安全学习】渗透测试篇02-数据截取教程(上)
- 前端常用的地图框架(webGIS)
- 计算机思维导论优课在线答案,吉大20秋《现代远程学习概论》在线作业题目【标准答案】...
- AR VR手势交互新选择,uSens凌感推出Fingo技术
- java替换花括号_java – 用其他东西替换花括号内的内容(例如{1})[复制]
- VMware workstation 不可恢复错误(vcpu-0)
- Android 页面跳转时闪屏问题