语音识别工具Sphinx4

开源框架:https://cmusphinx.github.io/wiki/download/

1、CMU Sphinx开源语音识别框架

Sphinx4主要由三个基本模块构成:FrontEnd,Decoder,Linguist。

FrontEnd接受信号的输入并且转化为特征序列。Linguist把任何类型的标准语言模型,字典的发音信息以及一些声学模型的结构信息转换为一个SearchGraph。在Decoder 中的SearchManager负责用FrontEnd产生的特征以及Linguist生成的SearchGraph进行实际的decoding工作,产生结果。

Linguist

Linguist是由三个可插拔的组件构成:LanguageModel,Dictionary,AcousticModel。

1)LanguageModel提供了单词上得语言结构。主要有2种典型的实现:graph-driven grammars和stochastic N-Grammodels。graph-driven grammars代表一个有向图,图的节点代表一个单词,链接代表发生单词转换的概率。stochastic N-Gram models提供了在给定前n-1个单词时,该单词发生的概率。

2)Dictionary提供单词的发音。这些发音把单词分成一个AcousticModel里面unit的序列。

3)AcousticModel提供了语音单元与一个HMM模型的映射关系。HMM是一个有向图,节点代表一个HMM状态,链接代表一个状态转移概率。每一个HMM状态都可以对一个特征得分(实际的实现在HMMState类里面)。Sphinx4现在提供一个单独的AcousticModel实现,能够载入并使用Sphinx3 trainer生成的模型。

4)SearchGraph是由LanguageModel所代表的语言结构以及AcousticModel的拓扑结构(基本发声单元的HMMs)。Linguist也会使用词典(Dictionary)把LanguageModel的单词映射成AcousticModel元素的序列。

SearchGraph是一个有向图,每一个节点叫做SearchState,可以分为emitting或non-emitting状态。Emitting状态能够对语音特征进行打分;而non-emitting状态仅仅代表了高层的语言结构,例如单词,音素,这些不能够直接对语音特征进行打分。链接代表了状态间的转移概率。

原文链接:https://blog.csdn.net/RFC2008/article/details/7057902

2、部署Sphinx4构建语音识别服务

下载源码:https://sourceforge.net/projects/cmusphinx/files/sphinx4/5prealpha/

使用源码原因:再识别中文音频时,出现数组越界问题,需要修改源码完成测试,修改数组长度:100 --> 1024

3、使用cmuclmtk语言模型制作工具

  1. 准备将用于生成语言模型的参考文本。结果应该是由句子的开始和结束标记限定的句子集:<s>和</s>。文本内容如下面例子:
    <s> 小蝌蚪 </s>
    <s> 找 </s>
    <s> 妈妈 </s>
  2. 生成词汇文件
    text2wfreq < kd.txt > kd.wfreq
    wfreq2vocab < kd.wfreq > kd.vocab
  3. 使用以下命令生成语言模型:
    text2idngram -vocab kd.vocab -idngram kd.idngram < kd.txt
    idngram2lm -idngram kd.idngram -vocab kd.vocab -arpa kd.lm
  4. 生成CMU二进制形式(BIN):
    sphinx_lm_convert.exe -i zh_cn.lm -o zh_cn.lm.bin
    sphinx_lm_convert.exe -i zh_cn.lm.bin -ifmt bin -o zh_cn.lm -ofmt arpa

语音识别工具Sphinx4相关推荐

  1. python语音识别框架_横评:五款免费开源的语音识别工具

    编者按:本文原作者 Cindi Thompson,美国德克萨斯大学奥斯汀分校(University of Texas at Austin)计算机科学博士,数据科学咨询公司硅谷数据科学(Silicon ...

  2. 语音云识别工具_语音识别工具_web语音识别应用程序的工具 - 云+社区 - 腾讯云...

    广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 语音识别服务具备识别准确率高.接入便捷.性能稳定等特点. 腾讯云语音识别 ...

  3. ZS语音识别(智能语音识别工具)V1.3 绿色版

    ZS语音识别(智能语音识别工具)是一款很优秀好用的智能语音识别辅助工具.这款ZS语音识别工具功能强大,简单易操作,使用后可以帮助用户更轻松便捷的进行语音识别操作.软件可以帮助用户快速识别音频文件并将其 ...

  4. 语音识别工具kaldi简介

    1.简介 Kaldi 是一个语音识别工具.使用 C++ 开发,基于 Apache 许可证.目的是为语音识别研究者提供. Kaldi集成了多种语音识别模型,包括隐马尔可夫和最新的深度学习神经网络,自 2 ...

  5. 五款免费开源的语音识别工具

    按:本文原作者 Cindi Thompson,美国德克萨斯大学奥斯汀分校(University of Texas at Austin)计算机科学博士,数据科学咨询公司硅谷数据科学(Silicon Va ...

  6. Kaldi简介【开源语音识别工具】

    Kaldi是当前最流行的开源语音识别工具(Toolkit),它使用WFST来实现解码算法.Kaldi的主要代码是C++编写,在此之上使用bash和 python 脚本做了一些工具. Kaldi架构如所 ...

  7. 【语音识别】WeNet:面向工业落地的E2E语音识别工具

    WeNet:面向工业落地的E2E语音识别工具 文章目录 WeNet:面向工业落地的E2E语音识别工具 一.WeNet语音识别平台搭建 1.参考资料 2.快速搭建WeNet平台 二.WeNet实现推理( ...

  8. 语音增强 理论与实践 pdf_语音识别工具ESPnet代码结构

    ESPnet: end-to-end speech processing toolkit 文档网站: https://espnet.github.io/espnet/installation.html ...

  9. Kaldi语音识别工具运行TIMIT数据库实例

    这几日一直在忙课题上的工作,就是先把TIMIT数据库跑了下,附上些说明. Kaldi安装后运行TIMIT例子: 1. 对于Kaldi-master版本中,/egs/timit/s5下面的关键三个文件c ...

  10. 开源(离线)中文语音识别ASR(语音转文本)工具整理

    开源(离线)中文语音识别ASR(语音转文本)工具整理 目录 文章目录 目录 @[toc] open ai 的开源工具:whisper whisper介绍 引用 ASRT语音识别项目 ASRT介绍 引用 ...

最新文章

  1. 【C语言】一些简单编译错误或警告
  2. 某程序员吐槽:女朋友老板给她包了1314元开工红包,正常吗?网友:这是绿包!...
  3. MVC实现简单的上传功能
  4. 最全的CSS浏览器兼容问题整理
  5. 实现对HDFS增删改查CRUD等操作
  6. 使用git下载giuhub中的项目
  7. Adobe两款软件存在缺陷 黑客可控制用户PC
  8. [COCI 2017-2018-2]-San
  9. struts2中非表单标签的使用 componen
  10. mac 设置终端样式_如何将终端样式设置为freeCodeCamp或任何您想要的样式
  11. mysql 硬盘缓存_paip.mysql性能跟iops的以及硬盘缓存的关系_MySQL
  12. el-descriptions
  13. 3 linux禁用ssl_linux – Poodle:在服务器上禁用SSL V3真的是一个解决方案吗?
  14. 用计算机进行绘画教案,第二课 用鼠标键盘创作作品--电脑绘画教学设计(教案)...
  15. win10无限重启_win10系统重置教程
  16. 服务器硬盘可以换盘位吗,RAID里的硬盘可以互换槽位吗
  17. Oracle高级数据库复习
  18. 低度酒爆火背后:“轻松”成为酒饮新潮流
  19. LeetCode hot-100 简单and中等难度,31-40.
  20. 大公司病,太TM形象了!

热门文章

  1. Chrome应用商店打不开问题
  2. 查理·芒格:分享12个顶级思维模型
  3. 计算机道德 英语作文,关于道德英语作文
  4. 什么是交换机?它有哪些作用?
  5. ​LeetCode刷题实战507:完美数
  6. lis =[2,3,'k',['qwe',20,['k1',['tt',3,'1']],89],'ab','adv'] 将列表lis中的'tt'变成大写(用两种方式)。...
  7. H3C VRRP实验
  8. 远距离485无线传输方案
  9. 怎样设置和检测浏览器语言
  10. python小学生口算题生成器_小学数学题生成器下载