上一篇博客已经介绍了在Window系统下安装CMUSphinx,https://blog.csdn.net/zxy13826134783/article/details/103642266

测试环境:

window server  2012

python 3.7

下面的内容转自https://blog.csdn.net/qq_32643313/article/details/99936268

有部分内容有错误,我做了相应的修改

若要进行中文识别,需要两样东西。

一、语音文件

支持的格式有:

1  wav: 必须是 PCM/LPCM 格式
2  aiff
3  aiff-c
4  flac: 必须是初始 flac格式;ogg-flac 格式不可用

二、中文声学模型、语言模型和字典文件
下载地址:http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/

安装步骤

1  下载cmusphinx-zh-cn-5.2.tar.gz并解压


2   在python(如果使用Anaconda安装python的就在Anaconda安装目录下)安装目录下找到Lib\site-packages\speech_recognition

3   点击进入pocketsphinx-data文件夹,并新建文件夹zh-CN

4   在这个文件夹中添加进入刚刚解压的文件,需要注意:把解压出来的zh_cn.cd_cont_5000文件夹重命名为acoustic-model、zh_cn.lm.bin命名为language-model.lm.bin、zh_cn.dic中dic改为pronounciation-dictionary.dict。

5   测试例子:

下面的wav文件下载地址如下(懒得自己录了,网上随便找的):

链接:https://pan.baidu.com/s/1rlqj-R2zhQJegQ3FTcWNdg 
提取码:ziex

程序如下(注意:如果使用记事本编写代码的话,一定要把它另存为utf-8编码格式):

# -*- coding: utf-8 -*-
# /usr/bin/python
# Python版本:3.6.3
import speech_recognition as sr
r = sr.Recognizer()    #调用识别器
test = sr.AudioFile("当.wav")   #导入语音文件
with test as source:       audio = r.record(source)
type(audio)
c=r.recognize_sphinx(audio, language='zh-cn')     #识别输出
print(c)

6    运行结果如下(运行的时候卡住很久是正常现象):

这识别效果简直就是不堪入目,

window下使用CMUSphinx实现中文识别相关推荐

  1. OpenCV Python + Tesseract-OCR轻松实现中文识别

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达推荐阅读 42个pycharm使用技巧,瞬间从黑铁变王者Google ...

  2. Window下mysql5.7及以上版本插入中文乱码问题

    Window下mysql5.7及以上版本插入中文乱码问题: 在C:\ProgramData\MySQL\MySQL Server 5.7\my.ini的my.ini文件中编辑 添加三项: [mysql ...

  3. window下基于谷歌api和CUM Sphinx的简单语音识别

    window下基于谷歌api和CUM Sphinx的简单语音识别 工具包准备 基于谷歌api语音识别代码 基于谷歌CMU Sphix语音识别代码 格式转换 播放本地语音 输入文本进行读音 作者福建农林 ...

  4. 在window下使用gemsim.models.word2vec.LineSentence加载语料库文件的格式要求

    在window下使用gemsim.models.word2vec.LineSentence加载语料库文件的格式要求 class LineSentence(object):""&qu ...

  5. 防遗忘笔记,Fedora交叉编译window下的virt-iewer的汉化

    1. 汉化代码里的资源 virtviewer使用的是gettex的方案是标准的linux里国际化的方案.按道理仅仅须要改动virtualviewer/po/zh_CN.po的文件. 编译. 然后确认在 ...

  6. android tesseract-ocr实例教程(包含中文识别)(附源码)

    (转载请注明出处:http://blog.csdn.net/buptgshengod) ps:鉴于大家对这个项目这么感兴趣,问题也比较多,我简单的再说几点. 1.我只是使用了这个ocr引擎,算法什么的 ...

  7. linux不能识别 符号,在linux中文件中^M符号的问题以及中文识别问题

    ^M符号的问题 在Windows系统下编辑的文件,换行符回车的格式为'\r\n',在linux系统下,回车的格式为'\n',在Windows下编辑的文本文件在上传至linux服务器时,回车'\r\n' ...

  8. 通过nginx在window下部署项目

    1-安装nginx 首先,进入nginx 的官网,下载nginx,安装nginx 通过,https://nginx.org/ 链接进入 Mainline version:开发版,mainline 目前 ...

  9. JFreechart 在linux下不显示及中文乱码问题

    一.使用JFreeChart建的报表,在window下能正常显示,但是放到linux下就报错,而且有时候会把tomcat挂掉, 原因是jfreechart的在linux系统中需要访问java awt库 ...

最新文章

  1. 没有头文件调用cpp_VS2017中同一个解决方案下不同工程的调用
  2. java编写数字金字塔_用JAVA写数字金字塔
  3. python在中小学教学中的应用-在python程序中的进程操作
  4. sql datetime字段 取年月日_如何去写一手好的SQL ?
  5. 软考-信息系统项目管理师-信息系统综合测试与管理
  6. Struts2 注解中跳转 action
  7. C#调用word打印
  8. ASP.NET应用程序性能测试
  9. java多态的好处_java萌新,对象的多态有什么好处?
  10. 华为轮值董事长徐直军:AI发展十大改变
  11. 顺序查找、折半查找、索引查找
  12. 微信公众号维护用服务器吗,微信公众号商城开发必须用服务器吗?
  13. rtmp/rtsp直播播放器选择
  14. 计算语言学之拼写纠错
  15. MySQL卸载干净检查_MySQL数据库卸载干净处理
  16. python矩阵乘法代码_python3 单行代码实现矩阵相乘
  17. 读《从零开始学理财》
  18. 2020年12月程序员工资新出炉,和你相差多少?
  19. 台式计算机怎么开声音,台式电脑没有声音【设置办法】
  20. 操作的基本原则,每日必读【不断更新中】

热门文章

  1. 《大话数据结构》3、4、5线性表、栈与队列、串
  2. TVS二极管的特性及主要参数以及选用指南
  3. 【晒猫狂魔】晒晒我家逆子
  4. 【Visual C++】游戏开发笔记二十一 游戏基础物理建模 三 摩擦力系统模拟
  5. 10_前端笔记-ViewUI
  6. unity头顶状态制作_unity实现头顶血条
  7. 2022年5月8号补题
  8. 四路温度转串口模块-DS18B20
  9. 盖茨北京大学精彩演讲全文
  10. 一个IC海归的真情告白:我看中国电源管理芯片领域的持久战