今天给大家讲一个案例,在不联网的情况下,依然可以通过python来将语音文件转换成文字。这里用到的包为sphinx,sphinx是由美国卡内基梅隆大学开发的大词汇量、非特定人、连续英语语音识别系统。有一些成熟的模型,可以将语音转成文字。例如Cloud Speech API,但是需要你使用google云平台的前提。

speech recognition

对于python这一非常成熟的胶水语言,在网上找一些现成的工具包真的不是一个太难的问题。在GitHub上就发现了这样一个神奇的包:speech recognition

它可以支持实时翻译,当然前提是需要在机器上安装有关麦克风的依赖包;还可以支持将语音文件中的文字直接提取出来。通过speech recognition可以调用多种平台上的模型,比如google API,CMU sphinx,Microsoft Bing Speech,IBM Speech to Text,Wit.ai 等

离线转换

对于国内的网络环境,无法用google API来将语音数据转换成文本文件,因为在调用这个包的时候,需要连接到google。当然,你可以租用一个国外的VPS来做这件事情。

这里讲一下如何在不联网的情况下,依然可以通过python来将语音文件转换成文字。这里用到的包为sphinx,sphinx是由美国卡内基梅隆大学开发的大词汇量、非特定人、连续英语语音识别系统。

安装 sphinx

我本人所用的环境为ubuntu。

imyin@develop:~/Downloads/phinx$ lsb_release -a

No LSB modules are available.

Distributor ID: Ubuntu

Description: Ubuntu 16.04.3 LTS

Release: 16.04

Codename: xenial

在安装sphinx之前需要安装一些软件包

sudo apt-get install gcc automake autoconf libtool bison swig python-dev libpulse-dev

之后可以在相关网站上下载sphinxbase安装包,当然也可以直接clone github上的包

下载完之后进行解压

tar zxpf sphinxbase-5prealpha.tar.gz

修改文件名

mv sphinxbase-5prealpha sphinxbase

ls sphinxbase

AUTHORS doc indent.sh Makefile.am README.md src win32

autogen.sh .git LICENSE NEWS sphinxbase.pc.in swig

configure.ac include m4 README sphinxbase.sln test

现在我们应该运行autogen.sh来生成Makefiles和其他一些脚本以备后续的编译和安装。

./autogen.sh

下面开始源码安装

make && sudo make install

执行完以上命令之后,如果没有出现什么报错信息,就说明已经安装成功了,但是此时你的命令并不可以生效,在运行命令时会出现这样的错误。

imyin@develop:~/Downloads/phinx/sphinxbase$ sphinx_lm_convert

sphinx_lm_convert: error while loading shared libraries: libsphinxbase.so.3: cannotopen shared object file: No such file or directory

还需要让系统加载目录/usr/local/lib,为了让系统每次启动时都可以自动加载,可以修改系统配置文件ld.so.conf

sudo echo "/usr/local/lib" >> /etc/ld.so.conf

sudo ldconfig

这时候,就可以通过sphinx_lm_convert命令将模型DMP文件转成bin文件

sphinx_lm_convert -i zh_broadcastnews_64000_utf8.DMP -o zh_CN.lm.bin

上面这行代码是将中文的模型DMP文件转成了bin文件。在安装完sphinx后默认只支持英文,在存放模型的路径下只有一个文件名为en-US,所以这里需要添加一个处理中文的模型,相关文件可以在这个网址中下载。

在python中使用sphinx

想要在python中使用sphinx的话,需要安装一些依赖包。

pip install pydub -U # 负责将MP3文件转换为 wav 文件

pip install SpeechRecognition -U # 负责将语音转换成文字

sudo apt -qq install build-essential swig libpulse-dev # 为后面安装 pocketsphinx 做准备

pip install -U pocketsphinx # 为使用 sphinx

sudo apt-get install libav-tools # 为解决在调用 pydub 时出现的 warning :RuntimeWarning: Couldn"t find ffmpeg or avconv - defaulting to ffmpeg, but may not work warn("Couldn"t find ffmpeg or avconv - defaulting to ffmpeg, but may not work", RuntimeWarning)

这时候,就可以启动ipython来试试效果了。

file_path = "/home/imyin/Downloads/phinx/test_data"

r = sr.Recognizer

hello_zh = sr.AudioFile(os.path.join(file_path, "test.wav"))

with hello_zh as source:

audio = r.record(source)

r.recognize_sphinx(audio, language="zh_CN")

"今天 天气 很"

可以看出,这个语音识别器已经生效了。但是我说的是“今天天气好热啊”。

看来sphinx中的模型并非很准呐,而且这只是一个短句子。我们接下来看看长句子的效果,我录了村上春树的《当我谈跑步时我谈些什么》中的一段内容。

那一年的七月里,我去了一趟希腊,要独自从雅典跑到马拉松,将那条原始的马拉松路线——马拉松至雅典——逆向跑上一趟。为什么要逆向跑呢?因为清晨便从雅典市中心出发,在道路开始拥堵、空气被污染之前跑出市区,一路直奔马拉松的话,道路的交通量远远少得多,跑起来比较舒适。这不是正式的比赛,自己一个人随意去跑,当然不能指望有什么交通管制。

hello_zh = sr.AudioFile(os.path.join(file_path, "test2.wav"))

with hello_zh as source:

audio = r.record(source)

r.recognize_sphinx(audio, language="zh_CN")

"南 音 扬 的 只有 领 过 球 的 立场 是 希望 让 猪只 处理 垃圾 土木工程 上 打球 运动 充满 温情 能 成功 吗 而 中止 了 对 印尼 商报 称 他 不是 没有 立场 谈 那 一 枚 其中 春天 从 雅典 市中心 出发 寸 厂 都 可 成功 突破 寻求 对 於 能 提升 统筹 署 取缔 一路 直奔 马拉松 和 阿 惹 山 活动 等 二十 个 队 中 重申 这 不是 正常 的 比赛 自己 一个人 却 一直到 当然 不能 说明 什么 这种 共识"

呃,看到结果,我觉得可以用一个来形容:差劲。两个字来形容:太差劲!

当然,这个模型只是我直接从网上下载下来的。训练它时所用到的语料不会那么齐全,所以在测试时难免会出现不准确的情况。要想让模型更加准确,需要自己在利用sphnix继续训练模型。

相关办法在其官网上可以找到,也有相应的教程。感兴趣的朋友可以自行研究。

Q: Why my accuracy is poor

Speech recognition accuracyis not always great. To test speech recognition you need to run recognition on prerecorded reference database to see what happens and optimize parameters.

You donot need to play with unknown values, the first thing you should do is to collect a database of test samples and measure the recognition accuracy. You need to dump speech utterances into wav files, write the reference text file and use decoder to decode it. Then calculate WER using the word_align.pl tool from Sphinxtrain. Test database size depends on the accuracy but usually it’s enough to have 10 minutes of transcribed audio to test recognizer accuracy reliably. The process is described in tutorialtuning.

Google API

利用google API来处理语音识别则相当准确,不过需要连接google,以下是我在VPS中执行的一段代码,可以看出,它将我的录音精准地翻译成了文字。

但是如果录音文件较大的话,会运行时间很长,并且会返回一个超时的错误,这很是让我苦恼。

不过幸运的是,speech_recognition支持将语音文件进行截取处理。例如,我可以只处理语音文件中的前15秒钟的内容。

with test as source:

audio = r.record(source, duration=15)

r.recognize_google(audio, language="zh-CN")

"那一年的7月里我去了一趟希腊有独自从雅典跑到马拉松江哪条原始的马拉松路线马拉松直雅典一想跑上一趟"

从上面的结果看,简直比sphnix处理的效果好太多了。

通过看帮助文档发现speech_recognition不仅可以截取前面的录音,还可以截取中间的。

In [18]: r.record?

Signature: r.record(source, duration=None, offset=None)

Docstring:

Records upto ``duration`` seconds of audio from ``source`` (an ``AudioSource`` instance) starting at ``offset`` (or at the beginning if not specified) into an ``AudioData`` instance, which it returns.

If ``duration``is not specified, then it will record until there is no more audio input.

例如我想处理5秒至20秒之间的内容。

with test as source:

audio = r.record(source, offset=5, duration=15)

r.recognize_google(audio, language="zh-CN")

"要独自从雅典跑到马拉松江哪条原始的马拉松路线马拉松直雅典一项跑上一趟为什么要一想到呢因为星辰变从雅典市中心出发"

今天就讲到这里。世界真奇妙,更多精彩,自己继续去发现吧!

python语音转文字-【一点资讯】使用Python 进行语音识别---将音频转为文字相关推荐

  1. python定义一个字典、存储雇员号和姓名_【一点资讯】python后端开发工程师考证试题...

    python开发工程师考证试题 选择题 题目 关于 Python 程序格式框架的描述,以下选项中错误的是 ( A ) A: Python 语言不采用严格的"缩进"来表明程序的格式框 ...

  2. python 语音朗读软件下载_使用python编写一个语音朗读闹钟功能的示例代码

    想找一个可以播放文字的闹钟找不到,自己写一个更简单.TTS实现由很多种办法,百度等都提供了API接口,但类似百度,需要先注册等一系列动作. 其实windows自带的win32com功能可以简单实现TT ...

  3. python语音分割_用7行Python代码构建自己的有声读物

    点击关注我哦 欢迎关注 "小白玩转Python",发现更多 "有趣" 有声读物是我们可以通过音频听取一本书或者其他作品的内容,是现下一种很受欢迎的阅读方式.类似 ...

  4. python语音库_介绍几个python的音频处理库

    图 3比如我的机器的地址就是 192.168.152.130.然后将这个ip地址填入 图2 的Host Name 一栏,注意默认端口为22,不要去改它,然后点击open,就会弹出一个登陆界面,接着输入 ...

  5. python语音控制电脑程序_用Python编程实现语音控制电脑_天津SEO

    天津SEO 电脑面前的你,是否也希望能让电脑听命于你? 当你累的时候,只需说一声"我累了",电脑就会放着优雅的轻音乐来让你放松. 或许你希望你在百忙之中,能让电脑郎读最新的NBA比 ...

  6. 【Day4】语音识别(音频转文字)

    语音识别的三个解决方案: 原本用途:本来是要求从视频中识别语音,然后把文字内容提取出来,结果看了很多项目,中文的注释,识别的却是英文,感到授课的门槛有点低,我能看懂别人开源的代码,距离自己开发还是有距 ...

  7. 录音音频转文字免费软件有哪些?这几个音频转文字软件安利给你

    在日常生活中,我们常常需要将录音音频转换成文字文本,以便更方便地进行编辑.整理和分享.但是手动进行转换工作需要花费大量时间和精力,因此许多人开始寻找方便.快捷的解决方案,即使用录音音频转文字免费软件. ...

  8. 录音转换成文字软件哪个好?这几个音频转文字软件推荐给你

    小明:最近需要将一些录音文件转换成文字,但我不知道怎么操作,你有哪些软件推荐给我使用吗? 小红:当然有啦.现在市面上有很多录音转文字软件,但是它们各有千秋.要找到适合自己的软件,首先得考虑自己的需求, ...

  9. 文字链接_新生命道目录及音频、文字链接(20200501更新)

    新生命的道目录 (希儿分享)     "音频"和"文字版"是在公众号发布的对应讲道的音频.文字版链接,弟兄姊妹可点击链接收听.阅读.荣耀归于主!APP网页链接和 ...

最新文章

  1. ug怎么画曲线_UG怎么画雨伞的曲面造型
  2. 用MXnet实战深度学习之二:Neural art
  3. php ignore special characters,PHP htmlspecialchars() 函數--防注入字符轉義函數
  4. [精华] VI高级命令集锦
  5. wamp的mysql触发器教程_wamp里的mysql怎么做出这个
  6. RecyclerView的各种版本兼容问题处理集锦
  7. 下载android平台源码
  8. Dubbo透传traceId/logid的一种思路
  9. The King’s Problem 强连通
  10. 吊打面试官之redis篇:一文全懂redis
  11. 如何使用Win7系统自带的刻录功能刻录启动光盘
  12. 用于登录的mysql语句_mysql常用语句
  13. 房友系统服务器地址,房友系统的那些功能,你都知道吗?
  14. 解决 array subscript has type char 错误
  15. git添加文件到版本库中
  16. [GIS笔记] 闾国年:从地图到场景的创新发展
  17. Linux regulator框架理解及使用
  18. 软考中级 真题 2015年上半年 信息系统管理工程师 应用技术
  19. JavaEE - Linux基本使用和程序部署
  20. 中科院研究院:三峡工程将来最大的受害者是上海

热门文章

  1. 1-1 结构化数据建模流程范例
  2. http://www.cnblogs.com/chio/archive/2007/09/10/888260.html
  3. oracle sqladvisor,Oracle 11 sql tuning advisor sql access advisor关闭以及job查看与停止
  4. 外贸数据采集的10个经典方法
  5. 三相电能表现场校验仪(HPU-3030)操作程序
  6. 利用AlarmManager完成精准的轮询
  7. 时间转换格式比较大小
  8. 数据加密技术基本概念整理
  9. **速成计算机三级网络技术**
  10. E:\xxxgulp Local modules not found in ....