网上找到一些例子,有一些成熟的模型,可以将语音转成文字。例如Cloud Speech API,但是需要你使用google云平台的前提。

speech recognition

对于python这一非常成熟的胶水语言,在网上找一些现成的工具包真的不是一个太难的问题。在GitHub上就发现了这样一个神奇的包:speech recognition

它可以支持实时翻译,当然前提是需要在机器上安装有关麦克风的依赖包;还可以支持将语音文件中的文字直接提取出来。通过speech recognition可以调用多种平台上的模型,比如google API,CMU sphinx,Microsoft Bing Speech,IBM Speech to Text,Wit.ai 等

离线转换

对于国内的网络环境,无法用google API来将语音数据转换成文本文件,因为在调用这个包的时候,需要连接到google。当然,你可以租用一个国外的VPS来做这件事情。

这里讲一下如何在不联网的情况下,依然可以通过python来将语音文件转换成文字。这里用到的包为sphinx,sphinx是由美国卡内基梅隆大学开发的大词汇量、非特定人、连续英语语音识别系统。

安装 sphinx

我本人所用的环境为ubuntu。

imyin@develop:~/Downloads/phinx$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description: Ubuntu 16.04.3 LTS
Release: 16.04
Codename: xenial

在安装sphinx之前需要安装一些软件包

sudo apt-get install gcc automake autoconf libtool bison swig python-dev libpulse-dev

之后可以在相关网站上下载sphinxbase安装包,当然也可以直接clone github上的包

下载完之后进行解压

tar zxpf sphinxbase-5prealpha.tar.gz

修改文件名

mv sphinxbase-5prealpha sphinxbase
ls sphinxbase AUTHORS doc indent.sh Makefile.am README.md src win32
autogen.sh .git LICENSE NEWS sphinxbase.pc.in swig
configure.ac include m4 README sphinxbase.sln test

现在我们应该运行autogen.sh来生成Makefiles和其他一些脚本以备后续的编译和安装。

./autogen.sh

下面开始源码安装

make && sudo make install

执行完以上命令之后,如果没有出现什么报错信息,就说明已经安装成功了,但是此时你的命令并不可以生效,在运行命令时会出现这样的错误。

imyin@develop:~/Downloads/phinx/sphinxbase$ sphinx_lm_convert
sphinx_lm_convert: error while loading shared libraries: libsphinxbase.so.3: cannot open shared object file: No such file or directory

还需要让系统加载目录/usr/local/lib,为了让系统每次启动时都可以自动加载,可以修改系统配置文件ld.so.conf

sudo echo "/usr/local/lib" >> /etc/ld.so.conf
sudo ldconfig

这时候,就可以通过sphinx_lm_convert命令将模型DMP文件转成bin文件

sphinx_lm_convert -i zh_broadcastnews_64000_utf8.DMP -o zh_CN.lm.bin

上面这行代码是将中文的模型DMP文件转成了bin文件。在安装完sphinx后默认只支持英文,在存放模型的路径下只有一个文件名为en-US,所以这里需要添加一个处理中文的模型,相关文件可以在这个网址中下载。

在python中使用sphinx

想要在python中使用sphinx的话,需要安装一些依赖包。

pip install pydub -U # 负责将MP3文件转换为 wav 文件
pip install SpeechRecognition -U # 负责将语音转换成文字
sudo apt -qq install build-essential swig libpulse-dev # 为后面安装 pocketsphinx 做准备
pip install -U pocketsphinx # 为使用 sphinx
sudo apt-get install libav-tools # 为解决在调用 pydub 时出现的 warning :RuntimeWarning: Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not work warn("Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not work", RuntimeWarning)

这时候,就可以启动ipython来试试效果了。

file_path = '/home/imyin/Downloads/phinx/test_data'
r = sr.Recognizer()
hello_zh = sr.AudioFile(os.path.join(file_path, 'test.wav'))
with hello_zh as source: audio = r.record(source) r.recognize_sphinx(audio, language='zh_CN') '今天 天气 很'

可以看出,这个语音识别器已经生效了。但是我说的是“今天天气好热啊”。

看来sphinx中的模型并非很准呐,而且这只是一个短句子。我们接下来看看长句子的效果,我录了村上春树的《当我谈跑步时我谈些什么》中的一段内容。

那一年的七月里,我去了一趟希腊,要独自从雅典跑到马拉松,将那条原始的马拉松路线——马拉松至雅典——逆向跑上一趟。为什么要逆向跑呢?因为清晨便从雅典市中心出发,在道路开始拥堵、空气被污染之前跑出市区,一路直奔马拉松的话,道路的交通量远远少得多,跑起来比较舒适。这不是正式的比赛,自己一个人随意去跑,当然不能指望有什么交通管制。
hello_zh = sr.AudioFile(os.path.join(file_path, 'test2.wav'))
with hello_zh as source: audio = r.record(source) r.recognize_sphinx(audio, language='zh_CN') '南 音 扬 的 只有 领 过 球 的 立场 是 希望 让 猪只 处理 垃圾 土木工程 上 打球 运动 充满 温情 能 成功 吗 而 中止 了 对 印尼 商报 称 他 不是 没有 立场 谈 那 一 枚 其中 春天 从 雅典 市中心 出发 寸 厂 都 可 成功 突破 寻求 对 於 能 提升 统筹 署 取缔 一路 直奔 马拉松 和 阿 惹 山 活动 等 二十 个 队 中 重申 这 不是 正常 的 比赛 自己 一个人 却 一直到 当然 不能 说明 什么 这种 共识'

呃,看到结果,我觉得可以用一个来形容:差劲。两个字来形容:太差劲!

当然,这个模型只是我直接从网上下载下来的。训练它时所用到的语料不会那么齐全,所以在测试时难免会出现不准确的情况。要想让模型更加准确,需要自己在利用sphnix继续训练模型。

相关办法在其官网上可以找到,也有相应的教程。感兴趣的朋友可以自行研究。

Q: Why my accuracy is poor
Speech recognition accuracy is not always great. To test speech recognition you need to run recognition on prerecorded reference database to see what happens and optimize parameters.
You do not need to play with unknown values, the first thing you should do is to collect a database of test samples and measure the recognition accuracy. You need to dump speech utterances into wav files, write the reference text file and use decoder to decode it. Then calculate WER using the word_align.pl tool from Sphinxtrain. Test database size depends on the accuracy but usually it’s enough to have 10 minutes of transcribed audio to test recognizer accuracy reliably. The process is described in tutorialtuning.

文中提到的教程网址是https://cmusphinx.github.io/wiki/tutorialtuning/

Google API

利用google API来处理语音识别则相当准确,不过需要连接google,以下是我在VPS中执行的一段代码,可以看出,它将我的录音精准地翻译成了文字。

但是如果录音文件较大的话,会运行时间很长,并且会返回一个超时的错误,这很是让我苦恼。

不过幸运的是,speech_recognition支持将语音文件进行截取处理。例如,我可以只处理语音文件中的前15秒钟的内容。

with test as source: audio = r.record(source, duration=15)
r.recognize_google(audio, language='zh-CN')
'那一年的7月里我去了一趟希腊有独自从雅典跑到马拉松江哪条原始的马拉松路线马拉松直雅典一想跑上一趟'

从上面的结果看,简直比sphnix处理的效果好太多了。

通过看帮助文档发现speech_recognition不仅可以截取前面的录音,还可以截取中间的。

In [18]: r.record?
Signature: r.record(source, duration=None, offset=None)
Docstring:
Records up to ``duration`` seconds of audio from ``source`` (an ``AudioSource`` instance) starting at ``offset`` (or at the beginning if not specified) into an ``AudioData`` instance, which it returns. If ``duration`` is not specified, then it will record until there is no more audio input.

例如我想处理5秒至20秒之间的内容。

with test as source: audio = r.record(source, offset=5, duration=15)
r.recognize_google(audio, language='zh-CN') '要独自从雅典跑到马拉松江哪条原始的马拉松路线马拉松直雅典一项跑上一趟为什么要一想到呢因为星辰变从雅典市中心出发'

教你怎样用Python进行语音识别!非常精准!相关推荐

  1. 教你怎样用python进行语音识别

    作者 | 小隐  来源 | 淘气面包 网上找到一些例子,有一些成熟的模型,可以将语音转成文字.例如Cloud Speech API,但是需要你使用google云平台的前提. speech recogn ...

  2. 手把手教你:基于TensorFlow的语音识别系统

    系列文章 第十章.手把手教你:基于Django的用户画像可视化系统 第九章.手把手教你:个人信贷违约预测模型 第八章.手把手教你:基于LSTM的股票预测系统 目录 系列文章 一.项目简介 二.语音数据 ...

  3. python批量删缩进_鬼畜小姐姐+野狼disco,十分钟教你如何用Python剪辑一个牛逼的抖音小视频?...

    鬼畜小姐姐+野狼disco,十分钟教你如何用Python剪辑一个牛逼的抖音小视频? 前言 半个月前,后台有个小伙伴问我,如何将视频中的音频提取出来,并且将声音转成文字写入到 word 中,正好接下来的 ...

  4. 用visio画用例图小人_教你如何用 Python 打飞机 ?

    前言:python 除了生孩子 ,啥都会 .包括打飞机 !今天就来教你如何用 python 打飞机 ! 简述 相信你是一个单纯的孩子说的打飞机是指啥意思 ,对吧 ?嗯 ,没毛病 .就是 pygame ...

  5. 利用C语言 Python校正图像,情人节来了,教你个用 Python 表白的技巧

    作者:@明哥 公众号:Python编程时光 2020年,这个看起来如此浪漫的年份,你还是一个人吗? 难不成我还能是一条狗? 18年的时候,写过一篇介绍如何使用 Python 来表白的文章. 虽然创意和 ...

  6. python之路 mysql 博客园_教为学:Python学习之路(二):MySQLdb的几种安装方式,以及用Python测试连接MySql...

    教为学:Python学习之路(二):MySQLdb的几种安装方式,以及用Python测试连接MySql Easy_install安装MySQLdb 很简单,以至于我不晓得该怎么说.一句话. sodu ...

  7. 怎么用python制作简单的程序-神级程序员教你如何用python制作一个牛逼的外挂!...

    玩过电脑游戏的同学对于外挂肯定不陌生,但是你在用外挂的时候有没有想过如何做一个外挂呢?(当然用外挂不是那么道义哈,呵呵),那我们就来看一下如何用python来制作一个外挂.... 我打开了4399小游 ...

  8. python表白-情人节来了,教你个用 Python 表白的技巧

    2020年,这个看起来如此浪漫的年份,你还是一个人吗? 难不成我还能是一条狗? 18年的时候,写过一篇介绍如何使用 Python 来表白的文章. 虽然创意和使用效果都不错,但有一缺点,这是那个exe文 ...

  9. python语音在线编辑-Python实时语音识别控制

    Python实时语音识别控制 概述 本文中的语音识别功能采用 百度语音识别库 ,首先利用 PyAudio 库录制语音指令,保存为受支持的 wav 音频文件,然后利用 百度语音识别库 提供的方法实现语音 ...

最新文章

  1. CentOS6下编译安装zabbix_agent3.0客户端
  2. 华一银行开发安全内部培训圆满结束
  3. 解决chrome和firefox flash不透明的方法
  4. vue-i18n和ElementUI国际化使用
  5. 搭建卷积神经网络怎么确定参数_汽车冲压模具中拉延件各参数要怎么确定?本文教你确定方法!...
  6. JS:关于JS字面量及其容易忽略的12个小问题
  7. 为CMUSphinx训练声学模型教程手册
  8. 汉字编码,GB2312、GB 13000、GBK、GB18030 介绍
  9. 文氏图解析SQL语句中JOIN操作
  10. infer的用法_使用 Infer 进行代码扫描
  11. 强劲大小核结构 三星将推八核处理器
  12. 盖高辛氏衰,天下归之
  13. 学习Python第四天
  14. 十年弄潮 ——从《才富》到《中国人力知本》
  15. java简洁日历代码
  16. 视频编辑器-MovieMator简洁使用-功能和快速入门-创建项目、导入和导出
  17. 解决:ubuntu18系统安装微信、QQ及WIN7虚拟机
  18. 网页中多个图标在一张图片上,使用css将各图标显示
  19. LeetCode 328.奇偶链表
  20. Javascript 计算众数和中位数的代码

热门文章

  1. 成为CTO的关键技能是什么?
  2. RPA中ROI是怎么计算的
  3. java操作xml的四种方式
  4. JVM调优之参数配置: -Xms -Xmx -Xmn -XX:+PrintGCDetails -XX:UseSerialGC -XX:SurvivorRadio -XX:NewRadio
  5. K8S 1.8 平台搭建手册
  6. 扁平和树形结构的几种互转
  7. 图像处理--最大内接矩形
  8. 关于学习的时间定律-21小时、1000小时、5000小时、10000小时
  9. 一种通过物理分离实现WSUS伸缩性的方案
  10. 现代电商会员管理新玩法——付费会员