「 安 姐 夜 聊 」

上周犯懒了,没有更新,今天更个福利:

几行代码,抱上IBM爸爸大腿,实现音频快速转文字~用到了IBM Waston的Speech to text(目前还是个demo)

碎碎念的废话~

前几天工作中遇到需要把音频转为文字稿的任务,顺便学了个新词语:扒词。扒词:根据视频信息获得文字信息,即根据录音或者台词,然后转字幕。

拿音频找导演联系扒词,结果导演居然说视频扒词可以,音频就算了吧,算了吧……!

我可是有30个音频,每个虽然才2-5分钟,但转成文字每个也有近千字吧,总和就是30000字!难道纯手打吗!踹翻导演啊!

科技这么发达,难道找不到音频转文字的软件吗!我于是搜了一下:

……天下没有免费的午餐。

感谢万能的知乎!让我找到了IBM 爸爸的Speech to text!

Speech to text官网在这里:

以及感谢一份15年的教程:

准备好你的音频,以及Python,开始吧!!(推荐Anaconda,关于Anaconda安装、Python包的安装,可以看文末我的两篇小笔记~)

​第一步

点击首页紫色的那个「Star for free in IBM Cloud」按钮,注册IBM Cloud并登陆(注册不了的亲,记得科♂学上网)。

第二步

添加服务(因为我已经加了服务,没法给大家截图了,自己找找吧),添加后是这样的:

点击现有服务,找到已有的服务。

点击服务名称查看详情。

看到页面下方显示服务凭证,且username和password都是加密符号表示。点击右侧的「显示」,打开眼睛,把username和password记下来(复制到记事本里啦不要翻小本本了!)

好了,官网任务完成,可以关掉了。

第三步

Python安装SpeechRecognition包。

包的官网:

运行-cmd,打开命令提示符。输入pip install SpeechRecognition,耐心等待一会儿(我家里网速比较捉急,花了10分钟……网速好的话几秒钟吧,吐血),安装完成即可。

出现下面这行字说明装好了。

第四步

打开Jupyter Notebook开始写代码啦!

import speech_recognition as sr #加载包

r = sr.Recognizer() with sr.WavFile("E://1.mp3") as source: #请把引号内改成你自己的音频文件路径

audio = r.record(source)

运行这一步发现报错了。

原来要wav格式。推荐一个好用的神器:格式工厂。音频视频文件转格式我都用它,方便小巧。

转格式后把引号里的内容改成1.wav就可以运行了。

接着定义账号密码,把引号里的XXX改成你自己的。

IBM_USERNAME = 'XXXXXXXX'

IBM_PASSWORD= 'XXXXXXXX'

以及调用IBM的Speech to text。

text = r.recognize_ibm(audio, username = IBM_USERNAME, password = IBM_PASSWORD, language = 'zh-CN')

我2分多钟的音频大概运行了半分钟左右吧。这个text,就是你音频转过来的文字了。让我们来试试:

print(text)

嗯……虽然准确率没有100%,但也已经比较可观了!!

它支持多种语言,只需要把language变量改成以下这些就可以实现不同语言的转换:ar-AR 阿根廷语

en-UK 英式英语

en-US 美式英语

es-ES 西班牙语

fr-FR 法语

ja-JP 日语

pt-BR 巴西葡萄牙语

zh-CN 中文

每个免费账户每个月可使用100分钟,30天不活跃服务将删除。

6行代码轻松音频转文字,你学会了嘛?

文末小链接:

python 录音本地转文字_Waston+Python,6行代码实现音频转文字,轻松做字幕~相关推荐

  1. 【python】一个目录里面多个python程序文件,统计一下里面有多少行代码。即分别列出:代码、空行、注释的行数。

    一个目录里面多个python程序文件,统计一下里面有多少行代码.即分别列出:代码.空行.注释的行数. 题目 代码 结果 题目 一个目录里面多个python程序文件,统计一下里面有多少行代码.即分别列出 ...

  2. python你TM太皮了——区区30行代码就能记录键盘的一举一动

    先看看效果 Like This↓ 一.公共WiFi 公用电脑什么的 在我们日常在线上工作.玩耍时,不论开电脑.登录淘宝.玩网游 统统都会用到键盘输入 在几乎所有网站,例如淘宝.百度.126邮箱等等 为 ...

  3. 音频转文字有什么方法?怎么将音频转文字?

    作为一名办公人士,除了要处理数不尽的工作内容,还要参加各种各样大大小小的会议,而且开会时还需要做会议纪要,记录会议上领导讲的内容.面对这样既需要笔速又需要听力的事情,稍有不慎就会听漏记错,如何在短时间 ...

  4. python屏幕文字识别_学会python就是如此任性,15行代码搞定图片文字识别,附源码...

    python作为一门高级编程语言,它的定位是优雅.明确和简单.阅读Python编写的代码感觉像在阅读英语一样,这让使用者可以专注于解决问题而不是去搞明白语言本身.Python虽然是基于C语言编写,但是 ...

  5. python -不敢表白,不好意思说出来,没关系,7行代码完成自动打印文字

    python -不敢表白,不好意思说出来,没关系,7行代码搞定自动打印文字 ​ 一.实现效果 我们先来看实现之后的效果: 二.代码实现 我们需要调用到控制台输出文字,于是需要引用到sys模块. imp ...

  6. tex中让公式和文字在一行_1行代码搞定LaTeX公式编写,这个4.6M的Python小插件,堪称论文必备神器...

    点击上方"深度学习工坊",选择加"星标" 重磅干货,第一时间送达 萧箫 发自 凹非寺 本文转载自:量子位(QbitAI) 写论文时,手敲成堆的计算公式,被虐到头 ...

  7. 够强大,Python 这款可视化数据看板不足百行代码

    对于从事数据领域的小伙伴来说,当需要阐述自己观点.展示项目成果时,我们需要在最短时间内让别人知道你的想法.我相信单调乏味的语言很难让别人快速理解.最直接有效的方式就是将数据进行可视化展现. 提到数据可 ...

  8. python调用计算器卡死_Python+tkinter使用40行代码实现计算器功能

    本文实例为大家分享了40行Python代码实现计算器功能,供大家参考,具体内容如下 偶尔用脚本写点东西也是不错的. 效果图 代码 from tkinter import * reset=True de ...

  9. python实现统计你一共写了多少行代码

    程序员要保证一定的代码量就必须勤奋的敲代码,但怎么知道自己一共写了多少代码呢,笔者用python写了个简单的脚本,遍历所有的.java,.cpp,.c文件的行数,但是正如大家所知,java生成了许多代 ...

最新文章

  1. linux可以运行常规软件吗,Linux安装一些常规软件(浅显)
  2. 方维分享系统,品牌无法设置分类关联
  3. Linux快捷键及命令
  4. iOS 获取屏幕方向,和强制屏幕旋转
  5. 简析时间复杂度和空间复杂度
  6. 分布式环境时钟同步问题
  7. ionic开发记账软件《易跟金》
  8. 2021年深圳市产业发展与创新人才奖申报条件及材料
  9. 《黑匣子思维:我们如何更理性地犯错》iphone部分
  10. 面试之java提高-杨晓峰专栏笔记
  11. L1-038 新世界 (5 分) C语言
  12. 所有帖子的 分类 总结
  13. 第四篇:由浅入深,虚拟机常量池底层解析
  14. ui设计师需要学习什么,初学者必了解
  15. Python中类方法,静态方法,实例化方法
  16. 高压电缆感应式取电电源分析及设计
  17. linux——ifcfg-ens33文件参数解释
  18. iQOO7/iQOO8、iQOO8Pro/iQOO9、iQOO9Pro密码忘记怎么解锁?如何刷机解锁删除屏幕和账号密码?
  19. 向大家介绍一位牛逼的IT老师 => 廖神
  20. ER图转关系模型小结

热门文章

  1. 【ChatGPT】《Azure OpenAI 服务 - 提示工程简介》- 知识点目录
  2. IgH详解十、EtherCAT DC(4)主站做参考时钟和从站作参考时钟性能对比
  3. 今日分享|闪魔钢化膜5.8/医用口罩60个18.8/手机壳5.6秒变iPhone12/苏打水一箱12瓶16.8/鼠标19.9/等...
  4. Tampermonkey油猴 加载 jQuery
  5. SSRF漏洞原理解析
  6. IT项目管理中风险控制的4个重要步骤
  7. 服务器 备案 文档,服务器备案
  8. 八爪鱼南都行|人工智能助力智能门锁行业研究
  9. [No0000139]轻量级文本编辑器,Notepad最佳替代品:Notepad++
  10. Android学习之BlurImageView实现图像模糊效果