python 录音本地转文字_Waston+Python,6行代码实现音频转文字,轻松做字幕~
「 安 姐 夜 聊 」
上周犯懒了,没有更新,今天更个福利:
几行代码,抱上IBM爸爸大腿,实现音频快速转文字~用到了IBM Waston的Speech to text(目前还是个demo)
碎碎念的废话~
前几天工作中遇到需要把音频转为文字稿的任务,顺便学了个新词语:扒词。扒词:根据视频信息获得文字信息,即根据录音或者台词,然后转字幕。
拿音频找导演联系扒词,结果导演居然说视频扒词可以,音频就算了吧,算了吧……!
我可是有30个音频,每个虽然才2-5分钟,但转成文字每个也有近千字吧,总和就是30000字!难道纯手打吗!踹翻导演啊!
科技这么发达,难道找不到音频转文字的软件吗!我于是搜了一下:
……天下没有免费的午餐。
感谢万能的知乎!让我找到了IBM 爸爸的Speech to text!
Speech to text官网在这里:
以及感谢一份15年的教程:
准备好你的音频,以及Python,开始吧!!(推荐Anaconda,关于Anaconda安装、Python包的安装,可以看文末我的两篇小笔记~)
第一步
点击首页紫色的那个「Star for free in IBM Cloud」按钮,注册IBM Cloud并登陆(注册不了的亲,记得科♂学上网)。
第二步
添加服务(因为我已经加了服务,没法给大家截图了,自己找找吧),添加后是这样的:
点击现有服务,找到已有的服务。
点击服务名称查看详情。
看到页面下方显示服务凭证,且username和password都是加密符号表示。点击右侧的「显示」,打开眼睛,把username和password记下来(复制到记事本里啦不要翻小本本了!)
好了,官网任务完成,可以关掉了。
第三步
Python安装SpeechRecognition包。
包的官网:
运行-cmd,打开命令提示符。输入pip install SpeechRecognition,耐心等待一会儿(我家里网速比较捉急,花了10分钟……网速好的话几秒钟吧,吐血),安装完成即可。
出现下面这行字说明装好了。
第四步
打开Jupyter Notebook开始写代码啦!
import speech_recognition as sr #加载包
r = sr.Recognizer() with sr.WavFile("E://1.mp3") as source: #请把引号内改成你自己的音频文件路径
audio = r.record(source)
运行这一步发现报错了。
原来要wav格式。推荐一个好用的神器:格式工厂。音频视频文件转格式我都用它,方便小巧。
转格式后把引号里的内容改成1.wav就可以运行了。
接着定义账号密码,把引号里的XXX改成你自己的。
IBM_USERNAME = 'XXXXXXXX'
IBM_PASSWORD= 'XXXXXXXX'
以及调用IBM的Speech to text。
text = r.recognize_ibm(audio, username = IBM_USERNAME, password = IBM_PASSWORD, language = 'zh-CN')
我2分多钟的音频大概运行了半分钟左右吧。这个text,就是你音频转过来的文字了。让我们来试试:
print(text)
嗯……虽然准确率没有100%,但也已经比较可观了!!
它支持多种语言,只需要把language变量改成以下这些就可以实现不同语言的转换:ar-AR 阿根廷语
en-UK 英式英语
en-US 美式英语
es-ES 西班牙语
fr-FR 法语
ja-JP 日语
pt-BR 巴西葡萄牙语
zh-CN 中文
每个免费账户每个月可使用100分钟,30天不活跃服务将删除。
6行代码轻松音频转文字,你学会了嘛?
文末小链接:
python 录音本地转文字_Waston+Python,6行代码实现音频转文字,轻松做字幕~相关推荐
- 【python】一个目录里面多个python程序文件,统计一下里面有多少行代码。即分别列出:代码、空行、注释的行数。
一个目录里面多个python程序文件,统计一下里面有多少行代码.即分别列出:代码.空行.注释的行数. 题目 代码 结果 题目 一个目录里面多个python程序文件,统计一下里面有多少行代码.即分别列出 ...
- python你TM太皮了——区区30行代码就能记录键盘的一举一动
先看看效果 Like This↓ 一.公共WiFi 公用电脑什么的 在我们日常在线上工作.玩耍时,不论开电脑.登录淘宝.玩网游 统统都会用到键盘输入 在几乎所有网站,例如淘宝.百度.126邮箱等等 为 ...
- 音频转文字有什么方法?怎么将音频转文字?
作为一名办公人士,除了要处理数不尽的工作内容,还要参加各种各样大大小小的会议,而且开会时还需要做会议纪要,记录会议上领导讲的内容.面对这样既需要笔速又需要听力的事情,稍有不慎就会听漏记错,如何在短时间 ...
- python屏幕文字识别_学会python就是如此任性,15行代码搞定图片文字识别,附源码...
python作为一门高级编程语言,它的定位是优雅.明确和简单.阅读Python编写的代码感觉像在阅读英语一样,这让使用者可以专注于解决问题而不是去搞明白语言本身.Python虽然是基于C语言编写,但是 ...
- python -不敢表白,不好意思说出来,没关系,7行代码完成自动打印文字
python -不敢表白,不好意思说出来,没关系,7行代码搞定自动打印文字 一.实现效果 我们先来看实现之后的效果: 二.代码实现 我们需要调用到控制台输出文字,于是需要引用到sys模块. imp ...
- tex中让公式和文字在一行_1行代码搞定LaTeX公式编写,这个4.6M的Python小插件,堪称论文必备神器...
点击上方"深度学习工坊",选择加"星标" 重磅干货,第一时间送达 萧箫 发自 凹非寺 本文转载自:量子位(QbitAI) 写论文时,手敲成堆的计算公式,被虐到头 ...
- 够强大,Python 这款可视化数据看板不足百行代码
对于从事数据领域的小伙伴来说,当需要阐述自己观点.展示项目成果时,我们需要在最短时间内让别人知道你的想法.我相信单调乏味的语言很难让别人快速理解.最直接有效的方式就是将数据进行可视化展现. 提到数据可 ...
- python调用计算器卡死_Python+tkinter使用40行代码实现计算器功能
本文实例为大家分享了40行Python代码实现计算器功能,供大家参考,具体内容如下 偶尔用脚本写点东西也是不错的. 效果图 代码 from tkinter import * reset=True de ...
- python实现统计你一共写了多少行代码
程序员要保证一定的代码量就必须勤奋的敲代码,但怎么知道自己一共写了多少代码呢,笔者用python写了个简单的脚本,遍历所有的.java,.cpp,.c文件的行数,但是正如大家所知,java生成了许多代 ...
最新文章
- linux可以运行常规软件吗,Linux安装一些常规软件(浅显)
- 方维分享系统,品牌无法设置分类关联
- Linux快捷键及命令
- iOS 获取屏幕方向,和强制屏幕旋转
- 简析时间复杂度和空间复杂度
- 分布式环境时钟同步问题
- ionic开发记账软件《易跟金》
- 2021年深圳市产业发展与创新人才奖申报条件及材料
- 《黑匣子思维:我们如何更理性地犯错》iphone部分
- 面试之java提高-杨晓峰专栏笔记
- L1-038 新世界 (5 分) C语言
- 所有帖子的 分类 总结
- 第四篇:由浅入深,虚拟机常量池底层解析
- ui设计师需要学习什么,初学者必了解
- Python中类方法,静态方法,实例化方法
- 高压电缆感应式取电电源分析及设计
- linux——ifcfg-ens33文件参数解释
- iQOO7/iQOO8、iQOO8Pro/iQOO9、iQOO9Pro密码忘记怎么解锁?如何刷机解锁删除屏幕和账号密码?
- 向大家介绍一位牛逼的IT老师 => 廖神
- ER图转关系模型小结
热门文章
- 【ChatGPT】《Azure OpenAI 服务 - 提示工程简介》- 知识点目录
- IgH详解十、EtherCAT DC(4)主站做参考时钟和从站作参考时钟性能对比
- 今日分享|闪魔钢化膜5.8/医用口罩60个18.8/手机壳5.6秒变iPhone12/苏打水一箱12瓶16.8/鼠标19.9/等...
- Tampermonkey油猴 加载 jQuery
- SSRF漏洞原理解析
- IT项目管理中风险控制的4个重要步骤
- 服务器 备案 文档,服务器备案
- 八爪鱼南都行|人工智能助力智能门锁行业研究
- [No0000139]轻量级文本编辑器,Notepad最佳替代品:Notepad++
- Android学习之BlurImageView实现图像模糊效果