whisper 强大且开源的语音转文字
说起来语音转换文字,openai旗下的whisper很是好用,推理也很快,同时支持cpu和GPU。
GitHub:GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
相关的参数和内存使用如下:
Size | Parameters | English-only model | Multilingual model | Required VRAM | Relative speed |
---|---|---|---|---|---|
tiny | 39 M |
tiny.en
|
tiny
|
~1 GB | ~32x |
base | 74 M |
base.en
|
base
|
~1 GB | ~16x |
small | 244 M |
small.en
|
small
|
~2 GB | ~6x |
medium | 769 M |
medium.en
|
medium
|
~5 GB | ~2x |
large | 1550 M | N/A |
large
|
~10 GB | 1x |
CPU推理会慢一些,一般机器使用small模型即可,该模型内存占用不是很高
1.安装
a.直接通过pip安装
pip install -U openai-whisper
pip install setuptools-rust
b.通过git仓库安装
pip install git+https://github.com/openai/whisper.git
c.将安装包升级到仓库最新版
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
d.安装 ffmpeg,本次系统是centos8stream,可以通过下面命令安装
dnf install -y https://download1.rpmfusion.org/free/el/rpmfusion-free-release-8.noarch.rpm
dnf install -y install http://rpmfind.net/linux/epel/7/x86_64/Packages/s/SDL2-2.0.14-2.el7.x86_64.rpm
dnf install ffmpeg -y
其他系统可参考如下:
# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg# on Arch Linux
sudo pacman -S ffmpeg# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg
2.使用
可以通过Python进行下面操作
import whispermodel = whisper.load_model("small") # 如果模型不存在,会自动下载,默认下载路径 "~/.cache/whisper"
result = model.transcribe("temp.wav")
print(result["text"])
whisper 强大且开源的语音转文字相关推荐
- 开源python语音识别_5 款不错的开源语音识别/语音文字转换系统
语音文字转换(speech-to-text)(STT)系统就像它名字所蕴含的意思那样,是一种将说出的单词转换为文本文件以供后续用途的方式. 语音文字转换技术非常有用.它可以用到许多应用中,例如自动转录 ...
- 有这5款开源软件,语音转文字很简单!
来自:开源最前线(ID:OpenSourceTop) 链接:https://fosspost.org/lists/open-source-speech-recognition-speech-to-t ...
- Buzz语音转文字安装使用(含Whisper模型下载)
简介: Transcribe and translate audio offline on your personal computer. Powered by OpenAI's Whisper. 转 ...
- 有什么开源的python汉语语音转文字项目?
随着语音技术的不断发展,语音识别技术已经逐渐成熟,成为了很多智能应用的重要组成部分,比如智能家居.语音助手等等.而在语音识别技术中,汉语语音识别则是一个更具有挑战性的领域.为了方便程序员们进行汉语语音 ...
- 「微信同声传译」小程序插件:快速实现语音转文字、文本翻译、语音合成等能力...
上期,我们在<「医院 LBS 位置服务」插件:输出LBS室内位置能力,为改善就医服务提供解决方案>一文中介绍了「医院 LBS 位置服务」小程序插件的意义.使用场景以及使用方法. 今天我们为 ...
- Python 神工具包!翻译、文字识别、语音转文字统统搞定
今天给大家介绍一款 Python 制作的实用工具包,包含多种功能: 音频转文字 文字转语音 截图 OCR文字识别 复制翻译 举个例子,比如截图 OCR 文字识别就有很多实用场景. 常会遇到有些 PDF ...
- 【开源】高颜值 功能强大的开源Markdown编辑器
开源最前线(ID:OpenSourceTop) 猿妹编译 地址:https://github.com/notable/notable Markdown是一种可以使用普通文本编辑器编写的标记语言,通过简 ...
- python识别pdf文字_Python 神工具包!翻译、文字识别、语音转文字统统搞定
今天给大家介绍一款 Python 制作的实用工具包,包含多种功能: 音频转文字 文字转语音 截图 OCR文字识别 复制翻译 举个例子,比如截图 OCR 文字识别就有很多实用场景. 常会遇到有些 PDF ...
- 三大运营商回复 4G 降速;微信上线语音转文字功能;IntelliJ IDEA 2019.2.1 发布 | 极客头条...
快来收听极客头条音频版吧,智能播报由标贝科技提供技术支持. 「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道.风里雨里,我们将每天为朋友们,播报最新鲜有 ...
最新文章
- 路由器中的管理间距和量度参数
- axure变成一个小手了_Axure原型:超漂亮的系统首页
- STM32 电机教程 23 - ST MCLIB实战之基于stm32f13c8tx构建FOC工程
- python元类、反射及双线方法
- 沈南鹏:从五大物理定律看新商业法则
- Spring 框架的JDBC模板技术
- 第六节: 六类Calander处理六种不同的时间场景
- jsp学习笔记 - 内置对象 session
- c语言 参数经过运算后还原为输入值,1:编程实现由键盘输入两个整数,将其赋给变量x和y并输出,交换x和y的值后再输出 用函数输出!...
- 关于在阅读nnUNet代码中的一些小细节的记录(二)
- Microsoft Office Mobile 2010 Beta 于 4 月 5 日过期
- Fiddler | fiddler的https设置/证书失效怎么办
- 硬件工程师痛苦的BOM整理工作,幸好123BOM工具把我拽出水深火热之的BOM编辑工作,超级好用的研发BOM工具,集BOM编辑、BOM合并、BOM拆分、BOM整理等
- 联想服务器如何恢复预装系统,Thinkcentre E73 E63z等预装Win7系统如何恢复出厂系统...
- 学习云计算为什么先学Linux?
- 概率论大作业C语言验证正态分布的数学期望和方差
- MS发起的PDP上下文激活过程
- 常用的绩效管理系统应该具备哪些功能呢?
- 单元测试总结反思_单元考试反思总结
- Android 图片文字识别DEMO(基于百度OCR)
热门文章
- Leetcode #790 多米诺和托米诺平铺
- 并发编程实战-MESI缓存一致性协议
- 裸辞20天,10个offer
- android中text怎么使用方法,如何在Android中使用TextWatcher类?
- 用Go语言实现登录验证 (Golang经典编程案例)
- 深度学习 相机标定_相机标定
- 什么硬件决定计算机运算速度,如何提高电脑运行速度,什么硬件决定电脑运行速度...
- 搜索原理解析,影响搜索关键词相关性的五大因素,如何优化店铺标题?
- 2022年熔化焊接与热切割考试练习题及模拟考试
- android卡片式网格,CardView(卡片式布局)