说起来语音转换文字,openai旗下的whisper很是好用,推理也很快,同时支持cpu和GPU。

GitHub:GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

相关的参数和内存使用如下:

Size Parameters English-only model Multilingual model Required VRAM Relative speed
tiny 39 M tiny.en tiny ~1 GB ~32x
base 74 M base.en base ~1 GB ~16x
small 244 M small.en small ~2 GB ~6x
medium 769 M medium.en medium ~5 GB ~2x
large 1550 M N/A large ~10 GB 1x

CPU推理会慢一些,一般机器使用small模型即可,该模型内存占用不是很高

1.安装

a.直接通过pip安装

pip install -U openai-whisper
pip install setuptools-rust

b.通过git仓库安装

pip install git+https://github.com/openai/whisper.git 

c.将安装包升级到仓库最新版

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

d.安装 ffmpeg,本次系统是centos8stream,可以通过下面命令安装

dnf install -y https://download1.rpmfusion.org/free/el/rpmfusion-free-release-8.noarch.rpm
dnf install -y install http://rpmfind.net/linux/epel/7/x86_64/Packages/s/SDL2-2.0.14-2.el7.x86_64.rpm
dnf install ffmpeg -y

其他系统可参考如下:

# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg# on Arch Linux
sudo pacman -S ffmpeg# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg

2.使用

可以通过Python进行下面操作

import whispermodel = whisper.load_model("small") # 如果模型不存在,会自动下载,默认下载路径 "~/.cache/whisper"
result = model.transcribe("temp.wav")
print(result["text"])

whisper 强大且开源的语音转文字相关推荐

  1. 开源python语音识别_5 款不错的开源语音识别/语音文字转换系统

    语音文字转换(speech-to-text)(STT)系统就像它名字所蕴含的意思那样,是一种将说出的单词转换为文本文件以供后续用途的方式. 语音文字转换技术非常有用.它可以用到许多应用中,例如自动转录 ...

  2. 有这5款开源软件,语音转文字很简单!

    来自:开源最前线(ID:OpenSourceTop)  链接:https://fosspost.org/lists/open-source-speech-recognition-speech-to-t ...

  3. Buzz语音转文字安装使用(含Whisper模型下载)

    简介: Transcribe and translate audio offline on your personal computer. Powered by OpenAI's Whisper. 转 ...

  4. 有什么开源的python汉语语音转文字项目?

    随着语音技术的不断发展,语音识别技术已经逐渐成熟,成为了很多智能应用的重要组成部分,比如智能家居.语音助手等等.而在语音识别技术中,汉语语音识别则是一个更具有挑战性的领域.为了方便程序员们进行汉语语音 ...

  5. 「微信同声传译」小程序插件:快速实现语音转文字、文本翻译、语音合成等能力...

    上期,我们在<「医院 LBS 位置服务」插件:输出LBS室内位置能力,为改善就医服务提供解决方案>一文中介绍了「医院 LBS 位置服务」小程序插件的意义.使用场景以及使用方法. 今天我们为 ...

  6. Python 神工具包!翻译、文字识别、语音转文字统统搞定

    今天给大家介绍一款 Python 制作的实用工具包,包含多种功能: 音频转文字 文字转语音 截图 OCR文字识别 复制翻译 举个例子,比如截图 OCR 文字识别就有很多实用场景. 常会遇到有些 PDF ...

  7. 【开源】高颜值 功能强大的开源Markdown编辑器

    开源最前线(ID:OpenSourceTop) 猿妹编译 地址:https://github.com/notable/notable Markdown是一种可以使用普通文本编辑器编写的标记语言,通过简 ...

  8. python识别pdf文字_Python 神工具包!翻译、文字识别、语音转文字统统搞定

    今天给大家介绍一款 Python 制作的实用工具包,包含多种功能: 音频转文字 文字转语音 截图 OCR文字识别 复制翻译 举个例子,比如截图 OCR 文字识别就有很多实用场景. 常会遇到有些 PDF ...

  9. 三大运营商回复 4G 降速;微信上线语音转文字功能;IntelliJ IDEA 2019.2.1 发布 | 极客头条...

    快来收听极客头条音频版吧,智能播报由标贝科技提供技术支持. 「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道.风里雨里,我们将每天为朋友们,播报最新鲜有 ...

最新文章

  1. 路由器中的管理间距和量度参数
  2. axure变成一个小手了_Axure原型:超漂亮的系统首页
  3. STM32 电机教程 23 - ST MCLIB实战之基于stm32f13c8tx构建FOC工程
  4. python元类、反射及双线方法
  5. 沈南鹏:从五大物理定律看新商业法则
  6. Spring 框架的JDBC模板技术
  7. 第六节: 六类Calander处理六种不同的时间场景
  8. jsp学习笔记 - 内置对象 session
  9. c语言 参数经过运算后还原为输入值,1:编程实现由键盘输入两个整数,将其赋给变量x和y并输出,交换x和y的值后再输出 用函数输出!...
  10. 关于在阅读nnUNet代码中的一些小细节的记录(二)
  11. Microsoft Office Mobile 2010 Beta 于 4 月 5 日过期
  12. Fiddler | fiddler的https设置/证书失效怎么办
  13. 硬件工程师痛苦的BOM整理工作,幸好123BOM工具把我拽出水深火热之的BOM编辑工作,超级好用的研发BOM工具,集BOM编辑、BOM合并、BOM拆分、BOM整理等
  14. 联想服务器如何恢复预装系统,Thinkcentre E73 E63z等预装Win7系统如何恢复出厂系统...
  15. 学习云计算为什么先学Linux?
  16. 概率论大作业C语言验证正态分布的数学期望和方差
  17. MS发起的PDP上下文激活过程
  18. 常用的绩效管理系统应该具备哪些功能呢?
  19. 单元测试总结反思_单元考试反思总结
  20. Android 图片文字识别DEMO(基于百度OCR)

热门文章

  1. Leetcode #790 多米诺和托米诺平铺
  2. 并发编程实战-MESI缓存一致性协议
  3. 裸辞20天,10个offer
  4. android中text怎么使用方法,如何在Android中使用TextWatcher类?
  5. 用Go语言实现登录验证 (Golang经典编程案例)
  6. 深度学习 相机标定_相机标定
  7. 什么硬件决定计算机运算速度,如何提高电脑运行速度,什么硬件决定电脑运行速度...
  8. 搜索原理解析,影响搜索关键词相关性的五大因素,如何优化店铺标题?
  9. 2022年熔化焊接与热切割考试练习题及模拟考试
  10. android卡片式网格,CardView(卡片式布局)