whisper 强大且开源的语音转文字

说起来语音转换文字，openai旗下的whisper很是好用，推理也很快，同时支持cpu和GPU。

GitHub：GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

相关的参数和内存使用如下：

Size	Parameters	English-only model	Multilingual model	Required VRAM	Relative speed
tiny	39 M	`tiny.en`	`tiny`	~1 GB	~32x
base	74 M	`base.en`	`base`	~1 GB	~16x
small	244 M	`small.en`	`small`	~2 GB	~6x
medium	769 M	`medium.en`	`medium`	~5 GB	~2x
large	1550 M	N/A	`large`	~10 GB	1x

CPU推理会慢一些，一般机器使用small模型即可，该模型内存占用不是很高

1.安装

a.直接通过pip安装

pip install -U openai-whisper
pip install setuptools-rust

b.通过git仓库安装

pip install git+https://github.com/openai/whisper.git

c.将安装包升级到仓库最新版

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

d.安装 ffmpeg，本次系统是centos8stream，可以通过下面命令安装

dnf install -y https://download1.rpmfusion.org/free/el/rpmfusion-free-release-8.noarch.rpm
dnf install -y install http://rpmfind.net/linux/epel/7/x86_64/Packages/s/SDL2-2.0.14-2.el7.x86_64.rpm
dnf install ffmpeg -y

其他系统可参考如下：

# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg# on Arch Linux
sudo pacman -S ffmpeg# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg

2.使用

可以通过Python进行下面操作

import whispermodel = whisper.load_model("small") # 如果模型不存在，会自动下载，默认下载路径 "~/.cache/whisper"
result = model.transcribe("temp.wav")
print(result["text"])

whisper 强大且开源的语音转文字相关推荐

开源python语音识别_5 款不错的开源语音识别/语音文字转换系统
语音文字转换(speech-to-text)(STT)系统就像它名字所蕴含的意思那样,是一种将说出的单词转换为文本文件以供后续用途的方式. 语音文字转换技术非常有用.它可以用到许多应用中,例如自动转录 ...
有这5款开源软件，语音转文字很简单！
来自:开源最前线(ID:OpenSourceTop) 链接:https://fosspost.org/lists/open-source-speech-recognition-speech-to-t ...
Buzz语音转文字安装使用(含Whisper模型下载)
简介: Transcribe and translate audio offline on your personal computer. Powered by OpenAI's Whisper. 转 ...
有什么开源的python汉语语音转文字项目？
随着语音技术的不断发展,语音识别技术已经逐渐成熟,成为了很多智能应用的重要组成部分,比如智能家居.语音助手等等.而在语音识别技术中,汉语语音识别则是一个更具有挑战性的领域.为了方便程序员们进行汉语语音 ...
「微信同声传译」小程序插件：快速实现语音转文字、文本翻译、语音合成等能力...
上期,我们在<「医院 LBS 位置服务」插件:输出LBS室内位置能力,为改善就医服务提供解决方案>一文中介绍了「医院 LBS 位置服务」小程序插件的意义.使用场景以及使用方法. 今天我们为 ...
Python 神工具包！翻译、文字识别、语音转文字统统搞定
今天给大家介绍一款 Python 制作的实用工具包,包含多种功能: 音频转文字文字转语音截图 OCR文字识别复制翻译举个例子,比如截图 OCR 文字识别就有很多实用场景. 常会遇到有些 PDF ...
【开源】高颜值功能强大的开源Markdown编辑器
开源最前线(ID:OpenSourceTop) 猿妹编译地址:https://github.com/notable/notable Markdown是一种可以使用普通文本编辑器编写的标记语言,通过简 ...
python识别pdf文字_Python 神工具包！翻译、文字识别、语音转文字统统搞定
今天给大家介绍一款 Python 制作的实用工具包,包含多种功能: 音频转文字文字转语音截图 OCR文字识别复制翻译举个例子,比如截图 OCR 文字识别就有很多实用场景. 常会遇到有些 PDF ...
三大运营商回复 4G 降速；微信上线语音转文字功能；IntelliJ IDEA 2019.2.1 发布 | 极客头条...
快来收听极客头条音频版吧,智能播报由标贝科技提供技术支持. 「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道.风里雨里,我们将每天为朋友们,播报最新鲜有 ...

whisper 强大且开源的语音转文字

whisper 强大且开源的语音转文字相关推荐

最新文章

热门文章