whisper ASR体验

前言：

9月21日，OpenAI 发布了一个名为「Whisper 」的神经网络，声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。

「Whisper 」式一个自动语音识别（ASR）系统，研究团队通过使用从网络上收集的68万个小时多语音和多任务监督数据，来对其进行训练。

训练过程中研究团队发现，使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。

此前有不同研究表明，虽然无监督预训练可以显著提高音频编码器的质量，但由于缺乏同等高质量的预训练解码器，以及特定于数据集中的微调协议，因此在一定程度上限制了模型的有效性和鲁棒性；而在部分有监督的方式预训练语音识别系统中，其表现会比单一源训练的模型呈现出更高的鲁棒性。

对此，在「Whisper 」中，OpenAI 在新数据集比现有高质量数据集总和大几倍的基础上，将弱监督语音识别的数量级扩展至68万小时；同时，研究团队还演示了在这种规模下，所训练模型在转移现有数据集的零射击表现，可消除任何特定于数据集微调的影响，以实现高质量结果。

摘自：OpenAI 发布新语音系统「Whisper 」，英文识别能力可接近人类水平 | 雷峰网 (leiphone.com)

官方项目GitHub

https://github.com/openai/whisper

截至项目开源，短短数天之内，star就到达了9k之多，可谓备受瞩目。

官方还贴心地给出了几款不同参数地模型可供选择。

今天我们就按照官方的配置来体验一下这款语音识别网络。

官方给出的所需配置prerequisite如下

python3.9.9
pyTorch1.10.1
ffmpeg

接下来我们开始配置。

配置

测试环境：WSL2 Ubuntu18.04

安装python3.9

更新软件包列表并安装必备组件：

sudo apt update
sudo apt install software-properties-common

将Deadsnakes PPA添加到系统的源列表中：

sudo add-apt-repository ppa:deadsnakes/ppa

出现提示时，按[Enter]以继续。

启用存储库后，可以通过执行以下命令安装Python 3.9：

sudo apt install python3.9

通过键入以下命令验证安装是否成功

python3.9 --version

输出：

Python 3.9.0+

Python 3.9已安装在Ubuntu上。

随后安装pip

curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
python3.9 get-pip.py

安装whisper

pip install git+https://github.com/openai/whisper.git

安装FFmpeg

可以使用apt安装，单出于网络原因，也可以选择到官网下载deb

测试代码

import whispermodel = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

我们将测试文档中的样例代码（提前准备好一个音频文件）

bang~ 结果还是非常理想的，在没有使用GPU的情况下，一段4分中的音频仅仅用时30s就完成了转换，而且正确率也相当可观。

对具体参数和模型评估细节感兴趣的朋友也可以自行阅读官方发布的paper~

以上就是对whisper的一次简单体验。

whisper ASR体验相关推荐

语音识别 - ASR whisper
目录 1. 简单介绍 2. 代码调用 1. 简单介绍 Introducing Whisperhttps://openai.com/blog/whisper/ OpenAI 的开源自动语音识别神经网络 ...
开源(离线)中文语音识别ASR(语音转文本)工具整理
开源(离线)中文语音识别ASR(语音转文本)工具整理目录文章目录目录 @[toc] open ai 的开源工具:whisper whisper介绍引用 ASRT语音识别项目 ASRT介绍引用 ...
在网易有道做语音算法工程师是一种怎样的体验？
鱼羊发自凹非寺量子位报道 | 公众号 QbitAI 一个成立不到两年的团队,两个初入职场的新人,杀入顶会挑战赛能拿下怎样的成绩? 时限是,10天. 近日,全球语音顶会INTERSPEECH 2 ...
猫晚流量再创记录，阿里云直播方案护航优酷2500万用户体验
对"剁手党而言,天猫双11早已经超越了简单的"买买买",更是一场边看边玩的狂欢盛宴.今年的天猫双11狂欢夜晚会(简称"猫晚")在上海举办,这台兼具年轻 ...
火山引擎视频云：坚持基础技术创新，打造极致用户体验
点击上方"LiveVideoStack"关注我们从toC到toB,作为抖音背后的视频技术中台,火山引擎视频云经历了哪些转变和挑战?对于国际标准的制定,它是如何实现从跟随者到参与者 ...
Consul在.Net Core中初体验
Consul在.Net Core中初体验原文:Consul在.Net Core中初体验简介在阅读本文前我想您应该对微服务架构有一个基本的或者模糊的了解 Consul是一个服务管理软件,它其实有很 ...
语音识别（1）---语音识别(ASR)评估指标-WER（字错误率）和SER（句错误率）
语音识别(ASR)评估指标-WER(字错误率)和SER(句错误率) 前言实际工作中,一般识别率的直接指标是"WER(词错误率,Word Error Rate)" 定义 WER 字 ...
当输入法语音识别准确率达97%是怎样一种体验？
原标题:当输入法语音识别准确率达97%是怎样一种体验? 为何大家都在感叹"语音输入"是一项黑科技?"语音输入"并不是近10年才兴起的新技术,早在上个世纪中期,& ...
一文看懂语音识别 - ASR（基本原理 + 4个实现流程）
文章目录语音识别是什么?他有什么价值,以及他的技术原理是什么?本文将解答大家对语音识别的常见疑问. 语音识别技术(ASR)是什么? 机器要与人实现对话,那就需要实现三步: 对应的便是"耳& ...
语音识别asr是什么
广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 腾讯云语音识别(asr) 为开发者提供语音转文字服务的最佳体验. 语音识 ...

whisper ASR体验

前言：

配置

whisper ASR体验相关推荐

最新文章

热门文章