前言:

9月21日,OpenAI 发布了一个名为「Whisper 」的神经网络,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。

「Whisper 」式一个自动语音识别(ASR)系统,研究团队通过使用从网络上收集的68万个小时多语音和多任务监督数据,来对其进行训练。

训练过程中研究团队发现,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。

此前有不同研究表明,虽然无监督预训练可以显著提高音频编码器的质量,但由于缺乏同等高质量的预训练解码器,以及特定于数据集中的微调协议,因此在一定程度上限制了模型的有效性和鲁棒性;而在部分有监督的方式预训练语音识别系统中,其表现会比单一源训练的模型呈现出更高的鲁棒性。

对此,在「Whisper 」中,OpenAI 在新数据集比现有高质量数据集总和大几倍的基础上,将弱监督语音识别的数量级扩展至68万小时;同时,研究团队还演示了在这种规模下,所训练模型在转移现有数据集的零射击表现,可消除任何特定于数据集微调的影响,以实现高质量结果。

摘自:OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平 | 雷峰网 (leiphone.com)

官方项目GitHub

https://github.com/openai/whisper

截至项目开源,短短数天之内,star就到达了9k之多,可谓备受瞩目。

官方还贴心地给出了几款不同参数地模型可供选择。

今天我们就按照官方的配置来体验一下这款语音识别网络。

官方给出的所需配置prerequisite如下

  • python3.9.9
  • pyTorch1.10.1
  • ffmpeg

接下来我们开始配置。

配置

测试环境:WSL2 Ubuntu18.04

安装python3.9

更新软件包列表并安装必备组件:

sudo apt update
sudo apt install software-properties-common

将Deadsnakes PPA添加到系统的源列表中:

sudo add-apt-repository ppa:deadsnakes/ppa

出现提示时,按[Enter]以继续。

启用存储库后,可以通过执行以下命令安装Python 3.9:

sudo apt install python3.9

通过键入以下命令验证安装是否成功

python3.9 --version

输出:

Python 3.9.0+

Python 3.9已安装在Ubuntu上。

随后安装pip

curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
python3.9 get-pip.py

安装whisper

pip install git+https://github.com/openai/whisper.git

安装FFmpeg

可以使用apt安装,单出于网络原因,也可以选择到官网下载deb

测试代码

import whispermodel = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

我们将测试文档中的样例代码(提前准备好一个音频文件)

bang~ 结果还是非常理想的,在没有使用GPU的情况下,一段4分中的音频仅仅用时30s就完成了转换,而且正确率也相当可观。

对具体参数和模型评估细节感兴趣的朋友也可以自行阅读官方发布的paper~

以上就是对whisper的一次简单体验。

whisper ASR体验相关推荐

  1. 语音识别 - ASR whisper

    目录 1. 简单介绍 2. 代码调用 1. 简单介绍 Introducing Whisperhttps://openai.com/blog/whisper/ OpenAI 的开源自动语音识别神经网络 ...

  2. 开源(离线)中文语音识别ASR(语音转文本)工具整理

    开源(离线)中文语音识别ASR(语音转文本)工具整理 目录 文章目录 目录 @[toc] open ai 的开源工具:whisper whisper介绍 引用 ASRT语音识别项目 ASRT介绍 引用 ...

  3. 在网易有道做语音算法工程师是一种怎样的体验?

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 一个成立不到两年的团队,两个初入职场的新人,杀入顶会挑战赛能拿下怎样的成绩? 时限是,10天. 近日,全球语音顶会INTERSPEECH 2 ...

  4. 猫晚流量再创记录,阿里云直播方案护航优酷2500万用户体验

    对"剁手党而言,天猫双11早已经超越了简单的"买买买",更是一场边看边玩的狂欢盛宴.今年的天猫双11狂欢夜晚会(简称"猫晚")在上海举办,这台兼具年轻 ...

  5. 火山引擎视频云:坚持基础技术创新,打造极致用户体验

    点击上方"LiveVideoStack"关注我们 从toC到toB,作为抖音背后的视频技术中台,火山引擎视频云经历了哪些转变和挑战?对于国际标准的制定,它是如何实现从跟随者到参与者 ...

  6. Consul在.Net Core中初体验

    Consul在.Net Core中初体验 原文:Consul在.Net Core中初体验 简介 在阅读本文前我想您应该对微服务架构有一个基本的或者模糊的了解 Consul是一个服务管理软件,它其实有很 ...

  7. 语音识别(1)---语音识别(ASR)评估指标-WER(字错误率)和SER(句错误率)

    语音识别(ASR)评估指标-WER(字错误率)和SER(句错误率) 前言 实际工作中,一般识别率的直接指标是"WER(词错误率,Word Error Rate)" 定义 WER 字 ...

  8. 当输入法语音识别准确率达97%是怎样一种体验?

    原标题:当输入法语音识别准确率达97%是怎样一种体验? 为何大家都在感叹"语音输入"是一项黑科技?"语音输入"并不是近10年才兴起的新技术,早在上个世纪中期,& ...

  9. 一文看懂语音识别 - ASR(基本原理 + 4个实现流程)

    文章目录 语音识别是什么?他有什么价值,以及他的技术原理是什么?本文将解答大家对语音识别的常见疑问. 语音识别技术(ASR)是什么? 机器要与人实现对话,那就需要实现三步: 对应的便是"耳& ...

  10. 语音识别asr是什么

    广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 腾讯云语音识别(asr) 为开发者提供语音转文字服务的最佳体验. 语音识 ...

最新文章

  1. 北京科技大学计算机科学与技术复试,【2017年整理】北京科技大学计算机科学与技术考研经验.doc...
  2. MPLS/×××分解:防止PE-CE的路由环路
  3. 自定义DataSet
  4. 1.15 Java访问控制修饰符(public、 private、protected 和 friendly)
  5. 五个 SQL 查询性能测试题,只有 40% 及格率,你敢来挑战吗?
  6. (原+转)使用opencv的DFT计算卷积
  7. k8s解决coredns 的ImagePullBackOff 和ErrImagePull 问题
  8. 手机modem开发(8)---TS 系列规范总结
  9. 数学与计算机教学设计,数学和信息技术整合的思考 教案教学设计
  10. Oracle Spatial常用方法记录
  11. GENTLE.NET快速上手
  12. 100行代码,10分钟,详解Vue2.x响应式原理——理解Observer,Dep,Watcher
  13. pc游戏平台_如何提高您在PC游戏中的目标
  14. python 编程控制键盘和鼠标
  15. h5画三角形_H5如何在网页中绘制三角形,值得一看
  16. asr标注工具_BLASR:PacBio数据比对工具
  17. 网站开启https后很慢_网站开启https后地址栏安全锁灰色或黄色叹号
  18. 域名劫持关系着你我的方方面面!
  19. 服务器生成js文件,Next.js 静态生成和服务器端渲染
  20. Linux操作系统下的一些简单网络配置命令

热门文章

  1. 【服务器数据恢复】StorNext文件系统数据恢复案例
  2. VMware虚拟机里如何改硬盘型号躲避防封检测
  3. ZUI框架加上Flex布局构建登录后的主页
  4. 涉及欧拉常数的一道数学题
  5. vue.js毕业设计,基于vue.js前后端分离在线教育视频点播系统设计与实现(H5移动项目)
  6. css 面包屑 30个字节,css3面包屑设计
  7. 让GIS三维可视化变得简单-地理坐标系统
  8. 首次登录强制修改密码
  9. roms netcdf结构体用法(弃用)
  10. Exception: ROM is missing for xxxx, see https://github.com/openai/atari-py 强化学习安装Atari环境时ROMS丢失解决办法