1 whisper介绍

拥有ChatGPT语言模型的OpenAI公司,开源了 Whisper 自动语音识别系统,OpenAI 强调 Whisper 的语音识别能力已达到人类水准。

Whisper是一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁棒性和准确性。Whisper还可以进行多语言语音识别、语音翻译和语言识别等任务。Whisper的架构是一个简单的端到端方法,采用了编码器-解码器的Transformer模型,将输入的音频转换为对应的文本序列,并根据特殊的标记来指定不同的任务。

Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。OpenAI 开放模型和推理代码,希望开发者可以将 Whisper 作为建立有用的应用程序和进一步研究语音处理技术的基础。

代码地址:代码地址

2 whisper模型

Whisper 执行操作的过程:

输入的音频被分割成 30 秒的小段、转换为 log-Mel 频谱图,然后传递到编码器。解码器经过训练以预测相应的文字说明,并与特殊的标记进行混合,这些标记指导单一模型执行诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻译等任务。

相比目前市面上的其他现有方法,它们通常使用较小的、更紧密配对的「音频 - 文本」训练数据集,或使用广泛但无监督的音频预训练集。因为 Whisper 是在一个大型和多样化的数据集上训练的,而没有针对任何特定的数据集进行微调,虽然它没有击败专攻 LibriSpeech 性能的模型(著名的语音识别基准测试),然而在许多不同的数据集上测量 Whisper 的 Zero-shot(不需要对新数据集重新训练,就能得到很好的结果)性能时,研究人员发现它比那些模型要稳健得多,犯的错误要少 50%。

3 whisper的多种模型

whisper有五种模型尺寸,提供速度和准确性的平衡,其中English-only模型提供了四种选择。下面是可用模型的名称、大致内存需求和相对速度。

模型的官方下载地址:

"tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
"tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
"base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
"base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt",
"small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt",
"small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt",
"medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt",
"medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
"large-v1": "https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt",
"large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",
"large": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",

4 运行环境安装及whisper使用

(1)conda环境安装

参见:annoconda安装

(2)whisper环境构建

conda create -n whisper python==3.9
conda activate whisper
pip install openai-whisper
conda install ffmpeg
pip install setuptools-rust

(3)whisper使用

whisper /opt/000001.wav --model base

输出内容如下:

[00:00.000 --> 00:02.560] 人工智能识别系统。

执行命令时,会自动进行模型下载,自动下载模型存储的路径如下:

~/.cache/whisper

也可以通过命令行制定本地模型运行:

Whisper /opt/000001.wav --model base --model_dir /opt/models --language Chinese

支持的文件格式:m4a、mp3、mp4、mpeg、mpga、wav、webm

(4)在代码中使用

import whispermodel = whisper.load_model("base")
result = model.transcribe("/opt/000001.wav")
print(result["text"])

OpenAI的人工智能语音识别模型Whisper详解及使用相关推荐

  1. 【直播】陈安东,但扬:CNN模型搭建、训练以及LSTM模型思路详解

    CNN模型搭建.训练以及LSTM模型思路详解 目前 Datawhale第24期组队学习 正在如火如荼的进行中.为了大家更好的学习"零基础入门语音识别(食物声音识别)"的课程设计者 ...

  2. 太原理工大学自考计算机应用难,太原理工大学人工智能精彩试题+问题详解

    <太原理工大学人工智能精彩试题+问题详解>由会员分享,可在线阅读,更多相关<太原理工大学人工智能精彩试题+问题详解(11页珍藏版)>请在人人文库网上搜索. 1.人工智能试卷A一 ...

  3. 如何在矩池云上安装语音识别模型 Whisper

    如何在矩池云上安装语音识别模型 Whisper Whisper 是 OpenAI 近期开源的一个语音识别的模型,研究人员基于 680,000 小时的标记音频数据进行训练,它同时也是一个多任务模型,可以 ...

  4. Java 内存模型 JMM 详解

    转载自 Java 内存模型 JMM 详解 JMM简介 Java Memory Model简称JMM, 是一系列的Java虚拟机平台对开发者提供的多线程环境下的内存可见性.是否可以重排序等问题的无关具体 ...

  5. Java内存模型(JMM)详解

    在Java JVM系列文章中有朋友问为什么要JVM,Java虚拟机不是已经帮我们处理好了么?同样,学习Java内存模型也有同样的问题,为什么要学习Java内存模型.它们的答案是一致的:能够让我们更好的 ...

  6. 并联下垂控制(DROOP控制)_SIMULINK模型搭建详解

    一.前言 对于多逆变器并联,最常见以及最经典的方式是采用下垂控制(DROOP控制).通过下垂控制实现微电网的调压调频功能. 二.控制策略 采用三环控制结构:下垂功率外环+电压电流双闭环 控制部分 功率 ...

  7. lvs dr 模型配置详解

    lvs dr 模型配置详解 [学习笔记] 前期准备: 两台服务器 note01(lvs服务器) note02(real sever) 1 首先在note01配置子网卡: ifconfig eth0:2 ...

  8. 生成模型——自回归模型详解与PixelCNN构建

    生成模型--自回归模型详解与PixelCNN构建 自回归模型(Autoregressive models) 简介 PixelRNN 使用TensorFlow 2构建PixelCNN模型 输入和标签 掩 ...

  9. 网络模型 LSTM模型内容详解

    网络模型 LSTM模型内容详解

最新文章

  1. C# Task注意事项
  2. Unity学习笔记(5):动态加载Prefab
  3. 编辑器插件不生效在html中,关于6.04版本HTML编辑器插件使用问题!
  4. leetcode 58. Length of Last Word 题解【C++/Java/Python/JS】
  5. Redis 高可用特性之 “持久化” 详解
  6. windows 哪些服务必须打开
  7. vue map遍历_vue中内嵌百度地图
  8. iOS病毒门还没完:美国210家企业仍在用感染App
  9. WebSocket websockets
  10. 基础篇:6.Android数据库编程---SQLite
  11. 爱创课堂每日一题第三十三天- 如何评价AngularJS和BackboneJS?
  12. php怎么初始化融云sdk,初始化融云 SDK
  13. 动手了!限19天,大米云主机满10送2手慢无!
  14. 基于MFC对话框的qq游戏连连看外挂
  15. HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\NET Framework Setup\NDP
  16. java 生成.pcap_java抓包后对pcap文件解析示例
  17. 关于同一局域网中,获取的IP非本地真实IP的问题。
  18. 【论文阅读】Efficient Illuminant Estimation for Color Constancy Using Grey Pixels
  19. CoolEdit导出片段文件
  20. excel日期日月年转换为年月日

热门文章

  1. 贷款审批已通过,临时想取消怎么办?
  2. echo在Java什么意思_echo是什么意思
  3. 心系冬奥 翰墨传情 |当代书画名家为奥运加油书画推介展【李珂篇】
  4. 亚马逊echo中国使用_Amazon Echo和Echo Dot有什么区别?
  5. VMware启动虚拟机找不到入口
  6. 细粒度识别 DCL 论文及代码学习笔记
  7. tldr ! 比 man 简单好用的命令手册
  8. 区块链共识机制技术二——POS(权益证明)共识机制
  9. shell实例100例《七》
  10. 向量点乘、叉乘、矩阵乘法和np.dot