目录

  • 一.前言
  • 二.本机环境
  • 三.安装步骤:
    • 步骤1:下载Git并添加环境变量
    • 步骤2:下载ffmpeg并添加环境变量
    • 步骤3:安装pytorch
    • 步骤4:安装whisper
  • 四.whisper的应用
    • 应用1:识别mp3歌曲中的歌词
    • 应用2:识别mp4视频文件,以MV歌曲和英文TED演讲为例进行测试
      • ① whisper识别MV歌曲
      • ② whisper识别TED英文演讲
    • 应用3:whisper识别生成文件.srt字幕的使用
  • 五.结语

一.前言

Whisper是Open AI开源的语音识别网络,支持98中语言,用于语音识别和翻译等任务。我们可以将歌曲的歌词进行识别,将无字幕的视频资源自动生成字母,极大方便了用户。同时,whisper可以在本地运行,充分保障了个人隐私。在识别方面也具有较准确的识别能力。
因此想通过本文对whisper的安装和使用进行说明,希望能对正在学习的伙伴给予参考。

二.本机环境

本设备基于Python环境:3.8.1,pip:23.0.1,torch:2.0.0+cpu

三.安装步骤:

步骤1:下载Git并添加环境变量

1.在以下网址进行安装Git:

https://git-scm.com/download/win

安装过程只需无脑点next,直至安装成功。

win+R进入cmd控制台输入git,若显示如下,则表示安装成功!

若显示’git’ 不是内部或外部命令,也不是可运行的程序,则未安装成功

2.找到git.exe所在的位置,一般在bin下,本机为:

D:\Program Files\Git\bin

3.将git添加到环境变量中
win+R输入Sysdm.cpl进入环境变量配置

双击path

新建一个环境变量路径,填入所找到的git.exe所在的路径

步骤2:下载ffmpeg并添加环境变量

下载地址:

https://github.com/BtbN/FFmpeg-Builds/releases

1.选择 ffmpeg-master-latest-win64-gpl-shared.zip 版本点击下载

2.找到ffmpeg.exe所在的位置,一般在bin下,本机为:

D:\ffmpeg\ffmpeg-master-latest-win64-gpl-shared\bin

3.将ffmpeg添加到环境变量中
win+R输入Sysdm.cpl进入环境变量配置

步骤3:安装pytorch

进入PyTorch官方网站:

https://pytorch.org/

选择cpu版本,最下面一行会提供一个pip命令用于安装torch

这里有个注意点:在原命令基础上加入参数 -i [镜像源地址],即可把国外的源换成国内源,可以极大程度上加快下载速度,命令如下:

pip3 install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

步骤4:安装whisper

在以上步骤均完成后,即可安装whisper,分别执行以下命令:

pip install git+https://github.com/openai/whisper.git

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

至此,whisper的安装步骤就全部结束了。

四.whisper的应用

应用1:识别mp3歌曲中的歌词

在音频所在文件夹的空白处按住shift,然后鼠标右键单击,打开powershell窗口,如图:

进入PowerShell后,输入命令 :whisper + [你需要识别的音频],就可以开始识别了,首次识别时会先下载模型文件,如图:

这里以识别歌曲 爱在天际.mp3 为例,在PowerShell中输入:

whisper 爱在天际.mp3

识别结果如下:

需要注意的是,在不添加任何参数的情况下,whisper默认以其small模型进行训练。官方的模型有以下几种,分别为tiny、base、small、medium、large。各模型的大小以及速度对比如下图所示:

我们该如何选择其他模型进行语音识别呢?只需在命令后面加入参数即可,如我们要用medium模型识别爱在天际.mp3,只需在PowerShell中输入:

whisper 爱在天际.mp3 --model medium

同样,在首次使用模型的情况下,会先自动下载模型文件,再对音频进行识别

那我们下载的模型会存储在哪里呢?具体位置为

C:\Users[你的用户名].cache\whisper

以本机为例,在以下目录下即可找到所下载的模型文件:

当语音识别完成以后会在相应的目录下生成.vtt .json .str .tsv .txt 文件,其中 .srt 为字幕文件:

对.json .tsv .txt .vtt 文件进行对比:

应用2:识别mp4视频文件,以MV歌曲和英文TED演讲为例进行测试

① whisper识别MV歌曲

识别的操作和命令与.mp3文件的识别无异,命令均为 whisper + [待识别的文件名]
MV:念风及你.mp4识别结果如下:

同样,识别结束后生成了以下文件

② whisper识别TED英文演讲

识别结果可以看出,英文的识别也是毫无压力,识别准确率高:

应用3:whisper识别生成文件.srt字幕的使用

我们对音频识别产生的字幕文件该如何使用呢?
这里借助一个视频软件PotPlayer,该视频软件可以方便的读取.srt文件,在双击文件后就能自动将字幕与原视频对应上。PotPlayer下载地址:

http://potplayer.tv/?lang=zh_CN

PotPlayer安装完成后,接下来只需直接双击.srt文件即可。最后我们来看看字幕效果吧!

爱在天际.mp3

念风及你.mp4

TED演讲:如何有效地学习.mp4

五.结语

  从不同的测试结果可以看到,whisper的识别效果还是不错的,最后的字幕的显示结果也讨人欢喜。小伙伴们在使用的过程中也可以尝试使用whisper不同大小的模型进行识别,来提高识别的准确率哦!
  当然在具体安装和配置环境的过程中,我还是遇到了不少的问题的,感兴趣的小伙伴可看看我的上一篇博客的踩坑点,希望可以有效的帮助到大家。博客链接我放在下面啦。
  最后,特别感谢我同学zeyu对我的帮助!
  当然,也感谢大家的大力支持,你们的支持是我前进的最大动力,欢迎大家在评论区积极讨论哦~

链接<点击进入>:我的上一篇博客之whisper踩坑与解决

如何一键生成字幕,如何快速处理生肉资源?借助whisper语音识别系统生成.srt字幕文件 手把手教学在Windows、CPU版本下whisper的安装与使用,快速上手!相关推荐

  1. Fastadmin一键生成菜单栏目

    Fastadmin一键生成菜单栏目 一键生成CRUD 使用一键生成,核心 创建 栏目的数据库一键生成CRUD 字段类型尽量符合要求 数据库 CURL命令使用 编辑器打开 新终端,或者在项目文件夹下 S ...

  2. srt字幕怎么导入视频 (视频字幕合并教程)

    不知道怎么将srt字幕怎么导入视频?来看下这个简单的教程吧! 第一步: 首先,下载安装4K Video Downloader软件到你的电脑上,然后运行它. 第二步: 打开软件,然后选择"转换 ...

  3. java resource放入的文件没有生成在classes中_快速部署版@开源在线考试系统一键生成各种题型试卷且实时判卷...

    首先声明此项目来自开源网,小编也是爱好者: 阅读本文之前相信已经阅读过[开源在线考试系统一键生成各种题型试卷且可以实时判卷] 开源在线考试系统一键生成各种题型试卷且可以实时判卷 本文分享快速部署版ja ...

  4. 生成的头_Python爬虫偷懒神器!快速一键生成Python爬虫请求头

    今天介绍个神奇的网站!堪称爬虫偷懒的神器! 我们在写爬虫,构建网络请求的时候,不可避免地要添加请求头( headers ),以 mdn 学习区为例,我们的请求头是这样的: 一般来说,我们只要添加 us ...

  5. python在线爬虫_Python爬虫偷懒神器!快速一键生成Python爬虫请求头

    今天介绍个神奇的网站!堪称爬虫偷懒的神器! 我们在写爬虫,构建网络请求的时候,不可避免地要添加请求头( headers ),以 mdn 学习区为例,我们的请求头是这样的: 一般来说,我们只要添加 us ...

  6. Thinkphp 6 + Vue 2 + ElementUI + Vxe-table 前后端分离的,一键生成代码和API接口的,通用后台管理系统 快速开发框架,开发小程序和APP的推荐框架!

    Thinkphp 6 + Vue 2 + ElementUI + Vxe-table 前后端分离的,一键生成代码和API接口的,通用后台管理系统 快速开发框架,开发小程序和APP的推荐框架! 概述 R ...

  7. 亿图AI助手一键生成思维导图,捕捉万千灵感,快速出彩!

    短短几个月,AIGC(AI-Generated Content)人工智能生成内容,就像一场惊涛骇浪席卷了全球,AIGC会改变人类创作者与工具之间的协作关系,形成新的分工方式. 不久前,亿图软件上线了一 ...

  8. 【Android】一键生成MVP代码-DevMvp快速开发框架

    序言 每个程序员看到一堆烂代码都有一颗重构的心.烂代码写起来嘴上 笑嘻嘻,心里mmp.特别是有代码洁癖的人.重构不易且行且珍惜,此框架将减少开发时间.如果你们的项目结构跟我的不一样,这也不用担心,你看 ...

  9. gif制作动态图怎么做?教你快速一键生成

    ​​1.gif制作动态图怎么做? 如果你想要制作一个动态gif图像,那么你可以使用一些简单的工具来完成. 首先,你需要准备一些图像,这些图像可以是照片.视频或者任何其他你想要使用的内容.然后,你可以使 ...

最新文章

  1. java 全局变量 内存不回收_Java的内存 - 内存回收
  2. 用于语义分割的特征共享协作网络
  3. oracle数据库日期时间参数大全(一)
  4. 通渭县义岗川镇之行(2020年11月19日)
  5. python获取mac窗口坐标_[代码全屏查看]-Python3根据IP地址获取MAC地址
  6. Git 用户名和邮箱配置_01
  7. 域控计算机策略转换成用户策略,windows组策略实验-本地组策略和域控组策略
  8. 计算机考试策略,计算机等级考试应试的策略.doc
  9. Effective Java Methods Common to All Objects
  10. python管道怎么使用_Python – 如何使用管道执行shell命令?
  11. 关于磁力计偏置值的标定实践
  12. 合成分红游戏源码_养成合成分红游戏源码,广告分红游戏开发
  13. 移动机器人 | 传感器及分类
  14. 异数OS 织梦师-水母(一)--消息队列篇
  15. 国际短信通道短信后台软件路由流程—移讯云短信系统
  16. python爬虫之爬取微信公众号文章中的图片
  17. Warning: [antd: Form.Item] `defaultValue` will not work on controlled Field. You should use `initial
  18. HttpClient-HttpClient4.5使用代理服务器访问外网
  19. Android 阿里云镜像整理
  20. 怎么恢复苹果内置的计算机,苹果自带软件删了怎么恢复原状

热门文章

  1. 如何管理应用的生命周期?
  2. 高等数学入门教程 — 自然底数e
  3. 当我在ChatGPT上问重建大师,它居然这样回答我
  4. [学习笔记]后缀数组
  5. 2023Mac装机系统优化软件CleanMyMacX
  6. 启动管理-启动流程-启动过程(有流程图)
  7. 解决laytpl.js模板引擎插件加载模板后无法获取模板中的元素id等内容
  8. 机器学习教程 之 半监督学习 Co-training 协同训练 (论文、算法、数据集、代码)
  9. 没有稿酬,混了这么多年-文艺it工程师自白(写于2014年)
  10. 群晖存储空间不足-处理方案一