一、背景

最近想提取一些视频的字幕,语音文案,研究了一波

二、whisper语音识别

Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
stable-ts在 OpenAI 的 Whisper 之上修改并添加了更大的破解代码发布,生成更准确的阶段时间切换,并在无须额外推介的情况下获得申领

  • 安装pip install openai-whisper pip install stable-ts
  • Size Parameters English-only model Multilingual model Required VRAM Relative speed
    tiny 39 M tiny.en tiny ~1 GB ~32x
    base 74 M base.en base ~1 GB ~16x
    small 244 M small.en small ~2 GB ~6x
    medium 769 M medium.en medium ~5 GB ~2x
    large 1550 M N/A large ~10 GB 1x

三、示例

模型越大,越精确,相应话费的时间越长
自带语言识别功能,language最好加上,下面歌曲识别为英语,加后为中文
stable_whisper 是 whisper 进化版

import whisper
import stable_whisper as whisperclass WhisperTranscriber(object):def __init__(self, model_name):self.model = whisper.load_model(model_name)def whisper_transcribe(self, audio_path):audio = self.model.transcribe(audio_path, fp16=False, language='Chinese')return audio['text']if __name__ == '__main__':transcriber = WhisperTranscriber("base")text = transcriber.whisper_transcribe("257853511.mp3")print(text)

可能是伴奏声音过大,你才出来这是什么歌了吗?stable_whisper 别的用法、生成字幕

import stable_whisper
model = stable_whisper.load_model('base')
results = model.transcribe('257853511.mp3', fp16=False, language='Chinese')
stable_whisper.results_to_sentence_srt(results, 'audio')
stable_whisper.results_to_sentence_word_ass(results, 'audio.ass')

四、封装工具

buzz https://github.com/chidiwilliams/buzz

如果遇到简繁转换可以石下面
pip install zhconvzh-cn 大陆简体
zh-hant 繁體from zhconv import convert
convert('Python是一种动态的、面向对象的脚本语言', 'zh-hant')
'Python是一種動態的、面向對象的腳本語言'

python语音识别whisper相关推荐

  1. python语音识别终极指南

    译者 | 廉洁 编辑 | 明明 出品 | AI科技大本营(公众号ID:rgznai100) [AI科技大本营导读]亚马逊的 Alexa 的巨大成功已经证明:在不远的将来,实现一定程度上的语音支持将成为 ...

  2. python 语音识别深度学习_用Python实现语音识别的终极指南

    目录语音识别的工作原理 Python语音识别软件包的选择 安装语音识别包 识别器类 使用音频文件 支持的文件类型 使用record()来捕获文件中的数据 具有偏移和持续时间的段的捕获 噪声对语音识别的 ...

  3. python 语音识别_带有Python的AI –语音识别

    python 语音识别 带有Python的AI –语音识别 (AI with Python – Speech Recognition) In this chapter, we will learn a ...

  4. python语音识别的第三方库,语音识别python实战项目

    怎么用python实现语音识别 . 是想语音识别的参考方法如下:1.打开文字识别软件,关闭提示窗:2.点击上面的语音识别功能:3.通过左上角的添加文件,将需要识别的语音文件添加进去:4.点击右边的开始 ...

  5. 基于python的语音识别系统,Python语音识别技术路线

    如何用python调用百度语音识别 1.首先需要打开百度AI语音系统,开始编写代码,如图所示,编写好回车.2.然后接下来再试一下的音频,开始编写成功回车,如图所示的编写. 3.最后,查看音频c的属性, ...

  6. python 语音识别 windows_对Python 语音识别框架详解

    如下所示: from win32com.client import constants import os import win32com.client import pythoncom speake ...

  7. python语音识别_Python中的语音识别-完整的入门指南

    python语音识别 Welcome to The Complete Beginner's Guide to Speech Recognition in Python. 欢迎使用Python语音识别完 ...

  8. Python 语音识别

    出品 | 悦动智能(公众号ID:aibbtcom) 遇到问题请文末留言 [悦动智能导读]亚马逊的 Alexa 的巨大成功已经证明:在不远的将来,实现一定程度上的语音支持将成为日常科技的基本要求.整合了 ...

  9. Python 语音识别框架

    Python 语音识别框架 from win32com.client import constants import os import win32com.client import pythonco ...

最新文章

  1. 分区式存储管理算法实现_穿梭式自动化立体库的种类和特点有哪些?
  2. RocketMQ原理解析-producer 4.发送分布式事物消息
  3. C编程实践:简单的通讯录
  4. 常用UI控件之UIControl
  5. matlab 多项式表达,Matlab多项式运算
  6. 探索新型化学反应的AI机器人诞生!有望加速药物发现 | Nature论文
  7. AI、大数据、云计算深度融合,星环大数据3.0给用户带来哪些体验?
  8. S7-200SMART案例分析——伺服接线
  9. word转换成pdf后图片压缩失真的解决方法
  10. 服务器装win10稳定吗,win10哪个版本最稳定好用 目前win10最稳定的版本推荐
  11. 逻辑回归 自由度_回归自由度的官方定义
  12. 微信小程序之在线任务发布与接单平台(图)
  13. 如何在微图中提取生成等高线
  14. layui+croppers完成图片剪切上传
  15. netbackup备份mysql_NetBackup备份Oracle数据库失败-nbu
  16. 服务器文件备份到本地方法,Windows服务器文件备份到本地的方法、Windows服务器数据备份方案...
  17. 浅谈XPS文件格式。
  18. ffmpeg webm 提取_ffmpeg简单使用教程 转码、压制、提取、截取、合并、录屏等
  19. 安全:金融信息化的命脉
  20. java中lock底层实现_Synchronized与Lock的底层实现解析

热门文章

  1. 乐优商城源码/数据库及笔记总结
  2. 1097: 挖掘机技术哪家强
  3. React 表格组件导出 Excel
  4. java使用poi绘制折线图和饼图(用数据绘制和使用excel生成的表格数据)
  5. semver The semantic versioner for npm
  6. PTN 与 IP RAN
  7. 基于linux环境pdf,基于Linux环境下的Snif论r设计与芸}瑰.PDF
  8. 内存优化: 纹理压缩技术
  9. 程职场人必备微软出品的实用小工具
  10. Glid简单使用(一)