使用Python轻松识别音频中文字

一、前言

在开会或是讨论问题的时候,我们总有一些内容需要记录下来。但由于各种原因,我们无法做到全面细致的记录。事后我们可能需要补充这些细节性内容,而回放视频或是录音费时费力,这时候语音识别可以帮助我们轻松解决这一痛点。目前,常见的语音识别服务以收费的居多,而免费且识别效果较好的也有。比如,由OpenAI 开发的Whisper

二、Whisper简介

Whisper是由OpenAI基于Python开发的能够识别多国语言的语音识别模型,同时能将识别结果翻译为指定语言。
Open AI的官方介绍:Whisper是一种通用的语音识别模型。它是在不同音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。即它可以实现自动识别音频中的语言,语音识别,将识别结果翻译为指定语言这些功能。

三、Github项目地址

项目地址:https://github.com/openai/whisper 这里面有该项目的详细介绍,如对应的论文,安装方法,使用方法等。

四、Whisper 安装要求

  1. Pytorch
  2. ffmpeg
  3. setuptools-rust

五、识别速度

这里讲一下我使用过程用中得到的结果。

  1. 使用GPU版Pytorch进行计算时,GeForce MX150显卡(4G显存)使用small模型识别一段40分钟左右的视频大约为30分钟。
  2. 使用CPU版Pytorch进行计算时,Intel 酷睿i7 8550U使用large模型识别一段40分钟左右的视频大约为12小时。

六、识别结果

  1. 使用small模型识别,有些地方会出现识别错误。有时也会将识别结果以繁体汉字显示。
  2. 使用large模型识别,基本没有看到错误,也不会出现识别结果以繁体汉字显示的情况。

七、建议

如果有大于4G显存N卡,或者不用考虑识别速度的,尽量使用大模型进行识别工作。

八、 Whisper的其他用途

whisper也可以用来辅助剪辑视频。因为它识别的每一句话都会附上这段话时间起点和终点,如以下片段所示。更细致的讲解请在搜索《在讲 OpenAI Whisper 前先做了一个剪视频小工具【论文精读·44】》获取答案!

00:59.200 --> 01:02.560
我们的目标就是榨干真题的价值01:03.840 --> 01:05.480
那么什么叫做榨干01:06.920 --> 01:08.520
这个非常纯洁的来讲01:09.320 --> 01:11.520
榨干就像榨油一样 对吧01:12.240 --> 01:13.080
一滴都不剩

使用Python轻松识别音频中文字(Whisper)相关推荐

  1. python批量识别图中文字自动命名_python实现批量命名照片

    python批量命名照片的具体代码,供大家参考,具体内容如下 废话不多说,上效果图 全部代码 from tkinter import * import os #添加文件夹路径 def rename() ...

  2. Python批量识别图片中的文字并保存到txt文档中

    Python OCR工具pytesseract,之前是惠普的产品,被Google收了之后就给开源了. 1.需要下载并安装Google Tesseract,下载地址看图片上有,要下载4.0.0版本的 2 ...

  3. Python实现离线音频转文字(时间分隔+区分说话人)

    Python实现离线音频转文字(时间分隔+区分说话人) 文章目录 Python实现离线音频转文字(时间分隔+区分说话人) 前言 领取转写时长 创建个人应用 运行Python代码 运行环境 解决思路 修 ...

  4. 识别图中文字软件哪个好?推荐这四个软件给大家

    随着计算机视觉和人工智能技术的发展,现在可以使用图像文字识别技术来自动将图像中的文本转换为可编辑和可搜索的文本.这种技术被称为OCR技术,它在数字化图书馆.自动化数据录入.自动化文档管理等领域中得到了 ...

  5. JAVA tess 识别图中文字 已训练好 识别精准

    JAVA tess 识别图中文字 已训练好 识别精准 文章目录 JAVA tess 识别图中文字 已训练好 识别精准 一.添加依赖 二.下载更新好的中文语言包 chi_sim.traineddata, ...

  6. python批量循环图片识别_批量识别图中文字自动命名,让你1秒找到骚图

    自从上次批量的保存了半佛老师的各种骚图之后:我用Python一键保存了半佛老师所有的骚气表情包,每次做视频,找图就相当的费劲,因为图片太多,每次想要找到固定的图的话.就像大海捞针一样.因为上个版本的代 ...

  7. 看日本电影再也不怕看不懂了,6行Python代码轻松实现音频转文字

    前面几天想看一个电影(至于什么电影就不说了),搜了半天没有中文字幕. 这种事情,你是不是也预定过!很痛苦,有声音和图形.但是你听不懂!嗯? 于是,我想想现在的科技这么发达,难道找不到音频转文字的软件吗 ...

  8. 音频转文字软件哪个好用?教你轻松实现音频转文字怎么转

    大家在日常的工作中,经常会遇到需要将音频转为文字的情况,这时的你们一般会采取什么方式呢?是不是会选择一边播放音频,一边手动码字记录.整理音频内容?其实这种做法既费时又费力,因为我们手速通常跟不上讲话的 ...

  9. horizon client 无法识别域_iText for Mac(OCR识别图中文字工具)

    itext mac中文特别版是一款从图片中识别文字的OCR(光学字符识别)工具.通过截图.拖拽图片,即可以从扫描版的PDF等任意图片中识字,并且可以很好的解决摘抄和批注需求.而且itext mac版使 ...

最新文章

  1. 启动与关闭WebService
  2. ASP调用带参数存储过程的几种方式
  3. JUC系列(九)| ThreadPool 线程池
  4. python软件开发文档目录_python学习之-软件开发的目录规范
  5. android动画设置的单位,Kotlin语言入门—实现单位转换,view设置,动画等
  6. 引擎优化的facebook中文网
  7. 使用Python音频双通道分离
  8. python编译exe运行慢_Python运行速度慢你知道这是为什么吗?
  9. javaweb功能模块如何合理设计_如何合理设计恒温恒湿实验室
  10. python类的创建及调用_在创建Python类时调用类方法
  11. shell 脚本执行报错/bin/bash^M: bad interpreter: No such file or directory
  12. 分享自己喜欢的无损高音质音乐给大家
  13. 【台词】严厉的愛Tough Love」(后妈茶话会)
  14. 【PC工具】windows免安装录屏绿色软件,无需注册无水印绿色录屏软件
  15. echarts饼状图显示百分比
  16. ubuntu服务器dns修改,如何在 Ubuntu 16 中修改 DNS 服务器?
  17. 大数据是不是互联网思维?
  18. 51Nod 1278 相离的圆 c/c++题解
  19. muduo源码剖析——Singleton单例模式之懒汉模式与DCL双重检查
  20. Java和c的一些不同(一)

热门文章

  1. Honey and Clover - 蜂蜜与四叶草 - 心情
  2. 尚硅谷vue笔记 详细讲解版(尚硅谷 天禹老师)
  3. 诗韵悠然(四十七)到武夷山
  4. 【网络安全】渗透测试之木马免杀
  5. 现大厂招聘原则:全员内推裁试用,疯狂招人养卷王,高薪年包刷应届。
  6. ip子网掩码计算及子网划分
  7. Throughput Optimization for Grant-Free Multiple Access With Multiagent Deep Reinforcement Learning
  8. oracle flashback与归档关系,Oracle Flashback Archive——Oracle闪回归档(下)
  9. 软文推广如何运动软文性广告来营销?
  10. Mac生成P12、Cer开发者证书或发布证书的创建