近期,OpenAI发布了Whisper语音识别模型,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。出于对自动语音识别的兴趣,本人对此进行了一些尝试,看看它对中文语音识别的效果。

本内容仅供对语音识别有兴趣或者仅仅希望应用的入门朋友参考。

一、安装

测试电脑:MacBook Pro

测试系统:MacOS Monterey 12.6

1、安装brew

安装brew的目的是为了下一步安装python. 如果已经安装,请跳过。

在终端命令行中执行:

/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"

选择合适的brew本体下载源,如“清华大学下载源“,然后一路按提示进行安装即可。

2、安装python

在终端命令行中执行:

brew install python

这里有一个很重要的点是:brew的方式安装python时默认是不执行certifi文件的,需要手动执行,否则在下载whisper模型时会出现ssl异常:

/Applications/Python\ 3.10/Install\ Certificates.command 

其中3.10需要根据你的实际情况进行修改。

3、安装torch

在终端命令行中执行:

pip install torch

4、安装git

在终端命令行中执行:

brew install git

5、安装whisper

在终端命令行中执行:

pip install git+https://github.com/openai/whisper.git 

6、安装ffmpeg

在终端命令行中执行:

brew install ffmpeg

7、安装rust

在终端命令行中执行:

pip install rust

二、测试

直接在命令行中执行:

whisper /Users/bmob/Downloads/8.m4a --model base  --language Chinese

其中,/Users/bmob/Downloads/8.m4a 是你的语音文件路径。

base是模型名称,如果你想用其他模型,还可以选择:

  • tiny
  • base
  • small
  • medium
  • large

越往后的模型,对硬件的要求越高,识别精度越高,当然了,速度也越慢。

我即兴了录了一段语音(24秒)去识别,发现tiny模型出来的结果是:

[00:00.000 --> 00:03.840] 书籍是知识的来源
[00:03.840 --> 00:08.960] 当你每天看书的时候就一定能够掌握更多的知识
[00:08.960 --> 00:11.520] 春天来了
[00:11.520 --> 00:20.480] 当你台头看去的时候就会有发现有很多很多的语业在慢慢的生长出来
[00:20.480 --> 00:30.480] 花椅开了小鳥椅飞了

在提示缺乏独立显卡的前提下,识别结果还是比较快速的。

small模型出来的结果是:

[00:00.000 --> 00:03.400] 书籍是知识的来源
[00:03.400 --> 00:08.400] 当你每天看书的时候就一定能够掌握更多的知识
[00:08.400 --> 00:11.000] 春天来了
[00:11.000 --> 00:14.400] 当你抬头看去的时候
[00:14.400 --> 00:18.400] 就会有发现有很多很多的玉叶
[00:18.400 --> 00:20.400] 再慢慢的生长出来
[00:20.400 --> 00:22.000] 花也开了
[00:22.000 --> 00:32.000] 小鸟也飞了

等待了接近二十秒,才出来结果。

用medium模型,识别出来的结果是:

[00:00.000 --> 00:04.000] 书籍是知识的来源
[00:04.000 --> 00:06.000] 当你每天看书的时候
[00:06.000 --> 00:09.000] 就一定能够掌握更多的知识
[00:09.000 --> 00:12.000] 春天来了
[00:12.000 --> 00:15.000] 当你抬头看去的时候
[00:15.000 --> 00:17.000] 就会有发现
[00:17.000 --> 00:19.000] 有很多很多的绿叶
[00:19.000 --> 00:21.000] 在慢慢地生长出来
[00:21.000 --> 00:23.000] 花也开了
[00:23.000 --> 00:31.000] 花也飞了

等待了近两分钟,才出来结果。

而large模型在实验机面前直接跑崩了。

三、总结

  • whisper自动语音识别模型还是相当牛逼的,如果你的使用场景要求不那么高,还是可以满足大部分要求的,比如不少文章提到的视频语音转译。
  • 并不是越大的模型精确度越好,我们要根据实际情况去选择合适的模型。
  • whisper对于长语音的效果并不太好,比较适合短语音的情况。

欢迎更多的朋友参与讨论如何使用whisper进行产品开发,模型训练,模型二次开发等。

本文相关资料(测试语音、github源码)和深度学习的入门资料下载:

https://caiyun.139.com/m/i?165CdDhMhbeAI

OpenAI Whisper中文语音识别效果尝试和应用(一)相关推荐

  1. OpenAI Whisper + FFmpeg + TTS:动态实现跨语言视频音频翻译

    本文作者系360奇舞团前端开发工程师 摘要: 本文介绍了如何结合 OpenAI Whisper.FFmpeg 和 TTS(Text-to-Speech)技术,以实现将视频翻译为其他语言并更换声音的过程 ...

  2. OpenAI的人工智能语音识别模型Whisper详解及使用

    1 whisper介绍 拥有ChatGPT语言模型的OpenAI公司,开源了 Whisper 自动语音识别系统,OpenAI 强调 Whisper 的语音识别能力已达到人类水准. Whisper是一个 ...

  3. 基于深度学习的中文语音识别系统框架(pluse)

    目录 声学模型 GRU-CTC DFCNN DFSMN 语言模型 n-gram CBHG 数据集 本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 声学模型 ...

  4. 分享 | 开源的中文语音识别系统

    原标题:分享 | 开源的中文语音识别系统 语音识别目前已经广泛应用于各种领域,那么你会想做一个自己的语音识别系统吗?这篇文章介绍了一种开源的中文语音识别系统,读者可以借助它快速训练属于自己的中文语音识 ...

  5. 绝佳的ASR学习方案:这是一套开源的中文语音识别系统

    ASRT 是一套基于深度学习实现的语音识别系统,全称为 Auto Speech Recognition Tool,由 AI 柠檬博主开发并在 GitHub 上开源(GPL 3.0 协议).本项目声学模 ...

  6. 来自DFRobot的中文语音识别模块

    如果哪一天你要做机器人了,是否也想让它拥有一个类似于Siri的语音识别系统呢?如果你要求不高的话,语音识别模块Voice Recognition可以帮助你打造简单的中文语音识别系统. 由国内开源硬件厂 ...

  7. 基于深度学习的中文语音识别系统框架搭建

    基于深度学习的中文语音识别系统框架 转自@https://blog.csdn.net/chinatelecom08/article/details/82557715 本文搭建一个完整的中文语音识别系统 ...

  8. Android应用离线中文语音识别PocketSphinx (免费哦~)

    该文章重点在中文语音识别的应用上 目录 前言 一.不太推荐的知名demo 1.官方demo PocketSphinx (https://github.com/cmusphinx/pocketsphin ...

  9. 中文语音识别引擎,盘点中国语音识别技术公司排名

    计算机视觉(CV)是AI领域一大吸金赛道,也由此产生了商汤.云从.依图.旷视这样的"图像四小龙".而这四小龙之一的「依图科技」却率先拓宽边界,踏入语音和自然语言处理(NLP)行业. ...

  10. 中文语音识别系统ViaVoive使用实录

    "一开始我感到很怀疑,但很快就变成了惊讶,摆脱了手敲键盘.眼盯屏幕的打字方式,我的所有注意力都集中到我想说想写的东西上." 虽然我们经常在影视和文学作品中看到那种听得懂人话的机器, ...

最新文章

  1. Jenkins使用Publish Over FTP Plugin插件上传FTP详解
  2. websphere内存溢出
  3. iOS App 上架(Analysis 工具使用)
  4. cgi python windows_python cgi windows怎么办
  5. python接口自动化(二十五)--unittest断言——下(详解)
  6. 得到第K个大的数算法研究
  7. HALCON标定板简介
  8. Js显示Struts2中的内容之escape和escapeHtml
  9. 【电机学复习笔记】第二章 变压器
  10. MATLAB高斯迭代算法,基于MATLAB实现高斯赛德尔迭代潮流计算.pdf
  11. 西南科技大学OJ题 数字转换成字符0613
  12. 机器学习系列8:逻辑回归的代价函数
  13. 大数据要学javaweb吗_纠结!Java和大数据学哪个更好?
  14. 有什么软件做笔记比较好用?
  15. C语言 植物大战僵尸修改阳光值 代码实现
  16. 【开关电源四】电源拓扑之Cuk、Sepic、Zeta
  17. 前端面试必备ES6全方位总结
  18. 计算机、网络安全、CTF资源总结-The_Growth_Path_Of_A_Pwner(一名安全从业者的成长之路)
  19. Nginx-Lua-FastDFS-GraphicsMagick动态图片缩略图
  20. Qt中model/view设计模式

热门文章

  1. 使用construct3制作Mario游戏
  2. 哪一类功率放大电路效率最高_多级放大电路
  3. 跳妹儿学编程之ScratchJr(三):什么是儿童编程语言?初识ScratchJr和Scratch
  4. 最新SEO寄生虫排名
  5. 如何用Java运行.jar文件
  6. AndroidQ适配之存储权限的变更
  7. mysql让局域网访问权限_mysql 设置局域网内可访问
  8. 微信小程序实现图片预览(闭眼cv)
  9. c#(webapi)获取当前项目路径
  10. Gwallet小百科 | 2019年区块链游戏行业发展现状分析