OpenAI Whisper中文语音识别效果尝试和应用（一）

近期，OpenAI发布了Whisper语音识别模型，声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。出于对自动语音识别的兴趣，本人对此进行了一些尝试，看看它对中文语音识别的效果。

本内容仅供对语音识别有兴趣或者仅仅希望应用的入门朋友参考。

一、安装

测试电脑：MacBook Pro

测试系统：MacOS Monterey 12.6

1、安装brew

安装brew的目的是为了下一步安装python. 如果已经安装，请跳过。

在终端命令行中执行：

/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"

选择合适的brew本体下载源，如“清华大学下载源“，然后一路按提示进行安装即可。

2、安装python

在终端命令行中执行：

brew install python

这里有一个很重要的点是：brew的方式安装python时默认是不执行certifi文件的，需要手动执行，否则在下载whisper模型时会出现ssl异常：

/Applications/Python\ 3.10/Install\ Certificates.command

其中3.10需要根据你的实际情况进行修改。

3、安装torch

在终端命令行中执行：

pip install torch

4、安装git

在终端命令行中执行：

brew install git

5、安装whisper

在终端命令行中执行：

pip install git+https://github.com/openai/whisper.git

6、安装ffmpeg

在终端命令行中执行：

brew install ffmpeg

7、安装rust

在终端命令行中执行：

pip install rust

二、测试

直接在命令行中执行：

whisper /Users/bmob/Downloads/8.m4a --model base  --language Chinese

其中，/Users/bmob/Downloads/8.m4a 是你的语音文件路径。

base是模型名称，如果你想用其他模型，还可以选择：

tiny
base
small
medium
large

越往后的模型，对硬件的要求越高，识别精度越高，当然了，速度也越慢。

我即兴了录了一段语音（24秒）去识别，发现tiny模型出来的结果是：

[00:00.000 --> 00:03.840] 书籍是知识的来源
[00:03.840 --> 00:08.960] 当你每天看书的时候就一定能够掌握更多的知识
[00:08.960 --> 00:11.520] 春天来了
[00:11.520 --> 00:20.480] 当你台头看去的时候就会有发现有很多很多的语业在慢慢的生长出来
[00:20.480 --> 00:30.480] 花椅开了小鳥椅飞了

在提示缺乏独立显卡的前提下，识别结果还是比较快速的。

small模型出来的结果是：

[00:00.000 --> 00:03.400] 书籍是知识的来源
[00:03.400 --> 00:08.400] 当你每天看书的时候就一定能够掌握更多的知识
[00:08.400 --> 00:11.000] 春天来了
[00:11.000 --> 00:14.400] 当你抬头看去的时候
[00:14.400 --> 00:18.400] 就会有发现有很多很多的玉叶
[00:18.400 --> 00:20.400] 再慢慢的生长出来
[00:20.400 --> 00:22.000] 花也开了
[00:22.000 --> 00:32.000] 小鸟也飞了

等待了接近二十秒，才出来结果。

用medium模型，识别出来的结果是：

[00:00.000 --> 00:04.000] 书籍是知识的来源
[00:04.000 --> 00:06.000] 当你每天看书的时候
[00:06.000 --> 00:09.000] 就一定能够掌握更多的知识
[00:09.000 --> 00:12.000] 春天来了
[00:12.000 --> 00:15.000] 当你抬头看去的时候
[00:15.000 --> 00:17.000] 就会有发现
[00:17.000 --> 00:19.000] 有很多很多的绿叶
[00:19.000 --> 00:21.000] 在慢慢地生长出来
[00:21.000 --> 00:23.000] 花也开了
[00:23.000 --> 00:31.000] 花也飞了

等待了近两分钟，才出来结果。

而large模型在实验机面前直接跑崩了。

三、总结

whisper自动语音识别模型还是相当牛逼的，如果你的使用场景要求不那么高，还是可以满足大部分要求的，比如不少文章提到的视频语音转译。
并不是越大的模型精确度越好，我们要根据实际情况去选择合适的模型。
whisper对于长语音的效果并不太好，比较适合短语音的情况。

欢迎更多的朋友参与讨论如何使用whisper进行产品开发，模型训练，模型二次开发等。

本文相关资料（测试语音、github源码）和深度学习的入门资料下载：

https://caiyun.139.com/m/i?165CdDhMhbeAI

OpenAI Whisper中文语音识别效果尝试和应用（一）相关推荐

OpenAI Whisper + FFmpeg + TTS：动态实现跨语言视频音频翻译
本文作者系360奇舞团前端开发工程师摘要: 本文介绍了如何结合 OpenAI Whisper.FFmpeg 和 TTS(Text-to-Speech)技术,以实现将视频翻译为其他语言并更换声音的过程 ...
OpenAI的人工智能语音识别模型Whisper详解及使用
1 whisper介绍拥有ChatGPT语言模型的OpenAI公司,开源了 Whisper 自动语音识别系统,OpenAI 强调 Whisper 的语音识别能力已达到人类水准. Whisper是一个 ...
基于深度学习的中文语音识别系统框架（pluse）
目录声学模型 GRU-CTC DFCNN DFSMN 语言模型 n-gram CBHG 数据集本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 声学模型 ...
分享 | 开源的中文语音识别系统
原标题:分享 | 开源的中文语音识别系统语音识别目前已经广泛应用于各种领域,那么你会想做一个自己的语音识别系统吗?这篇文章介绍了一种开源的中文语音识别系统,读者可以借助它快速训练属于自己的中文语音识 ...
绝佳的ASR学习方案：这是一套开源的中文语音识别系统
ASRT 是一套基于深度学习实现的语音识别系统,全称为 Auto Speech Recognition Tool,由 AI 柠檬博主开发并在 GitHub 上开源(GPL 3.0 协议).本项目声学模 ...
来自DFRobot的中文语音识别模块
如果哪一天你要做机器人了,是否也想让它拥有一个类似于Siri的语音识别系统呢?如果你要求不高的话,语音识别模块Voice Recognition可以帮助你打造简单的中文语音识别系统. 由国内开源硬件厂 ...
基于深度学习的中文语音识别系统框架搭建
基于深度学习的中文语音识别系统框架转自@https://blog.csdn.net/chinatelecom08/article/details/82557715 本文搭建一个完整的中文语音识别系统 ...
Android应用离线中文语音识别PocketSphinx （免费哦~）
该文章重点在中文语音识别的应用上目录前言一.不太推荐的知名demo 1.官方demo PocketSphinx (https://github.com/cmusphinx/pocketsphin ...
中文语音识别引擎，盘点中国语音识别技术公司排名
计算机视觉(CV)是AI领域一大吸金赛道,也由此产生了商汤.云从.依图.旷视这样的"图像四小龙".而这四小龙之一的「依图科技」却率先拓宽边界,踏入语音和自然语言处理(NLP)行业. ...
中文语音识别系统ViaVoive使用实录
"一开始我感到很怀疑,但很快就变成了惊讶,摆脱了手敲键盘.眼盯屏幕的打字方式,我的所有注意力都集中到我想说想写的东西上." 虽然我们经常在影视和文学作品中看到那种听得懂人话的机器, ...

OpenAI Whisper中文语音识别效果尝试和应用（一）

OpenAI Whisper中文语音识别效果尝试和应用（一）相关推荐

最新文章

热门文章