开源(离线)中文语音识别ASR(语音转文本)工具整理
开源(离线)中文语音识别ASR(语音转文本)工具整理
目录
文章目录
- 目录
- @[toc]
- open ai 的开源工具:whisper
- whisper介绍
- 引用
- ASRT语音识别项目
- ASRT介绍
- 引用
- 微软语音服务(付费)
- 微软语音服务介绍
- 实时语音转文本
- 批量转录
- 自定义语音
- 引用
- PaddleSpeech
- PaddleSpeech介绍
- 引用
open ai 的开源工具:whisper
whisper介绍
Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻译任务的,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。
whisper的核心功能语音识别,对于大部分人来说,可以帮助我们更快捷的将会议、讲座、课堂录音整理成文字稿;对于影视爱好者,可以将无字幕的资源自动生成字幕,不用再苦苦等待各大字幕组的字幕资源;对于外语口语学习者,使用whisper翻译你的发音练习录音,可以很好的检验你的口语发音水平。 当然,各大云平台都提供语音识别服务,但是基本都是联网运行,个人隐私安全总是有隐患,而whisper完全不同,whisper完全在本地运行,无需联网,充分保障了个人隐私,且whisper识别准确率相当高。
引用
whisper模型下载地址:https://huggingface.co/ggerganov/whisper.cpp/tree/main
测试离线音频转文本模型Whisper.net的基本用法
whisper.net
ASRT语音识别项目
ASRT介绍
ASRT是一个基于深度学习的语音识别工具,可以用于开发最先进的语音识别系统,是由AI柠檬博主(西安电子科技大学 · 西安市大数据与视觉智能重点实验室)从2016年起做的开源语音识别项目,基线为85%识别准确率,在某些条件下可做到95%左右的识别准确率。ASRT包含了语音识别算法服务端(用于训练或部署API服务)和多种平台及编程语言的客户端SDK,支持一句话识别和实时流式识别,相关的代码已经开源在GitHub和Gitee上。
引用
- ASRT语音识别工具文档
微软语音服务(付费)
微软语音服务介绍
微软语音服务通过 Azure 语音资源提供语音转文本和文本转语音功能。 您可以将语音以高精度转录为文本,生成听起来自然的文本到语音的声音,翻译语音,并在对话期间使用说话人识别。微软语音服务(号称)提供:语音识别(语音转文字)、语音合成(文字转语音)、获取实时翻译、录制对话,或集成语音到机器人体验中。
语音转文本模块主要包含一下几个方面:
实时语音转文本
使用实时语音转文本时,当从麦克风或文件中识别出语音时,会对音频进行听录。 对于需要实时听录音频的应用程序,请使用实时语音转文本,例如:
实时会议的听录、描述文字或字幕
联系中心代理助手
听写
语音代理
发音评估
批量转录
批量转录用于转录存储中的大量音频。 您可以指向具有共享访问签名 (SAS) URI 的音频文件并异步接收转录结果。 对需要批量转录音频的应用程序使用批量转录,例如:
- 预录音频的转录、字幕或副标题
- 联络中心通话后分析
- 二值化
自定义语音
使用 自定义语音,您可以为您的应用程序和产品评估和提高语音识别的准确性。 自定义语音模型可用于实时语音转文本、语音翻译和批量转录。
开箱即用的语音识别利用通用语言模型作为基础模型,该模型使用 Microsoft 拥有的数据进行训练并反映常用口语。 基本模型使用代表各种常见领域的方言和语音进行了预训练。 当您发出语音识别请求时,默认情况下会使用每种受支持语言的最新基本模型。 基本模型在大多数语音识别场景中都能很好地工作。
自定义模型可用于扩充基础模型,通过提供文本数据来训练模型,从而提高对特定于应用程序的领域特定词汇的识别。 它还可用于通过提供带有参考转录的音频数据来改进基于应用程序特定音频条件的识别。
引用
- 微软语音服务文档
PaddleSpeech
PaddleSpeech介绍
PaddleSpeech是一个基于飞桨PaddlePaddle的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型,其中包括语音识别(ASR)。你可以使用PaddleSpeech来训练和测试中文语音识别模型。
引用
- 百度飞桨PaddleSpeech的简单使用 - CSDN博客.
- 一文读懂PaddleSpeech中英混合语音识别技术 - 知乎
- 【超简单】之基于PaddleSpeech搭建个人语音听写服务 - 知乎.
- GitHub - PaddlePaddle/PaddleSpeech: Easy-to-use Speech Toolkit …
- paddlespeech · PyPI
- PaddleSpeech: Easy-to-use Speech Toolkit including SOTA ASR … - Gitee.
开源(离线)中文语音识别ASR(语音转文本)工具整理相关推荐
- 开源(离线)中文文本转语音TTS(语音合成)工具整理
开源(离线)中文文本转语音TTS(语音合成)工具整理 目录 文章目录 目录 PaddleSpeech VoiceVox TensorFlowTTS ttskit OpenTTS eSpeak 微软 T ...
- github上能找到中文博主吗_绝佳的ASR学习方案:这是一套开源的中文语音识别系统...
语音识别目前已经广泛应用于各种领域,那么你会想做一个自己的语音识别系统吗?这篇文章介绍了一种开源的中文语音识别系统,读者可以借助它快速训练属于自己的中文语音识别模型,或直接使用预训练模型测试效果.所以 ...
- 分享 | 开源的中文语音识别系统
原标题:分享 | 开源的中文语音识别系统 语音识别目前已经广泛应用于各种领域,那么你会想做一个自己的语音识别系统吗?这篇文章介绍了一种开源的中文语音识别系统,读者可以借助它快速训练属于自己的中文语音识 ...
- python语音库_绝佳的ASR学习方案:这是一套开源的中文语音识别系统
ASRT 是一套基于深度学习实现的系统,全称为 Auto Speech Recognition Tool,由 AI 柠檬博主开发并在 GitHub 上开源(GPL 3.0 协议).本项目声学模型通过采 ...
- 绝佳的ASR学习方案:这是一套开源的中文语音识别系统
ASRT 是一套基于深度学习实现的语音识别系统,全称为 Auto Speech Recognition Tool,由 AI 柠檬博主开发并在 GitHub 上开源(GPL 3.0 协议).本项目声学模 ...
- Android应用离线中文语音识别PocketSphinx (免费哦~)
该文章重点在中文语音识别的应用上 目录 前言 一.不太推荐的知名demo 1.官方demo PocketSphinx (https://github.com/cmusphinx/pocketsphin ...
- DFRobot语音识别模块推荐-Gravity: I2C离线中文语音识别模块
语音识别模块介绍 DFRobot语音识别模块使用Gravity I2C接口通信,兼容绝大部分主控,非常适合接入教育场景使用.三种语音识别模式和三种语音输入方式使模块可以集成入更多的场景. 这块语音识别 ...
- 国内外开源与 SaaS ,团队协作平台、项目管理工具整理
整理一些开源与 SaaS ,团队协作平台.项目管理工具.还有哪些比较好的工具,可以推荐下? 名称 地址 备注 asana https://asana.com/ 国外 basecamp https:// ...
- 中小学AI离线智能语音识别模块语音 图形化编程
语音识别模块使用说明 购买链接---- 第一步:打开网址http://www.smartpi.cn/#/login注册账号 注册完成后输入手机号和密码进行登录 第二步:创建产品 进入首页后,点击创建产 ...
最新文章
- 自己动手写简单的web应用服务器(4)—利用socket实现文件的下载
- 用python中的cv2库打开摄像头
- java上传音频到服务器_Java 客户端向服务端上传mp3文件数据的实例代码
- caffe cifar10试跑问题总结
- 匿名函数python_基于python内置函数与匿名函数详解
- 微软发布正式版SQL Server 2016
- 机器学习 深度学习 ai_如何学习机器学习和人工智能?
- LeetCode_125_Python_验证回文串
- Java之JSON详解
- 开发实现物理加速度移动_2019年最受物理老师欢迎的7款软件发布!不要错过!...
- Chrome OS 初体验
- 亚信科技2019Java笔试题_2019亚信科技(asiainfo)面试经验(产品助理,后端工程师等)...
- 【通过STLINK Utility下载程序和加解密方法】
- C语言学习:一个函数可以有几个返回值?
- neo4j java 模糊搜索,Neo4j 使用cypher语言进行查询
- 发明专利申请流程和时间
- Hive实现32位UUID
- 蔡维德:区块链应用落地不是狼来了,而是老虎来了
- Android性能调优:App启动速度优化
- 飞天云动,站在下一个商业时代的门口