尝试搭建本地语音转文字系统[1]
安装百度飞桨PaddleSpeech
- 前言
- 安装平台
- 平台简单介绍
- 开始安装
- 安装Paddlepaddle(GPU版本)
- 安装PaddleSpeech
- 测试样例
- ASR (Automatic Speech Recognition)
许久不写博客了,这次记录下,主要记录自己下过程,如果对他人有帮助最好。有错误请涵养,本人也就是个菜鸡…
PaddleSpeech
github地址
gitee地址
前言
本项目是打算构建一个离线的语音转文字软件,在单位的内网使用,在网上调研后认为可行,故记录之。
环境
- Windows10
- Python3.7
- CPU:AMD Ryzen7 5800H
- GPU :NVIDIA GeForce RTX 3060 Laptop GPU
安装平台
平台简单介绍
百度飞桨Paddle (https://www.paddlepaddle.org.cn/)支持CV,NLP,SPEECH等等任务的实现和部署,并且具备完善的文档。
相关依赖
gcc >= 4.8.5
paddlepaddle >= 2.3.1
python >= 3.7
linux(推荐), mac, windows
开始安装
官网强烈建议使用linux安装,因为有些功能无法使用,但咱们的功能是能够实现的,故不影响。
安装Paddlepaddle(GPU版本)
PaddleSpeech依赖于paddlepaddle,安装可以参考paddlepaddle官网,根据自己机器的情况进行选择(见下图)。
CUDA的版本选择可以使用nvidia-smi
获取
之后进行安装:
python -m pip install paddlepaddle-gpu==2.3.1.post116 -f https://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.html
但是报错…
因此尝试直接到网站下载安装
下载完后安装
pip install paddlepaddle_gpu-2.3.1.post116-cp37-cp37m-win_amd64.whl
这样也能安装成功,当然下了不少其他的依赖库
## 安装 C++ 编译环境
对于 Windows 系统,需要安装 Visual Studio 来完成 C++ 编译环境的安装。
点击链接下载
安装PaddleSpeech
PaddleSpeech快速安装方式有两种,一种是pip安装,一种是源码编译(推荐)。
- pip安装
官方建议
我们建议在安装 paddlepaddle 的时候使用百度源 https://mirror.baidu.com/pypi/simple ,而在安装 paddlespeech 的时候使用清华源 https://pypi.tuna.tsinghua.edu.cn/simple 。
pip install pytest-runner
pip install paddlespeech
- 源码编译
git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .
(我用的是源码安装)
测试样例
安装完成之后尝试一下基本的案例
ASR (Automatic Speech Recognition)
from paddlespeech.cli.asr.infer import ASRExecutor
asr = ASRExecutor()
result = asr(audio_file="data/zh.wav")
print(result)
第一次运行时,显示
cudnn没有安装,按照它的要求安装
安装CUDA与cuDNN
安装完成后,运行,报错
把Pycharm的设置改一下
发现问题所在
安装所需要的库文件
运行后能出现结果
经过测试,其余的部分也能顺利复现,第一步完成。
尝试搭建本地语音转文字系统[1]相关推荐
- 尝试搭建本地语音转文字系统[2]
实现完上面的之后,我把一个视频,大约2h,利用格式工厂导出音频,将其进行语音识别,报错,告知需要转化为wav才能操作,这里我直接使用格式工厂对音频进行格式转化,先完成核心代码的编写. 转化完wav格式 ...
- 尝试搭建webgl游戏引擎-创建正方体
上一篇尝试搭建webgl游戏引擎-文字的创建 简单记录了一下文字和图片的创建. 顶点疑惑 文章写的道理非常的简单,但是实际开发的时候,还是有一些细节和API的要学习的. 其中有一点,我之前一直没有弄懂 ...
- 搭建智能语音交互系统
随着人工智能命题的提出,近年来涌现出一大批基于人工智能的呼叫中心业务服务商和集成商,仅智能外呼这一模块儿就将近百家公司在推广和运营.可以说整个基于人工智能技术的市场开始蓬勃的发展起来了. 简单介绍一下 ...
- java文字转语音支持ubuntu系统_9个(实时)语音转文字APP分享(推荐收藏)
" 做会议记录.看无字幕网课再也不用担心,解放双手,提高效率." 随着语音转文字技术的发展,我们记录会议.上课内容等有了更好的方式. 实时语音转文字实现边听边看,并且还可回看转译记 ...
- java文字转语音支持ubuntu系统_微信内测语音进度条,60秒语音终于有救了?腾讯:并没有...
盼望着,盼望着,微信终于又要推出新功能了. 今天上午,根据Tech星球报道,在最新内测的版本中,微信终于加入了大家翘首以盼的「语音进度条」功能. 有了这个功能,用户点击语音消息后,会出现进度条和一个类 ...
- 浮云语音转文字识别本地音频文字内容教程
浮云识音是一款好用的音频文件内容识别软件.使用浮云识音可以轻松识别音频文件中的内容,并将音频内容转换成文字,输出成TXT文档: 进入下载浮云语音转文字 1.3.7 官方试用版 大小:1.31 MB 日 ...
- 关于语音会议自动转文字系统的想法
我要考虑的问题是做的是什么?用什么做?如何做?我觉得首先思考一下这三个问题,对我后面的工作有很大的帮助,而不是无脑的去查资料,我要通过回答这三个问题,明确语音会议自动转文字系统这个毕业设计的工作方向, ...
- CentOS Linux 使用系统镜像搭建本地 yum 源
一.基础环境 操作系统:CentOS-7-x86_64-2009 二.适用场景 一般生产服务器处于内网环境中,无法连接互联网的公共 yum 源,当我们需要使用 yum 命令安装一些软件的时候,就需要我 ...
- hexo博客系统搭建(本地,github,阿里云)
hexo 前言 准备工作 1.安装node.js 2.安装git客户端 1.安装及初始化Hexo 1.1因为网络问题需要设置代理 发布到github上 个人服务器部署hexo 2. Hexo博客的阿里 ...
最新文章
- 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫
- python怎么读文件后删去空格以行为单位进行排序-python 大文件以行为单位读取方式比对...
- SpringBoot项目中静态资源加载失败,那可能是自定义配置类继承了WebMvcConfigurationSupport这个类
- python orm框架sqlalchemy_python orm 框架中sqlalchemy用法实例详解
- Gemini创始人:如果我是GameStop CEO 接下来我会买BTC
- 2 年增长 1 万亿!继苹果之后,微软市值也突破 2 万亿美元
- does not esixt in the current content error
- python3----字典
- oracle中批量删除xxx开头表的数据和批量修改以xx开头字段的值
- Julia : DataFrame常见用法
- 局域网ftp工具,ftp上传下载工具使用指南,5款好用的局域网ftp工具推荐
- 粤语 之 粤语学习的一些学习网站和工具整理
- 中华流传十大吉祥图解
- 图形编程技术笔记整理1.1-1.6
- 电脑进入pe时蓝屏_进PE蓝屏的几个原因
- Oracle 月初、月末等时间获取示例
- Android的post请求工具,Android客户端post请求服务器端实例
- Slam14讲——直接法
- 《Unity Shader入门精要》笔记:基础篇(2)
- elementui表格宽度适应内容_解决elementui表格操作列自适应列宽
热门文章
- 《有限与无限的游戏》第一章 世上至少有两种游戏:经典摘抄(2)
- WC2015 滚粗记
- 绿幕虚拟直播,直播时代的风口
- python catia harness_介绍一些CATIA汽车线束设计模块的常用命令
- python 代理ip群发邮件1000人_python 群发邮件数量限制_qq邮箱群发邮件的数量和速度限制是多少?...
- 人工智能时代,即将被人工智能替代的十大职业
- JAVA基础--QR_Code二维码生成
- Vue刷新、跳转页面的数据保存方法: sessionStorage + Object.assign()
- 快速批量修改word文档内容
- cmd怎么查看当前静态路由_win7系统利用命令查看ip路由表完整信息的操作方法