Python调用百度AI,实现音频转换文字(标准版)
写在前面:标准版最长支持60秒语音文件,大于60秒的音频文件,需要进行切割后,然后依次提交即可。
切割音频工具:
开源VAD音频切分工具
https://ai.baidu.com/ai-doc/SPEECH/xk38lxq46
ffmpeg模块
以下所有的操作均是在windows系统,Python3下实现的;
百度短语音识别介绍:https://ai.baidu.com/ai-doc/SPEECH/Vk38lxily
登录百度AI平台,建立创建应用:
URL=https://console.bce.baidu.com/ai/?fromai=1#/ai/speech/app/list
切记,接口选择:语音技术,建议全部勾选,一般默认是全部勾选的,按照页面的要求填写,即可
应用建立成功之后一定要记录以下几个参数的值,APP_ID,API_KEY,SECRET_KEY
在执行之前需要安装baidu-aip,在电脑中安装了pip的情况下,cmd命令执行:
pip install baidu-aip
如果没有安装在执行下面的python代码的时候,则会报错,报错信息如下
from aip import AipSpeech
ModuleNotFoundError: No module named 'aip'
此处使用的是HTTP方式请求进行转换,提交的文件则是.pcm后缀格式的文件;
MP4视频,需要进行提取mp3音频,可以使用ffmpeg模块,cmd执行下方的命令;
ffmpeg模块文件,建议要和执行的程序目录一致,可以通过cmd切换目录,然后在执行命令
ffmpeg -i aidemo.mp4 -f mp3 -vn aidemo.mp3
然后针对已经提取的MP3音频文件,再次进行pcm文件格式转换。
同样使用ffmpeg模块命令(cmd下执行即可)
ffmpeg -y -i aidemo.mp3 -acodec pcm_s16le -f s16le -ac 1 -ar 16000 aidemo.pcm
音频格式说明:
格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)、m4a(压缩格式)。推荐pcm 采样率 :16000、8000 固定值。 编码:16bit 位深的单声道。
百度服务端会将非pcm格式,转为pcm格式,因此使用wav、amr、m4a会有额外的转换耗时。
Python请求代码(一定要记得安装baidu-aip)
#需要安装模块:baidu-aip
from aip import AipSpeechAPP_ID = ''#请填写你的APP_ID
API_KEY = ''#请填写你的API_KEY
SECRET_KEY = ''#请填写你的SECRET_KEY client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
# 读取文件
def get_file_content(filePath):with open(filePath, 'rb') as fp:return fp.read()# 识别本地文件
#
data = client.asr(get_file_content('aidemo.pcm'), 'pcm', 16000, {'dev_pid': 1537,
})
print(data)
解释:
APP_ID = ''#请填写你的APP_ID
API_KEY = ''#请填写你的API_KEY
SECRET_KEY = ''#请填写你的SECRET_KEY
aidemo.pcm为本地需要提交识别的音频文件;
16000位音频采样率。
dev_pid=1537为普通话
dev_pid | 语言 | 模型 | 是否有标点 | 备注 |
---|---|---|---|---|
1537 | 普通话(纯中文识别) | 语音近场识别模型 | 有标点 | 支持自定义词库 |
1737 | 英语 | 英语模型 | 无标点 | 不支持自定义词库 |
1637 | 粤语 | 粤语模型 | 有标点 | 不支持自定义词库 |
1837 | 四川话 | 四川话模型 | 有标点 | 不支持自定义词库 |
1936 | 普通话远场 | 远场模型 | 有标点 | 不支持自定义词库 |
执行结果
{'corpus_no': '7023147935492100607', 'err_msg': 'success.', 'err_no': 0, 'result': ['今天发天气可不是特别的好呀'], 'sn': '184915361951635204054'}
如果音频的普通话不标注,或者语速过快,可能会识别部分错误,在大部分情况下识别结果还是不错的。
Python调用百度AI,实现音频转换文字(标准版)相关推荐
- Python——调用百度AI实现图片上文字识别
Python--调用百度AI实现图片上文字识别 简介 步骤 安装百度AI库 注册百度AI开放平台 调用glob库 调用AipOcr库识别文字 可能会遇到的问题 批量操作 简介 Python免费调用百度 ...
- python调用百度AI识别文字和表格
python调用百度AI识别文字和表格 获取账户信息 1.需要先注册百度AI,获得ID和密钥.百度AI社区关于注册的详细说明:https://ai.baidu.com/forum/topic/show ...
- ai图像识别python的项目_Python3调用百度AI识别图片中的文字功能示例【测试可用】...
本文实例讲述了Python3调用百度AI识别图片中的文字功能.分享给大家供大家参考,具体如下: 首先pip install命令安装baidu-aip模块,如下图所示(这里使用pip3 install ...
- 【应用】Python调用百度AI实现图片上表格识别
[应用]Python调用百度AI实现图片上表格识别 简介 步骤 安装百度AI库 注册百度AI开放平台 调用AipOcr库识别表格文字 可能遇到的问题 批量操作 简介 Python免费调用百度AI实现图 ...
- Python利用百度AI提取图片中的文字信息
Python利用百度AI提取图片中的文字信息 安装百度AI : pip install baidu-aip 到https://console.bce.baidu.com/ai/创建文字识别应用,获取A ...
- 调用百度ai接口实现图片文字识别详解
调用百度ai接口实现图片文字识别详解 首先先介绍一下这篇博文是干嘛的,为了不浪费大家时间.公司最近和短视频公司合作,需要监控app的截图上的文字是否符合规范,也就是确保其没有违规的文字.到网上找了一些 ...
- python调用百度AI自动识别并提取图片上指定位置的文字信息
这是一个三个月前的项目需求,需要识别多张图片上固定位置的信息并提取.说到python 上文字识别,可能有些人想用 pytesseract 来做,怎么说呢,识别精准度相对较低,而且对于数量较大的图片来说 ...
- python调用百度AI接口识别营业执照
上一篇文章介绍了应用python中的pytesseract库和OCR识别软件进行文字识别.本文介绍应用百度AI的文字识别功能对营业执照进行识别,感兴趣的朋友一起来看看效果吧. 一.安装baidu ...
- 调用百度AI接口实现图片文字识别
一.准备阶段 进入百度AI网址点击这里跳转 ,点击导航栏的开放能力 ---- 文字识别 ---- 通用文字识别,进入文字识别OCR界面. 在文字识别ORC界面点击 技术文档 进入帮助文档. 在左侧可以 ...
最新文章
- linux内核创建节点,Linux内核驱动自动创建设备节点文件
- Spring(1)_Bean初始化_逻辑图
- Linux服务器下安装配置Nginx的教程
- 文献学习(part88)--Graph Learning for Multiview Clustering
- FCOS: A Simple and Strong Anchor-free Object Detector
- Android笔记 几条笔记(未实验)
- squid 的配置详解 (转)--SeriesIV
- Mysql连接报错:1130-host ... is not allowed to connect to this MySql server
- 1.1 c和c++关系
- HDU2837 Calculation(指数循环节)题解
- 到底什么是移动边缘计算?
- 冒险岛2服务器位置,《冒险岛2》二测造梦测试服务器开放公告
- 算法笔记_110:第四届蓝桥杯软件类省赛真题(JAVA软件开发高职高专组部分习题)试题解答...
- 酒水商城|基于Springboot实现酒水商城系统
- 筑龙网下载的文件格式是php_建筑工程竣工验收资料填报指南(范本)
- Java微信公众平台开发(一)--接入微信公众平台
- db2 ? 22018
- bom成本分析模型_各位成本会计,请问用BOM表算成本的大致思路是什么?
- 商品销售统计系统java_IMS: 基于Java实现的InventoryManagementSystem进销存管理系统
- 【纪中受难记】——Day11:傻逼题遇上傻逼人