写在前面:标准版最长支持60秒语音文件,大于60秒的音频文件,需要进行切割后,然后依次提交即可。

切割音频工具:
开源VAD音频切分工具

https://ai.baidu.com/ai-doc/SPEECH/xk38lxq46

ffmpeg模块

以下所有的操作均是在windows系统,Python3下实现的;

百度短语音识别介绍:https://ai.baidu.com/ai-doc/SPEECH/Vk38lxily

登录百度AI平台,建立创建应用:

URL=https://console.bce.baidu.com/ai/?fromai=1#/ai/speech/app/list

切记,接口选择:语音技术,建议全部勾选,一般默认是全部勾选的,按照页面的要求填写,即可

应用建立成功之后一定要记录以下几个参数的值,APP_ID,API_KEY,SECRET_KEY


在执行之前需要安装baidu-aip,在电脑中安装了pip的情况下,cmd命令执行:

pip install baidu-aip

如果没有安装在执行下面的python代码的时候,则会报错,报错信息如下

from aip import AipSpeech
ModuleNotFoundError: No module named 'aip'

此处使用的是HTTP方式请求进行转换,提交的文件则是.pcm后缀格式的文件;

MP4视频,需要进行提取mp3音频,可以使用ffmpeg模块,cmd执行下方的命令;

ffmpeg模块文件,建议要和执行的程序目录一致,可以通过cmd切换目录,然后在执行命令

ffmpeg -i aidemo.mp4 -f mp3 -vn aidemo.mp3

然后针对已经提取的MP3音频文件,再次进行pcm文件格式转换。

同样使用ffmpeg模块命令(cmd下执行即可)

ffmpeg -y  -i aidemo.mp3  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 aidemo.pcm

音频格式说明:

格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)、m4a(压缩格式)。推荐pcm 采样率 :16000、8000 固定值。 编码:16bit 位深的单声道。

百度服务端会将非pcm格式,转为pcm格式,因此使用wav、amr、m4a会有额外的转换耗时。


Python请求代码(一定要记得安装baidu-aip)

#需要安装模块:baidu-aip
from aip import AipSpeechAPP_ID = ''#请填写你的APP_ID
API_KEY = ''#请填写你的API_KEY
SECRET_KEY = ''#请填写你的SECRET_KEY client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
# 读取文件
def get_file_content(filePath):with open(filePath, 'rb') as fp:return fp.read()# 识别本地文件
#
data = client.asr(get_file_content('aidemo.pcm'), 'pcm', 16000, {'dev_pid': 1537,
})
print(data)

解释:

APP_ID = ''#请填写你的APP_ID 
API_KEY = ''#请填写你的API_KEY 
SECRET_KEY = ''#请填写你的SECRET_KEY

aidemo.pcm为本地需要提交识别的音频文件;

16000位音频采样率。

dev_pid=1537为普通话

dev_pid 语言 模型 是否有标点 备注
1537 普通话(纯中文识别) 语音近场识别模型 有标点 支持自定义词库
1737 英语 英语模型 无标点 不支持自定义词库
1637 粤语 粤语模型 有标点 不支持自定义词库
1837 四川话 四川话模型 有标点 不支持自定义词库
1936 普通话远场 远场模型 有标点 不支持自定义词库

执行结果

{'corpus_no': '7023147935492100607', 'err_msg': 'success.', 'err_no': 0, 'result': ['今天发天气可不是特别的好呀'], 'sn': '184915361951635204054'}

如果音频的普通话不标注,或者语速过快,可能会识别部分错误,在大部分情况下识别结果还是不错的。

Python调用百度AI,实现音频转换文字(标准版)相关推荐

  1. Python——调用百度AI实现图片上文字识别

    Python--调用百度AI实现图片上文字识别 简介 步骤 安装百度AI库 注册百度AI开放平台 调用glob库 调用AipOcr库识别文字 可能会遇到的问题 批量操作 简介 Python免费调用百度 ...

  2. python调用百度AI识别文字和表格

    python调用百度AI识别文字和表格 获取账户信息 1.需要先注册百度AI,获得ID和密钥.百度AI社区关于注册的详细说明:https://ai.baidu.com/forum/topic/show ...

  3. ai图像识别python的项目_Python3调用百度AI识别图片中的文字功能示例【测试可用】...

    本文实例讲述了Python3调用百度AI识别图片中的文字功能.分享给大家供大家参考,具体如下: 首先pip install命令安装baidu-aip模块,如下图所示(这里使用pip3 install ...

  4. 【应用】Python调用百度AI实现图片上表格识别

    [应用]Python调用百度AI实现图片上表格识别 简介 步骤 安装百度AI库 注册百度AI开放平台 调用AipOcr库识别表格文字 可能遇到的问题 批量操作 简介 Python免费调用百度AI实现图 ...

  5. Python利用百度AI提取图片中的文字信息

    Python利用百度AI提取图片中的文字信息 安装百度AI : pip install baidu-aip 到https://console.bce.baidu.com/ai/创建文字识别应用,获取A ...

  6. 调用百度ai接口实现图片文字识别详解

    调用百度ai接口实现图片文字识别详解 首先先介绍一下这篇博文是干嘛的,为了不浪费大家时间.公司最近和短视频公司合作,需要监控app的截图上的文字是否符合规范,也就是确保其没有违规的文字.到网上找了一些 ...

  7. python调用百度AI自动识别并提取图片上指定位置的文字信息

    这是一个三个月前的项目需求,需要识别多张图片上固定位置的信息并提取.说到python 上文字识别,可能有些人想用 pytesseract 来做,怎么说呢,识别精准度相对较低,而且对于数量较大的图片来说 ...

  8. python调用百度AI接口识别营业执照

    上一篇文章介绍了应用python中的pytesseract库和OCR识别软件进行文字识别.本文介绍应用百度AI的文字识别功能对营业执照进行识别,感兴趣的朋友一起来看看效果吧.    一.安装baidu ...

  9. 调用百度AI接口实现图片文字识别

    一.准备阶段 进入百度AI网址点击这里跳转 ,点击导航栏的开放能力 ---- 文字识别 ---- 通用文字识别,进入文字识别OCR界面. 在文字识别ORC界面点击 技术文档 进入帮助文档. 在左侧可以 ...

最新文章

  1. linux内核创建节点,Linux内核驱动自动创建设备节点文件
  2. Spring(1)_Bean初始化_逻辑图
  3. Linux服务器下安装配置Nginx的教程
  4. 文献学习(part88)--Graph Learning for Multiview Clustering
  5. FCOS: A Simple and Strong Anchor-free Object Detector
  6. Android笔记 几条笔记(未实验)
  7. squid 的配置详解 (转)--SeriesIV
  8. Mysql连接报错:1130-host ... is not allowed to connect to this MySql server
  9. 1.1 c和c++关系
  10. HDU2837 Calculation(指数循环节)题解
  11. 到底什么是移动边缘计算?
  12. 冒险岛2服务器位置,《冒险岛2》二测造梦测试服务器开放公告
  13. 算法笔记_110:第四届蓝桥杯软件类省赛真题(JAVA软件开发高职高专组部分习题)试题解答...
  14. 酒水商城|基于Springboot实现酒水商城系统
  15. 筑龙网下载的文件格式是php_建筑工程竣工验收资料填报指南(范本)
  16. Java微信公众平台开发(一)--接入微信公众平台
  17. db2 ? 22018
  18. bom成本分析模型_各位成本会计,请问用BOM表算成本的大致思路是什么?
  19. 商品销售统计系统java_IMS: 基于Java实现的InventoryManagementSystem进销存管理系统
  20. 【纪中受难记】——Day11:傻逼题遇上傻逼人

热门文章

  1. KindEditor实现多图片上传
  2. IE8 设置图片大小,没有效果
  3. jboss下ejb简介
  4. Spring MVC框架——Web开发框架
  5. 如何使用 OpenTracing 和 Jaeger 追踪 Pulsar 消息
  6. ACCESS数据库的压缩,备份,还原,下载,删除的实现
  7. MPLS option-A
  8. REVERSE关键字之REVERSE函数
  9. excel拆分数据为多个工作表
  10. 快速搞懂C语言中exit(0)与exit(1)有什么区别??