1.什么是人工智能?

  顾名思义就是由人创造的"智慧能力",具备听说看理解等能力.

  听 ==语音识别

  说 ==语音合成

  看 ==图像视频文字识别

  理解 ==语言(文字)图像视频理解等逻辑处理

  思考 ==理解后的逻辑处理

2.目前人工智能做了什么?

  语音识别:小米的小爱同学,苹果 的siri,微软的Cortana

  语音合成:小米的小爱同学,苹果 的siri,微软的Cortana

  图像识别:交通摄像头拍违章,刷脸解锁手机等

  视频识别:抖音内容审核,视频社交APP的审核机制

  文字识别:从身份证照片提取身份证号码,扫一扫翻译

3.人工智能平台 --百度AI:ai.baidu.com

  • 创建一个应用

  >>>>>>>>>>>>>>>>>>>>>>>

  • 创建好应用后,在查看应用详情时,会有几个重要的信息

  

  •  编辑:可以重新对一些接口的选择

  • 查看文档:对各种功能如语音识别,语音合成等等的介绍,使用方法,接口等的描述,通过查看文档可以快速的掌握各种功能

4.语音合成的实例:把文本合成语音

  • SDK:就是为某软件专门封装的接口

语音合成文档>>>>>>sdk文档>>>>>>>.Python文档(仔细阅读文档)

  1.Python SDK 接口能力:将文字转换成音频文件的技术

  2.注意事项  合成文本长度必须小于1024字节,如果本文长度较长,可以采用多次请求的方式。切忌文本长度超过限制

  3.安装语音合成Python SDK 

  • 如果已安装pip,执行pip install baidu-aip即可。
  • 如果已安装setuptools,执行python setup.py install即可。

  4.新建AipSpeech   

      AipSpeech是语音合成的Python SDK客户端,为使用语音合成的开发人员提供了一系列的交互方法。

  • 参考如下代码新建一个AipSpeech:
  • 参数对应的是,查看应用详情时,里面的几个重要的信息
from aip import AipSpeech""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

  5.把一段文字合成为语音文件(实例):

result  = client.synthesis('你好百度', 'zh', 1, {'vol': 5, #音量大小"spd":5,  #语速"pit":5,  #语调"per":1, #情感发音
})# 识别正确返回语音二进制 错误则返回dict 参照下面错误码
if not isinstance(result, dict):with open('audio.mp3', 'wb') as f:f.write(result)

      

5. 语音识别:将一个可读的语音文件转换成计算机可识别的字符串序列

  • 语音识别文档>>>>>>sdk文档>>>>>>>.Python文档(仔细阅读文档)
  • 支持的语音格式

     原始 PCM 的录音参数必须符合 8k/16k 采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。

  • 注意事项:目前系统支持的语音时长上限为60s,请不要超过这个长度,否则会返回错误。

5.1.安装语音合成Python SDK 

  • 如果已安装pip,执行pip install baidu-aip即可。
  • 如果已安装setuptools,执行python setup.py install即可。

5.2.新建AipSpeech 

  • 参数对应的是,查看应用详情时,里面的几个重要的信息
from aip import AipSpeech""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

  • 接口说明:向远程服务上传整段语音进行识别后返回字符串

 5.3.要对保存有一段语音的语音文件进行识别(实例):

# 读取文件
def get_file_content(filePath):with open(filePath, 'rb') as fp:return fp.read()# 识别本地文件
ret = client.asr(get_file_content('audio2.pcm'), 'pcm', 16000, {'dev_pid': 1536,
})
print(ret.get('result')[0])#得到语音文件的文本内容

  •  dev_pid 参数列表

  • 音频文件转换格式使用软件ffmpeg,命令为ffmpeg -y  -i audio.wav  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 audio.pcm
  • 使用说明:https://i.cnblogs.com/EditPosts.aspx?opt=1

5.4.自动转换文件格式,然后识别文件   使用os模块

import os
from aip import AipSpeech
""" 你的 APPID AK SK """
APP_ID = '16027163'
API_KEY = 'wFXvuArTz8aWFou05jjs8XIG'
SECRET_KEY = 'Ty6jGhtdR9GzCs8smn5HRGNNwtz0QkUQ'
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)# 读取文件
def get_file_content(filePath):os.system(f'ffmpeg -y  -i {filePath}  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {filePath}.pcm')with open(f'{filePath}.pcm', 'rb') as fp:return fp.read()ret = client.asr(get_file_content('2.m4a'), 'pcm', 16000, {'dev_pid': 1536,
})
print(ret.get('result')[0])#得到语音文件的文本内容

转载于:https://www.cnblogs.com/l1222514/p/10718452.html

人工智能第一篇--语音识别和语音合成相关推荐

  1. Python人工智能第一篇:语音合成和语音识别

    Python人工智能第一篇:语音合成和语音识别 ​此篇是人工智能应用的重点,只用现成的技术不做底层算法,也是让初级程序员快速进入人工智能行业的捷径.目前市面上主流的AI技术提供公司有很多,比如百度,阿 ...

  2. 《人工智能-处女篇(AI2026)》(Unity+SteamVR+5G+AI+VR云游戏+AlphaGo+神经网络+深度学习+机器学习+图像识别+CNN+自动驾驶+智能机器人+立钻哥哥+==)

    <人工智能-处女篇(AI2026)> <人工智能-处女篇(AI2026)> 版本 作者 参与者 完成日期 备注 YanlzAI_VIP_V01_1.0 严立钻 2019.08. ...

  3. 人工智能写出第一篇文章:我真的没想要消灭你们,人类!

    来源:网信科技前沿 在攻克棋类,飞行操控,机器视觉,语音识别等领域后,人工智能又开始入侵写作领域. 人工智能被人类开发出来是为了方便我们人类的生活,帮助人类处理一些事物,它的优点在于其拥有庞大的数据库 ...

  4. .net中语音识别和语音合成(二)语音合成提高篇

    在.net中语音识别和语音合成(一)入门篇中介绍了关于语音合成的一些基础知识,就是先j建立一个SpVoiceClass类的对象,然后调用对象的GetVoices方法取的一个发音的对象,但是通过设置该方 ...

  5. 微信小程序录音 第一篇 (基于微信小程序及百度AI的 人员语音识别转文字显示小程序)

    基于微信小程序及百度AI的 人员语音识别转文字显示小程序 基于微信小程序及百度AI的 人员语音识别转文字显示小程序主要分3篇 1.微信小程序录音篇(小程序基于wx.startRecord()微信语音录 ...

  6. 我的第一篇论文诞生的故事

    点击上方,选择星标或置顶,每天给你送干货! 作者:郭必扬时间:2020-12-16 [插播]年初抽47份大奖!!参加的人还很少,后天开奖! 新年大礼包:Xbox.Switch,PopMart芝麻街系列 ...

  7. Unity AI 语音识别、语音合成、人机交互(一)

    自我介绍 大家好,我是VAIN,这是我在CSDN的第一篇文章,之前一直在微博博客上写文章,今后会用CSDN给大家更新一些技术帖,还希望大家多多关照! 项目介绍 因为公司项目要求,今天给大家分享一个un ...

  8. 单片机学习:第一篇 基于Python的树莓派语音助手

    title: 单片机学习:第一篇 基于Python的树莓派语音助手 tags: 树莓派,python,语音助手,百度AIP 目录 一.pyaudio录音 二.语音识别 三.与图灵机器人对话 四.语音合 ...

  9. 《Ansible权威指南 》一 第一篇 Part 1 基础入门篇

    本节书摘来自华章出版社<Ansible权威指南 >一书中的第1章,第1.1节,李松涛 魏 巍 甘 捷 著更多章节内容可以访问云栖社区"华章计算机"公众号查看. 第一篇 ...

最新文章

  1. Python 条件判断
  2. python人头识别_python+opencv实现人头检测
  3. Ubuntu返回到Gnome经典桌面!
  4. 根据”so劫持”过360加固详细分析
  5. 003、关于Integer.valueOf(sss)与Integer.parseInt(sss)性能
  6. 东芝硬盘插入台式机后滴滴响
  7. 黑客马拉松 招募_我如何赢得第一次黑客马拉松-研究,设计和编码的2个狂野日子
  8. 前端学习(1438):vue三种安装方式
  9. 结型场效应管的结构、特性、参数
  10. STM32之外部中断原理
  11. 代码换肤术——C#和VB(摘抄)
  12. android开发mvp,Android开发模式之MVP
  13. hdu 6351 Beautiful Now
  14. 印象笔记html预览,超级笔记使用指南 | 印象笔记
  15. 自用Markdown颜色字体代码
  16. 人机交互大作业文档预览
  17. 【方法篇】S-棕榈酰化蛋白修饰质谱鉴定方法
  18. 小熊学Java第六天
  19. 关于Win10的powerdesigner16的缩放问题,字体和图标
  20. 福建省计算机一级机操作题,福建省计算机一级操作题练习

热门文章

  1. 《大营救》将登陆央视 高曙光李佳璇领衔主演
  2. pow函数python_python pow函数怎么用
  3. 那些属于神的英文单词
  4. mysql returning into_PostgreSQL在函数内返回returning
  5. 利用python将图片手绘化
  6. 2022-2028全球与中国货运飞机ACMI租赁市场现状及未来发展趋势
  7. mysql怎么把文字图片保存在一起_如何在数据库中同时保存文本和图片
  8. Python爬虫爬取高清壁纸
  9. Fritzing软件绘制Arduino面包板接线图传感器模块库文件284
  10. 078. 合并排序链表 c++