AI-语音处理理论与应用-语音处理简介
学习目标
• 了解语音处理的基础知识及应用
• 掌握语音处理的基本步骤
• 掌握语音处理的主要技术
• 了解语音处理的难点与展望
首先,先看一个语音小场景
比如,如今在网络上订票可以通过语音进行交互;会分为这么几步:
1.客户说:“我要订一张从北京到杭州的机票。”
2.机器识别到语音输入
3.通过语音识别的模块,将语音转换成语言,即转换成文本“我要订一张从北京到杭州的机票。”
4.对话管理模块对文本进行理解,结合上下文,生成一个动作action,这个动作决定了机器到底是确定还是不确定;比如说你没有说机票的时间,对话管理模块就会根据这个情况生成一个动作比如说“时间不确定”
5.语音合成模块接收到这个动作“时间不确定”,来生成人能理解的语言,比如说“请问您要定哪一天的机票?”这样一个文本
6.语音合成模块接收到语言生成模块生成的文本,通过语音的方式和人交互,通过语音合成技术将文本转换成语音“请问您要订哪一天的机票的?”返回给客户
语音的小场景是跟传统的GUI进行比对,传统的GUI是通过界面化的方式来跟人进行交互,但是语音是通过VUI方式进行交互。
语音处理介绍
语音处理
什么是语音处理
• 语音信号处理(Speech Signal Processing)简称语音处理,是用以研究语音发声过程、语音信号统计特性、语音自动识别、机器合成以及语音感知等各种处理技术的总称。
• 由于现代的语音处理技术都以数字计算为基础,并借助微处理器、信号处理器或通用计算机加以实现,因此也称数字与因信号处理。
• 简单来讲,语音处理技术就是通过语音到它的某些特征之间的转换这个过程中所涉及到的一系列技术,这个特征可以是数字特征(频率、时长)、文本特征(代表的具体文字)
语音处理介绍
• 语音信号处理的研究起源于对对发音器官的模拟。
• 1939年美国H.杜德莱(H.Dudley)展出了一个简单的发音过程模拟系统,以后发展为声道的数字模型。利用该模型可以对语音信号进行各种频谱及参数的分析,进行通信编码或数据压缩的研究,同时也可基于此合成语音信号,实现机器的语音合成。
• 语言信息主要包含在语音信号的参数之中,因此准确而迅速地提取语言信号的参数是进行语音信号处理的关键。
语音处理的主要应用场景
• 技术类
• 语音预处理
• 语音识别:将语音文件转换成文本文件
• 语者识别:去识别说话者是谁
• 语音翻译
• 语音合成
• 声纹识别
• 语音编码
• 场景类
• 人机交互
• 安防
• 智慧家庭:现在许多智能家居都是通过声音去控制;比如可以通过声音去控制空调的温度,而不是通过遥控器去调节
• 智慧城市
• 养老
• 教育
• 客户服务
语音学
• 语音学是语言学的一个分支,是研究人类语言声音的学科。主要研究语言的发音机制,语音特性和在言谈中的变化规律。
• 狭义的语音学对应英语中phonetics一词,关注的重点在具体语音本质以及产生语音的方法。与之相对的是音韵学(或称音系学),研究音位或语音区别特征在某种语言中运作的抽象规则和语音的系统。
• 广义的语音学是指语音学和音韵学这两大方面研究的总合。
语音学分类
• 发音语音学:研究言语的声音是怎样通过口腔中的发音器官(比如:唇,牙齿,舌头,声带等)产生出来的。
• 声学语音学:研究怎样对言语的声音进行声学分析,比如声波的频率,时长,振幅等。
• 听觉语音学:研究人耳如何接受声音,即人耳对语音的听觉感知。
• 语言语音学:结合声音,社会环境,个人习惯,语言规律研究声音。
语音来源
发音器官分喉下、喉头、喉上三个部分。
• 喉下部分是由气管到肺。从肺呼出的气流成为语音的声源。
• 喉头部分主要是声门和声带。声带是两条韧带,起着喉的阀门作用,它的闭拢和打开成为声门。声门大开时气流畅通,声门闭合,气流冲出使声带作周期性的颤动就产生声音。
• 喉上部分包括咽腔、口腔和鼻腔3个区域,主要起调节语音的作用。其中口腔和鼻腔是调节发音的主要器官。鼻腔基本上是固定的,而口腔中则由于舌的伸缩、升降,小舌的抬起、下垂,使容积变化而产生不同的语音。口腔从唇部到声门总称为“声腔”,分成若干段。
语言学
• 语言学是以语言为研究对象的科学。它研究的对象是人类语言,它的任务是研究、描写语言的结构、功能及其历史发展,找出语言的本质,探索语言的规律。
• 语音、语法、词汇及文字这些学科都注目于语言的结构本身,是语言学的中心,称为叫微观语言学。
• 文字是一个汉语词汇,基本意思是记录思想、交流思想或承载语言的图像或符号。语音没法长久保存信息。
• 文字一词出自《史记·秦始皇本纪》:“一法度衡石丈尺,车同轨书同文字。”文字和语言等其他工具一样,都是交流信息的工具,同时蕴含一定意义与审美价值,有渊源的历史沿革。
语音特征
• 语音特征是描述语音的核心信息,在语音模型构建中起重要作用。
• 好的语音特征:
• 包含区分音素的有效信息:良好的时域分辨率和频域分辨率;
• 分离基频F0以及它的谐波成分;
• 对不同说话人具有鲁棒性(就是健壮、强壮的意思);
• 对噪音或信道失真具有鲁棒性;
• 有着良好的模式识别特性:低维特征,特征独立;
特征提取方法
• 线性预测系数(LPC)
• LPC倒谱系数(LPCC)
• 线谱对参数(LSP)
• 共振峰率(前三个共振峰)
• 短时谱
• Mel频率倒谱系数(MFCC)
• 在语音识别和语者识别方面最常用的语音特征就是梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,简称MFCC)。
• 过程
• 声道转换
• 预加重
• 分帧
• 加窗
• 快速傅里叶变换
• 通过三角带通滤波器得到Mel频谱
• 倒谱分析(取对数,做逆变换)
• 感知线性预测(PLP)
AI-语音处理理论与应用-语音处理简介相关推荐
- HCIP-AI语音处理理论、应用
语音处理理论.应用 1.语音处理介绍 1.1.语音处理 1.1.1.语音处理的简介 1.1.2.语言学 1.1.3.语音学 1.1.4.语音特征 1.1.5.语音信号预处理 1.1.5.1.预加重 1 ...
- 一起谈.NET技术,Microsoft NLayerApp案例理论与实践 - 项目简介与环境搭建
项目简介 Microsoft – Spain团队有一个很不错的面向领域多层分布式项目案例:Microsoft – Domain Oriented N-Layered .NET 4.0 App Samp ...
- h2o.ai源码解析(1)—项目简介
h2o.ai项目简介 参考h2o.ai官网中给出的项目定位是"open source platform for AI".相较于当前市面上的机器学习平台,h2o.ai的优势在于: - ...
- AI: 企业数字化转型的简介、发展以及未来趋势
目录 企业数字化转型的简介.发展以及未来趋势 数字化转型与腾飞 企业数字化转型的十大发展趋势 企业数字化转型的简介.发展以及未来趋势 数字化转型与腾飞 IDC对数字化转型定义:数字化转型是利用数字化技 ...
- UA MATH566 统计理论2 C-R不等式简介
UA MATH566 统计理论2 C-R不等式 单个参数的情形 多个参数的情形 点估计基础那一篇讨论到UMVUE了,这一讲试图给出无偏估计方差的一个下界.在统计理论1中推导的Fisher信息其实就是一 ...
- 树莓派AI视觉云台——1.树莓派Pi3简介
树莓派3代B型简介 树莓派是什么?Raspberry Pi(中文名为"树莓派",简写为RPi,或者RasPi/RPi)是为学生计算机编程教育而设计,只有信用卡大小的卡片式电脑,其系 ...
- 【运维理论】RAID级别简介
独立硬盘冗余阵列(RAID, Redundant Array of Independent Disks),旧称廉价磁盘冗余阵列(RAID, Redundant Array of Inexpensive ...
- 泛统计理论初探——孤立森林简介
数据挖掘-孤立森林方法 孤立森林算法简介 孤立森林是一种用于异常检测的算法,本文将对该算法进行简介,包括算法的理念.步骤.以及使用场景.常见的异常检测方法主要是统计学课本上学到一些方法,比如六西格玛方 ...
- 神码ai人工智能写作机器人_机器学习简介part1与人工智能的比较
神码ai人工智能写作机器人 https://www.eastwestbank.com/ReachFurther/en/News/)https://www.eastwestbank.com/ReachF ...
- 泛统计理论初探——余弦距离简介
统计学习-余弦距离简介 介绍余弦距离 在衡量变量之间距离的时候,我们发现可以用欧式距离.绝对值距离,本文我们将来介绍另一种距离,即余弦距离.余弦距离在实际问题中经常用到,由于它的计算方法是把各个维度的 ...
最新文章
- AutoML前沿技术与实践经验分享 | 免费公开课
- SDN/NFV步入规模部署期 运营商拓智能化成大势所趋
- java异步处理同步化_java 异步查询转同步多种实现方式:循环等待,CountDownLatch,Spring EventListener,超时处理和空循环性能优化...
- java创建目录时带权限_java – 无法在外部存储中创建目录,尽管权限显然设置正确...
- linux内核提取ret2usr,Linux内核漏洞利用技术详解 Part 2
- PrestaShop物流跟踪模块
- Linux下批量添加用户
- Python求单词长度并根据长度排序
- SAP License:PS十日通-超预算自动邮件提醒功能
- Linux系统redis安装配置
- 《Java从入门到放弃》JavaSE入门篇:JDBC(入门版)
- 怎样将Win10自带的Photos查看器的背景色改成白色?
- Java生成二维码,Spring Boot整合ZXing实现二维码生成,支持自定义二维码
- (MATLAB/C)高斯拟合法求光斑中心
- 互联网大厂的会员“陷阱”
- 【电信学】【2016.02】基于IMU的遥控车自主导航位置跟踪
- 微软的面试题及答案-超变态但是很经典(转)
- java switch case 参数变量使用枚举
- IDEA 远程断点调试
- outlook服务器与本地文件,Outlook设置本地存储的方法