目录

第三章 语音特征提取

3.1预处理

3.2 短时傅立叶变换

3.3听觉特性

3.4线性预测

3.5倒谱分析

3.6常用的声学特征


第三章 语音特征提取

原始语音是不定长的时序信号,不适合直接作为传统机器学习算法的输入,一般需要转换成特定的特征向量表示,这个过程称为语音特征提取

虽然随着深度学习的发展,原始信号也可以直接作为网络的输入,但是由于其在时域上具有较大的冗余度,会增加训练的难度,因此,特征提取仍是语音信号处理技术的关键环节之一。

3.1预处理

首先对原始语音时域信号进行预处理,主要包括预加重分帧加窗

(1)预加重

补偿语音信号高频部分的振幅。假设输入信号第 n 个采样点为 x[n] ,则公式如下:

其中, 为预加重系数,可取1或比1稍小的数值,一般取 = 0.97 。

(2)分帧

      短时分析主要采用分帧方式,一般每帧帧长为20ms或25ms。假设采样率是16kHz,帧长为25ms,则一帧有 16000 x 0.025 = 400 个采样点,如下所示:

相邻帧之间存在重叠部分,一般采用重叠取帧的方式(帧移一般为10ms,重叠50%--60%),如下图所示:

(3)加窗

上面的分帧方式相当于对语音信号进行了加矩形窗处理,在时域上对信号进行有限截断,对应的频域的通带较窄,边界处存在多个旁瓣,从而导致了严重的频谱泄露。

矩形窗的窗函数为:

其中,N是窗的长度。当 N = 400 时,如下图所示:

为了减少频谱泄露,通常对每帧的信号进行其他形式的加窗处理。常用的窗函数有:汉明窗(Hamming)、汉宁窗(Hanning)、布莱克曼窗(Blackman)等。

汉明窗的窗函数为:

其中, 是窗的长度。当N=400时,如下所示:

汉宁窗的窗函数为:

布莱克曼窗的窗函数为:

考虑语音信号的短时平稳性,对每帧语音信号进行加窗处理,得到短时加窗的语音信号,如下所示:

其中,w[n]是窗函数,N是窗长, 是帧索引,L是帧移。

3.2 短时傅立叶变换

每个频率的信号可以用正弦波表示,采用正弦函数建模。基于欧拉公式,可将正弦函数对应到统一的指数形式。

正弦函数具有正交性,即任意两个不同频率的正弦波的乘积,在两者的公共周期内的积分等于零。正交性用复指数运算表示 如下:

,如果 

基于正弦函数的正交性,通过相关处理可从语音信号分离出对应不同频率的正弦信号。

对于离散采样的语音信号,可采用离散傅里叶变换(DFT)。DFT的第k个点计算如下:

注:时域信号转换为频域信号。

其中, 是时域波形第n个采样点值, 是第k个点的傅里叶频谱值,是采样点序列的点数,是频谱系数的点数,且 。

DFT系数通常是复数形式,因为

其中

假设 N 个采样点的时域信号经离散傅里叶变换(DFT)后,对应K个频率点,如下图所示。

序号为0的点对应 0 Hz的频率点,序号为 K-1 的点对应 (K-1)/ K x 采样率 Fs / 2 的频率点。K个频率点在频率轴上均匀分布。

经DFT变换得到信号的频谱表示,其频谱幅值和相位随着频率变化而变化。

在语音信号处理中主要关注信号的频谱幅值,也称为了振幅频谱,表示如下:

能量频谱用振幅频谱的平方表示:

通过对频域信号进行逆傅里叶变换(IDFT),可恢复时域信号:

各种声源发出的声音大多是由许多不同强度、不同频率的声音组成的复合音。

在复合音中,不同频率成分的声波具有不同的能量,这种频率成分与能量分布的关系称为声音的频谱(frequency spectrum)。频谱图用来表示各频率成分与能量分布之间的关系,如下所示:

离散傅里叶变换(DFT)的计算复杂度是。根据复数的奇、偶、虚、实关系,采用快速傅里叶变换(FFT),可简化计算复杂度,在的时间内计算出DFT。

在实际应用中,对语音信号进行分帧加窗处理,将其分割成一帧帧的离散序列,可视此为短时傅里叶变换(STFT):

其中,K 是DFT后的频率点个数,k 是频率索引, 建立起索引为  的时域信号与索引为 k 的频域信号的关系。对于采样率,相应的索引为时间  和频率 

3.3听觉特性

音调的单位 mel 频率,用来模拟人耳对不同频率语音的感知,1 mel相当于 1 kHz音调感知程度的1/1000。

人类对不同频率语音有不同的感知能力:

1kHz以下,与频率呈线性关系。

1kHz以上,与频率成对数关系。

3.4线性预测

气流、声门可以等效为一个激励源,声道等效为一个时变滤波器,语音信号  可以被看成激励信号  与时变滤波器的单位取样响应  的卷积:

根据语音信号的产生模型,语音信号 可以等价为以  为激励的一个全极点(AR模型)或者一个零极点(ARMA模型)滤波器的响应。如果用一个p 阶全极点系统模拟激励产生语音的过程,设这个AR模型的传递函数为:

其中,p是阶数,G是增益。

由此,语音信号 和激励信号  之间的关系如下所示:

3.5倒谱分析

处理过程如下:

(1)傅里叶变换。将时域的卷积信号转化为频域的乘积信号:

(2)对数运算。将乘积信号转变为加性信号:

(3)傅里叶反变换。得到时域的语音信号倒谱。

一般采用DCT反变换代替傅里叶变换,直接获取低频倒谱系数。故上式可改为

其中,X[k]是DFT变换系数,N是DFT系数的个数,M是DCT变换的个数。

3.6常用的声学特征

语音识别原理与应用 第三章 语音特征提取相关推荐

  1. 语音识别原理与应用:第三章 语音特征提取 3.1预处理

    今天开始学习洪青阳老师编写的语音识别原理与应用,把书中的内容用代码复现下,系统的进行学习 3.1预处理 (1)预加重 这里实际上是设计了一个一阶高通滤波器 原始语音信号图"蓝天白云碧绿的大海 ...

  2. 编译原理练习题(第三章)

    编译原理练习题(第三章) 一. 二. 三. 四.

  3. [计网:原理与实践] 第三章:直接连接的网络(课后习题整理)

    第三章 直接连接的网络 3-1 链路层协议能够向网络层提供哪些可能的服务?   成帧.差错检测.可靠交媒体访问和流量控制等服务. 3-2 假设分组的信息内容是比特模式1110101010101011, ...

  4. 通信原理day7:第三章:抽样;均匀量化;非均匀量化;A律;增量(ΔM)调制

    模拟信号的数字化 1.抽样定理 1.1低通信号的抽样定理 1.2带通信号的抽样定理 2.量化 2.1 均匀量化 2.1.1.抽样频率,传输速率 2.1.2.量化位数,量化电平,量化间隔 2.1.3.量 ...

  5. RFID原理与应用 第三章:RFID中的天线技术

    1.天线概述 1.1天线的定义 天线是用来发射或接收无线电波的装置和部件.可以视为传输线的终端器件. 天线作为一个单端口元件,要求与相连接的馈线阻抗匹配.天线的馈线上要 尽可能传输行波,使从馈线入射到 ...

  6. JavaScript核心原理精讲第三章 数组原理和排序

    07-数组原理(上):帮你梳理眼花缭乱的数组 API 我在上一讲为你剖析了闭包这个难点,带你了解了作用域.闭包产生的原因及表现形式.那么这一讲,我们一起来手工实现一个 JSON.stringify 的 ...

  7. 会计学原理学习笔记——第三章——账户与复式记账(3.4生产准备业务核算——材料采购业务核算)

    一.材料采购业务核算简介 (一)材料的种类 材料按其在生产过程中的作用,可分为原料及主要材料.辅助材料.外购半成品(外购件).修理用备件.包装材料.燃料等. (二)采购成本 买价和采购费用(包括运费. ...

  8. 会计学原理学习笔记——第三章——账户与复式记账(3.3生产准备业务核算——固定资产构建核算)

    一.固定资产核算简介 (一)含义 固定资产是指使用期限超过一年的房屋.建筑物.机器.机械.运输工具以及其他与生产.经营有关的设备.器具.工具等. (二)特征 固定资产是一种有形资产,应该同时具有下列两 ...

  9. 会计学原理学习笔记——第三章——账户与复式记账(3.5生产准备业务核算——费用发生业务核算)

    一.产品成本 产品成本,是指企业在生产产品过程中所发生的材料费用.职工薪酬等,以及不能直接计入而按一定标准分配计入的各种间接费用.制造企业产品成本一般设置直接材料.燃料和动力.直接人工和制造费用等成本 ...

最新文章

  1. ONVIF C++ 库
  2. matlab 读取csv_利用Pytorch进行数据加载1--CSV文件的读取和显示
  3. (五)深入浅出TCPIP之TCP流量控制
  4. JAVA_返回一个数值的相反数的几种方式.
  5. three.js模板
  6. SSH框架 openSessionInView的配置
  7. 业绩梯队:让各层级领导者做出正确的业绩
  8. IE6下position:fixed;兼容
  9. Python爬虫零基础(以爬豆瓣电影top250为例,尝试自己写爬豆瓣读书top250的代码)
  10. uniapp 复制 粘贴功能
  11. Go语言path is relative, but relative import paths are not supported in module mode
  12. 30天自制操作系统-3
  13. 网络攻击还是网络战争?
  14. linux安装nginx防火墙,Centos7 防火墙关闭与nginx无法访问
  15. 是不是选择任何一个方向,都会游向同一个宿命呢
  16. ubuntu/linux下打包压缩war、解压war包和jar命令
  17. 中央大学计算机学什么,中央大学
  18. 黑马程序员顺义校区php_PHP面向对象开发视频教程[黑马程序员]
  19. 一个很有趣的问题:那些用QQ邮箱发应聘邮件的人啊(附:怎样写一封得体的电子邮件)...
  20. 快捷生成HTML代码的实现

热门文章

  1. 什么是 Hibernate?
  2. 怎样解除电脑开机密码
  3. C/C++下使用SQLite轻量级数据库
  4. CAD入门技巧,如何仔细查看CAD图纸?
  5. mysql delayed_mysql insert的几点操作(DELAYED,IGNORE,ON DUPLICATE KEY UPDATE )
  6. 正则之贪婪与非贪婪模式
  7. python ssh连接服务器_pycharm通过ssh连接远程服务器教程
  8. excel动态获取sheet页单元格内容
  9. pb8连接mysql_pb连接mySql数据库
  10. 华为服务器系统关机命令,服务器远程关机命令