语音信号处理复习2、语音声学基础

语音声学基础
什么是声音声音是一种空气振动产生的波。
频率（Frequency）单位时间内，声波的周期数，Hz表示
振幅（Amplitude ）波振动的大小，一般用dB表示

语音产生
声带（Vocal Folds） 10~14mm 在喉部的从喉结到杓状软骨之间的韧带褶
声门（Glottis）两个声带之间形成一个开闭自如的声门
声道（vocal tract） 17cm 由咽腔、口腔和鼻腔三个空气腔体组成

音调（Pitch）声音频率的高低。表示人的听觉分辨一个声音的调子高低的程度。声音的三个主要的主观属性之一，即音量（响度）、音调、音色（音品）
音调主要由声音的频率决定，同时也与声音强度有关。
音量（响度）是指人耳对所听到的声音大小强弱的主观感受。
音色（音品）每个人的声音以及各种乐器所发出的声音的区别，就是由音色不同造成的。

声压级

声强级 某一处的声强级，是指该处的声强与参考声强的比值常用对数的值再乘以10，度量它的单位为分贝，符号为dB。参考声强是10-12瓦/米2。

语音产生

激励模型一般分成浊音激励和清音激励来讨论。  浊音激励模型：由于声带不断张开和关闭，将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲，它的数学表达式如下：
浊音激励：单个斜三角波的Z变换的全极模型的形式是：
c是常数。上式表示斜三角波形可描述为一个二极点模型。斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果。

激励模型
激励模型
清音激励模型：模拟成随机白噪声，实际中一般使用均值为0，方差为1，并在时间（幅值）上为白色分布的序列
声道模型——声道部分的模型
目前最常用的有2种建模方法。
是把声道视为由多个等长的不同截面积的管子串联而成的系统，即“声管模型”。
声道模型—— 声道部分的模型

基于物理声学的共振峰理论，可以建立起三种实用的共振峰模型：级联型、并联型和混合型。
声道模型级联型
声道是一组串联的二阶谐振器。从共振峰理论来看，整个声道具有多个谐振频率和多个反谐振频率，所以它可被模拟为一个零极点的数学模型；但对于一般元音则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联：

若10个极点，则可以表示为5个二阶极点的网络串联，即声道可以模拟成下图所示的模型

声道模型并联型

对于非一般元音以及大部分辅音，必须考虑采用零极点模型。此时，模型的传输函数如下：

声道模型混合型

上述两种模型中，级联型比较简单，可以用于描述一般元音。当鼻化元音或鼻腔参与共振，以及阻塞音或摩擦音等情况时，级联模型就不能胜任了。
这时腔体具有反谐振特性，必须考虑加入零点，使之成为零极点模型。对于鼻音、塞音、擦音以及塞擦音等都可以适用。
正因为如此，将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。

声道模型混合型共振峰模型

辐射模型

辐射模型
由辐射引起的能量损耗正比于辐射阻抗的实部，所以辐射模型是一阶类高通滤波器。
在实际信号分析时，常用所谓的“预加重技术”，即在取样之后，插入一个一阶的高通滤波器

语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码（一般就是PCM码）；

预处理一般包括预加重、加窗和分帧等。 在分析处理之前必须把要分析的语音信号部分从输入信号中找出来。这项工作叫做语音信号的端点检测。

预滤波、采样、A/D变换预滤波的目的有两个：
抑制输入信号各频域分量中频率超出fs/2的所有分量（fs）为采样频率，以防止混叠干扰。
抑制50Hz的电源工频干扰。
这样，预滤波器必须是一个带通滤波器，设其上、下截止频率分别是fH和fL：绝大多数语音编译码器： fH=3400Hz，fL=60-100Hz，fS=8kHz 要求较高的场合fH=4500Hz fL=60Hz 采样率fS=10kHz

语音信号经过预滤波和采样后，由A/D变换器变换为二进制数字码。
A/D变换中要对信号进行量化，量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差，又称为量化噪声。
若信号波形的变化足够大，或量化间隔Δ足够小时，可以证明量化噪声符合具有下列特征的统计模型： ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布，即具有等概率密度分布

预处理

已数字化的语音信号序列将依次存入一个数据区，在语音信号处理中一般用循环队列的方式来存储这些数据，以便用一个有限容量的数据区来应付数量极大的语音数据，已处理完提取出了语音特征参数的一个时间段的语音数据可以依次抛弃，让出存储空间来存储新数据。
调频收发技术中，通常采用预加重（发送端对输入信号高频分量的提升）和去加重（解调后对高频分量的压低）技术解决高频传输困难的问题。

人的听觉系统是一个十分巧妙的音频信号处理器。主要完成声音的采集、频率分解、声能转换、声音加工和分析以及感觉声音的音色、音调、音强、判断方位等功能。
听觉具有选择性：能被人耳听到的声音取决于声音的强度和频率范围。（一般人可以感觉到20Hz~20kHz，强度为- 5dB~130dB的声音信号）
听觉具有掩蔽效应：指在一个强信号附近，弱信号将变得不可闻，被掩蔽掉了。
语音信号处理应用
语音增强 语音编码 语音合成与转换 语音隐藏 语音识别 声源定位 情感识别

语音信号处理复习2、语音声学基础相关推荐

python语音信号处理_现代语音信号处理笔记 (一)
本系列笔记对胡航老师的现代语音信号处理这本书的语音处理部分进行总结,包含语音信号处理基础.语音信号分析.语音编码三部分.一开始以为三部分总结到一篇文章里就可以了,但写着写着发现事情并没有那么简单... ...
【老生谈算法】matlab实现语音信号处理与仿真——语音信号处理算法
基于Matlab的语音信号处理与仿真 1.文档下载: 本算法已经整理成文档如下,有需要的朋友可以点击进行下载序号文档(点击下载) 本项目文档 [老生谈算法]MATLAB语音处理.docx 2.算法 ...
【语音信号处理】1语音信号可视化——时域、频域、语谱图、MFCC详细思路与计算、差分
基本语音信号处理操作入门 1. 数据获取 2. 语音信号可视化 2.1 时域特征 2.2 频域特征 2.3 语谱图 3. 倒谱分析 4. 梅尔系数 4.1 梅尔频率倒谱系数 4.2 Mel滤波器原理 ...
数字语音信号处理学习笔记——语音信号的数字模型（1）
2.1 概述为了用数字信号处理方法对语音信号进行处理,首先需要建立语音信号产生的数字模型,因此,我们必须在对人的发声器官和发声机理进行研究的基础上,才能建立精确的模型.但是,由于人类语音产生过程的复 ...
数字语音信号处理计算机,计算机语音信号处理与语音识别系统
语音识别第18卷第5-6期 1998年12月南京邮电学院学报 JournalofNanjingInstituteofPostsandTelecommunicationsVol.18 ...
数字语音信号处理学习笔记——语音信号的短时时域分析（4）
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/u013538664/article/details/26141939 3.7 基于能量和过零率 ...
语音信号处理 c语言,语音信号处理(毕业设计论文).doc
语音信号处理(毕业设计论文) 摘要语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一.通过语音传递信息是人类最重要. ...
基于matlab的语音信号处理,基于MATLAB语音信号处理的研究
摘要:语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一.通过语音传递信息是人类最重要.最有效.最常用和最方便的交换信 ...
语音信号处理复习：WAV文件格式
音频简介 WAV即WAVE,是经典的Windows音频数据封装格式,由Microsoft开发. 44100HZ 16bit stereo  22050HZ 8bit mono 采样率:声音信号在& ...

语音信号处理复习2、语音声学基础

语音信号处理复习2、语音声学基础相关推荐

最新文章

热门文章