目录

第二章 语音信号基础

2.1 声波的特性

2.2 声音的接收装置

2.3 声音的采样

2.4声音的量化

2.5 语音的编码

2.6WAV文件格式

2.7WAV文件分析


第二章 语音信号基础

声波通过空气传播,被麦克风接收,再被转换成模拟的语音信号,这些信号经过采样,变成离散的时间信号,再进一步经过量化,被保存为数字信号,即波形文件。过程如下:

本章根据以上过程,分别对声波的特性、声音的采集装置(即麦克风)、声音的采样和量化加以介绍,最后介绍语音文件的格式和分析。

2.1 声波的特性

声波在空气中是一种纵波,它的振动方向和传播方向是一致的。声音在空气中的振动形成压力波动,产生压强,在经过传感器接收转换,变成时变的电压信号。

声波的特性主要包括频率声强

频率是指在单位时间内声波的周期数。

而直接测量声强较为困难,故常用声压来衡量声音的强弱。

声压:某一瞬间介质中的压强相对于无声波时压强的改变量称为声压,记为p(t),单位是Pa。

由于人耳感知的声压动态范围太大,加之人耳对声音大小的感觉近似地与声压、声强呈对数关系,所以常用对数值来度量声音。一般把很小的声压 p0=2x Pa作为参考声压,把所要测量的声压p与参考声压p0的比值取常用对数后,乘以20得到的数值称为声压级(Sound Pressure Level,SPL),其单位为分贝(dB)。

注:衡量声音的信噪比(Signal to Noise Ratio,SNR)的单位也用分贝,其数值越高,表示声音越干净,噪音比例越小。

2.2 声音的接收装置

麦克风主要包括以下的性能指标:

  1. 灵敏度                                                                                                                                        在单位声压激励下输出电压 与输入声压的比值,单位为 mV/Pa。实际衡量采用相对值,以分贝表示,并规定 1 V/Pa为 0 dB。因话筒输出一般为毫伏级,所以,其灵敏度的分贝值始终为负值。
  2. 频率响应                                                                                                                                        表示麦克风拾音的频率范围,以及在此范围内对声音各频率的灵敏度。一般来说,频率范围越宽、频响曲线俞平直越好。
  3. 指向性                                                                                                                                        麦克风对于不同方向的声音灵敏度,称为麦克风的指向性。指向性用麦克风正面0度方向和背面180度方向上的灵敏度的差值来表示,差值大于15 dB 者称为强方向性麦克风。
  4. 输出阻抗                                                                                                                                    目前常见的麦克风有高阻抗和低阻抗之分。

2.3 声音的采样

声音的采样过程是把模拟信号转换成离散信号。采样的标准是能够重现声音,与原始语音尽量保持一致。采样率表示每秒采样点数,单位是赫兹(HZ)。

声音的采样需满足采样定理(奈奎斯特定理):当采样率大于信号最高频率的两倍时,采样数字信号能够完整保留原始信号中的信息。

采样率越高,采集的间隔就越短,对应的音频损失也就越小。

2.4声音的量化

声音被采样后,摸你的电压信号变成离散的采样值。

声音的量化过程是指将每个采样值在幅度上再进行离散化处理,变成整形数值。

量化位数(编码位数),代表每次取样的信息量,量化会引入失真,并且量化失真是一种不可逆失真。量化位数可以是4位、8位、16位、32位,量化位数越多,失真越少,但占用存储空间越多,一般采用16位量化。

量化方法包括均匀量化非均匀量化。

将声音的采样率和量化位数相乘得到比特率(bps: bits per second),其代表了每个音频样本每秒量化的比特位数。比如一段音频的采样率是16 kHz,量化位数是 16 位,那么该音频的比特率是

16 x 16 = 256 kb/s 。

2.5 语音的编码

在语音的存储过程中也需要编码,常用的音频编码格式包括PCM,MP3,A-law等。

  1. PCM编码                                                                                                                                    PCM(Pulse Code Modulation,脉冲编码调制)是对模拟信号进行采样、量化、编码的过程。它只保存编码后的数据,并不保存任何格式信息。PCM编码的最大优点是音质好,最大缺点是占用存储空间多。                                                                                                            可保存为PCM raw data(.raw文件,无头部)或Microsoft PCM格式(.wav 文件)。            还有一种编码是自适应差分PCM(ADPCM)。
  2. MP3编码                                                                                                                                    MP3编码对音频信号采用的是有损压缩方式,压缩率高达10:1--12:1 。编码模拟人耳听觉机制,采取“感知编码技术”,使压缩后的文件回放时能够达到比较接近原始音频数据的声音效果。
  3. A律编码                                                                                                                                     A律编码按下式确定输入信号值与量化输出值的关系:                                                                                                                                                                                                                                        其中,x 为输入信号值,规整为 -1<= x <= 1 ,sgn(x) 为 x 的符号。A为确定压缩量的参数,反应最大量化间隔和最小量化间隔之比。                                                                                 u律按下式确定输入信号值与量化输出值的关系:                                                                                                                                                                      其中,u为确定压缩量的参数,反应最大量化间隔和最小量化间隔之比,取值范围为100<=u<=500 。

基于PCM编码的WAV格式常作为不同编码互相转化时的一种中介格式,以便于后续处理,如下所示:

要实现更多音频格式的转换,可使用FFmpeg工具。FFmpeg是一个强大的专门用于处理音视频的开源库,可实现不同批量数据的快速转换,包括转成指定采样率的WAV格式。

2.6WAV文件格式

2.7WAV文件分析

对WAV文件进行处理之前,我们要先了解其格式是否符合规范,如电话录音往往是8kHz,8bits格式,对应的比特率为64kb/s。如果不是所要求的的格式,则要先进行转换,才能做后续的处理或识别。打开WAV文件的属性可查看比特率。

根据生成波形的数量,WAV文件还可分成单声道语音文件和立体声道语音文件。单声道生成一个波形,立体声道一般是双声道,包含两个波形(如下图所示)。如果要进行语音识别,要先将立体声道语音转换为单声道语音。

要更详细地观察分析语音信号,推荐采用CoolEdit、Praat等专业音频处理工具。

时域图显示语音信号的时间-幅度关系,而语谱图是一种三维图,显示时间-频率-幅度关系,颜色越深表示幅度(能量)越大。详情点击时域图、频谱图等。

语音识别原理与应用 第二章 语音信号基础相关推荐

  1. 语音信号调制matlab,第二章 语音信号的数字模型 数字语音处理及MATLAB仿真 教学课件.ppt...

    第二章 语音信号的数字模型 数字语音处理及MATLAB仿真 教学课件 第二章 语音信号的数字模型 2.1 概述 本章重点介绍语音信号产生的数字模型,对语音信号的特性和听觉特性做一般介绍. 2.2 语音 ...

  2. 《MATLAB语音信号分析与合成(第二版)》:第4章 语音信号的线性预测分析

    <MATLAB语音信号分析与合成(第二版)>:第4章 语音信号的线性预测分析 前言 1. 数据与函数路径设置 2. MATLAB仿真一:LPC的频谱分析 3. MATLAB仿真二:普通预测 ...

  3. 《MATLAB语音信号分析与合成(第二版)》:第7章 语音信号的减噪

    <MATLAB语音信号分析与合成(第二版)>:第7章 语音信号的减噪 前言 1. 数据与函数路径设置 2. MATLAB仿真一:自适应滤波器LMS滤波减噪一 3. MATLAB仿真二:自适 ...

  4. 《MATLAB语音信号分析与合成(第二版)》:第10章 语音信号的合成算法

    <MATLAB语音信号分析与合成(第二版)>:第10章 语音信号的合成算法 前言 1. 数据与函数路径设置 2. MATLAB仿真一:重叠相加法语音合成 3. MATLAB仿真二:重叠存储 ...

  5. 《MATLAB语音信号分析与合成(第二版)》:第3章 语音信号在其他变换域中的分析技术和特性

    <MATLAB语音信号分析与合成(第二版)>:第3章 语音信号在其他变换域中的分析技术和特性 前言 1. 数据与函数路径设置 2. MATLAB仿真一:信号倒谱图.声道冲激响频谱.声门激励 ...

  6. 《脑电信号分析方法与脑机接口技术》笔记——第二章 EEG信号

    第二章 EEG信号 2.1 脑电图 1.脑电信号(EEG)是从人类或动物的头皮上记录到的电位变化,主要反映大脑的电活动特性. 2.脑电图是由电极记录下来的大脑细胞群在自发性生物电活动.以电位为纵轴,时 ...

  7. java语言定义一个具备栈功能的类_Java学习笔记 第二章 Java语言基础

    第二章 JAVA语言基础 一.关键字 1.关键字的定义和特点 定义:被Java语言赋予了特殊含义的单词 特点:关键字中所有的字母都为小写 2.用于定义数据类型的关键字 c;ass  interface ...

  8. 第二章:图像处理基础

    第二章:图像处理基础操作 一.图像的基本表示方法: 1. 二值图像: 2. 灰度图像: 3. 彩色图像: 二.像素处理: 1. 二值图像及灰度图像: 2.彩色图像: 3. 使用numpy.array访 ...

  9. 计算机的指令合成为,第二章计算机操作基础知识doc

    第二章计算机操作基础知识doc (29页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 23.9 积分 第二章  计算机操作基础知识第一节  计算机基础知识 ...

最新文章

  1. 小鱼易连获腾讯数亿C轮投资,云视频布局产业互联网
  2. C#测试数据库连接是否成功
  3. 为tomcat 安装 native 和配置apr
  4. 集体智慧编程——协同过滤
  5. 从Visual SourceSafe (VSS)服务器下载文件(C#)
  6. DRP(javaweb)系统
  7. 红黑树模拟软件_红黑树,超强动静图详解,简单易懂
  8. guge图标——ps
  9. 玩转华为ENSP模拟器系列 | 通过STelnet登录其他设备举例(DSA)
  10. 教你快速分割每段视频并自动分段导出保存
  11. jxl 冻结单元格_如何在Word中冻结表格中单元格的大小
  12. 在线端口检查工具 Online IP TCP UDP port scan
  13. TestNG入门教程-6-enabled和priority属性
  14. 鼠标按下拖拽移动盒子
  15. 如何看待有人说程序员岗位的前景一片灰暗
  16. Altium Designer 入门
  17. 应广单片机003烧录器自定义封装使用技巧
  18. 穷举算法——奶牛碑文(cow)
  19. 推荐一款“黑科技”满满的小众软件
  20. 关于华为认证hcip有哪些问题?

热门文章

  1. SQL:mysql 开启事务
  2. 大股东猛买流通股----后G时代的机会(1)
  3. 商户后台返回数据签名错误_@梁平个体工商户,足不出户就能办营业执照,速看!...
  4. AddRange 取代 Add
  5. 超级实用的javascript经典大全 js大全
  6. JS 滤镜切割图片效果。
  7. 复旦大学2018--2019学年第一学期(18级)高等代数I期末考试第八大题解答
  8. iOS UIScreen简介
  9. 教你如何做出有创意的作品
  10. 计算机毕业设计Java高校迎新管理系统(源码+系统+mysql数据库+Lw文档)