语音识别：声学的要素和特征

声学的基本概念

声音，来源于振动的物体，辐射声音的振动物体称之为声源。

声波的概念

声波，一般用频率和声压两个指标形容。

人类的听觉范围为20Hz～20000Hz，即20hz~20kHz，最敏感的是1000hz~3000hz之间的声音。低于人类听觉范围的叫做次声波，高于这个范围的叫做超声波。

声波指标

概念

分类

频率

每秒钟振动的次数

可听声：20-20000HZ

超声：>20000HZ

次声：<20HZ

声压

疏密波压力的大小

与声音的频率和人的年龄有关，一定范围内，声压越大清晰度越大

声波，根据波面的不同可分为平面波、柱面波、球面波。

在声波传播的过程中，如果将同位相的点相连，得到的是一系列平行的平面，则称之谓平面波。平面波的波阵面与传播方向是垂直的。平面声波的一个重要特点是，它的振幅不随传播距离而变化（假定媒质没有吸收。）

如果同位相的点相联得到的是平行的柱面，就称为柱面波，其声源一般可视为“线声源”。柱面波的振幅与传播距离的平方根成反比。

声音四要素

人的发声器官实际上存在着大小、形态及功能上的差异。发生控制器官包括声带、软颚、舌头、牙齿、唇等；发声共鸣器包括咽腔、口腔、鼻腔，这些器官的微小差异都会导致发声气流的改变，造成音质、音色的差别。此外，人发声的习惯亦有快有慢，用力有大有小，也造成音强、音长的差别。

音高、音强、音长、音色，统称为声音“四要素”，这些要素可分解成九十余种特征。这些特征表现了不同声音的不同波长、频率、强度、节奏。

要素	概念	效果	举例
音高	表现语音的字调与语调也叫音调，主要取决于声波基频的高低	是人耳对声音高低的主观感受，频率越高音调越高	人耳听觉范围20～20kHz
音长	对语言节奏的快慢，字与句之间的长短关系等加以准确地计量	主要取决于声波的持续时间
音强	单位时间内通过声音的能量。也叫响度和音量	主要取决于声波振幅的大小，显示语音的重音、轻音等强弱变化	正常人的范围在0dB-140dB（分贝）
音色	也叫音频，取决于不同的泛音	不同的声音频率在波形上表现出不同的特性	辅音的发音，发音的部位，元音的音色，语调的高低，轻重音的强度，高中低音色，男女音色不同，不同乐器的音色。由发声物体本身材料、结构决定。

语图仪可以把声波的变化转换成电讯号的强度、波长、频率、节奏变化，仪器又把这些电讯号的变化绘制成波谱图形，就成了声纹图。目前应用的语图仪可以制作七种声纹图：宽带声纹、窄带声纹、振幅声纹、等高线声纹、时间波谱声纹、断面声纹（又分宽带、窄带二种）。

其中，前二种显示语声的频率与强度随时间推移的变化特征；中间三种显示语音强度或声压随时间变化的特征；断面声纹只是显示某一时间点上声波强度和频率特征的声纹图。

音高和频率

物体在一秒钟之内振动的次数叫做频率，单位是Hz，赫兹。在国际电信联盟定义的无线电频率划分当中：

分类	标准	举例
特低频（ULF）	3~30千赫（kHz）	闷雷声、风声，人声在这个频段没有声音
低频（LF）	30~300千赫（kHz）	钢琴低音、低音提琴，男低音可达到某个频率的某些部分
中频（MF）	300~3000千赫（kHz）	电话、收音机，人耳最容易接受的声音频段
甚高频（VHF）	30~300兆赫（MHz）
特高频（UHF）	300~3000兆赫（MHz）
超高频（SHF）	3~30秭赫（GHz）	高频噪音
极高频（EHF）	30~300秭赫（GHz）

环境和分贝

声音在不同介质中传播的速度，一般是固体>液体>气体，传播的速度还与介质的种类和温度有关。

声音的传递过程中遇到障碍物就会反弹，发生回声现象。多数情况下，只有一个较大分贝的声音在空旷环境下，人耳才会分辨出回声，日常生活中人耳也经常收集到回声，但由于回声的分贝低或者在嘈杂环境下，所以人耳分辨不出回声。

正常人范围在0dB-140dB（分贝），那么非正常范围我们称之为噪声。噪声分为两类，外界环境噪声和振动，和设备噪声和振动。

分贝（db）	环境	分贝（db）	环境
110	列车通过铁路桥时,正下方	60	安静的街头
100	地铁行车时,车厢内	50	安静的办公室
90	公共汽车内	40	安静的住宅小区，白天
80	白天十字路口	30	安静的住宅小区，夜晚
70	普通讲话	20	飞机起飞着路时，正下方

声学的基本术语

语音

语音是一个连续的音频流，也是一种时间序列，以离散信号的形式被编码，然后使用一定的文件格式来存储，例如”.wav”。

音素

phone，根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。

音素分为元音与辅音两大类。

元音音素：发音时气流在口腔、咽头不受阻碍而形成的音叫元音。
辅音音素：发音时气流在口腔、咽头受到一定程度的阻碍而形成的音叫辅音。

英语音素：

英语音素（英语国际音标），共48个音素，其中元音音素20个、辅音音素28个。注意音素和字母不是同一个概念，英语字母共有26个，其中有元音字母5个、辅音字母19个、半元音字母2个。

元音音素，20个元音音素，分为单元音和双元音。

28个辅音音素，其中十个清辅音与十个浊辅音恰好成对，以及8个音标。

英语音素分类	分类明细	数量	分类明细	具体音素
元音音素	单元音	12	前元音	/iː/，/ɪ/，/e/，/æ/
			中元音	/ɜː/，/ə/
			后元音	/ɑː/，/ʌ/，/ɔː/，/ɒ/，/uː/，/ʊ/
	双元音	8	合口双元音	/aɪ/，/eɪ/，/aʊ/，/əʊ/，，/ɔɪ/
	双元音	8	集中双元音	/ɪə/，/eə/，/ʊə/
辅音音素	清辅音	10		/p/，/t/，/k/，/f/，/s/，/θ/，/ʃ/，/tʃ/，/ts/，/tr/
	浊辅音	10		/b/，/d/，/g/，/v/，/z/，/ð/，/ʒ/，/dʒ/，/dz/，/dr/
	音标	8		/m/，/n/，/l/，/ŋ/，/h/，/r/，/j/，/w/

汉语音素

举几个例子说明：

汉语音节a（啊）只有一个音素，ai（爱）有两个音素，dai（呆）有三个音素等。

ma和mi中的m就是同一个因素。

Putonghua（普通话）中包含p、u、t、o、ng、h、u、a共8个因素。

多元音素

Senone，有时候，音素会被放在上下文中考虑，这样就形成了三元音素或者多元音素。但它与亚音素不同，他们在波形中匹配时长度还是和单一音素一样。

由于中文、英文、数字、方言、各国语言等的音素是不同的，所以就导致了各厂商语音模型对这些的支持是非常不一样的。

音节

syllables，由音素phones构成的亚单词单元，称为音节。通俗的讲，指由一个或数个音素组成的语音结构基本单位。

音节是一个比较稳定的实体，因为当语音变得比较快的时候，音素往往会发生改变，但是音节却不变。音节与节奏语调的轮廓有关。

单词

亚单词单元（音节）构成单词。单词在语音识别中很重要，因为单词约束了音素的组合。假如共有40个音素，然后每个单词平均有7个音素，那么就会存在40^7个单词。

声道

Sound Channel，是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。

谐波

harmonicwavelength，是一个数学或物理学概念，是指周期函数或周期性的波形中能用常数、与原函数的最小正周期相同的正弦函数和余弦函数的线性组合表达的部分。

共振峰

共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道的物理特征。