语音识别:声学的要素和特征
声学的基本概念
声音,来源于振动的物体,辐射声音的振动物体称之为声源。
声波的概念
声波,一般用频率和声压两个指标形容。
人类的听觉范围为20Hz~20000Hz,即20hz~20kHz,最敏感的是1000hz~3000hz之间的声音。低于人类听觉范围的叫做次声波,高于这个范围的叫做超声波。
声波指标 |
概念 |
分类 |
频率 |
每秒钟振动的次数 |
可听声:20-20000HZ 超声:>20000HZ 次声:<20HZ |
声压 |
疏密波压力的大小 |
与声音的频率和人的年龄有关,一定范围内,声压越大清晰度越大 |
声波,根据波面的不同可分为平面波、柱面波、球面波。
在声波传播的过程中,如果将同位相的点相连,得到的是一系列平行的平面,则称之谓平面波。平面波的波阵面与传播方向是垂直的。平面声波的一个重要特点是,它的振幅不随传播距离而变化(假定媒质没有吸收。)
如果同位相的点相联得到的是平行的柱面,就称为柱面波,其声源一般可视为“线声源”。柱面波的振幅与传播距离的平方根成反比。
声音四要素
人的发声器官实际上存在着大小、形态及功能上的差异。发生控制器官包括声带、软颚、舌头、牙齿、唇等;发声共鸣器包括咽腔、口腔、鼻腔,这些器官的微小差异都会导致发声气流的改变,造成音质、音色的差别。此外,人发声的习惯亦有快有慢,用力有大有小,也造成音强、音长的差别。
音高、音强、音长、音色,统称为声音“四要素”,这些要素可分解成九十余种特征。这些特征表现了不同声音的不同波长、频率、强度、节奏。
要素 |
概念 |
效果 |
举例 |
音高 |
表现语音的字调与语调 也叫音调,主要取决于声波基频的高低 |
是人耳对声音高低的主观感受,频率越高音调越高 |
人耳听觉范围20~20kHz |
音长 |
对语言节奏的快慢,字与句之间的长短关系等加以准确地计量 |
主要取决于声波的持续时间 |
|
音强 |
单位时间内通过声音的能量。也叫响度和音量 |
主要取决于声波振幅的大小,显示语音的重音、轻音等强弱变化 |
正常人的范围在0dB-140dB(分贝) |
音色 |
也叫音频,取决于不同的泛音 |
不同的声音频率在波形上表现出不同的特性 |
辅音的发音,发音的部位,元音的音色,语调的高低,轻重音的强度,高中低音色,男女音色不同,不同乐器的音色。由发声物体本身材料、结构决定。 |
语图仪可以把声波的变化转换成电讯号的强度、波长、频率、节奏变化,仪器又把这些电讯号的变化绘制成波谱图形,就成了声纹图。目前应用的语图仪可以制作七种声纹图:宽带声纹、窄带声纹、振幅声纹、等高线声纹、时间波谱声纹、断面声纹(又分宽带、窄带二种)。
其中,前二种显示语声的频率与强度随时间推移的变化特征;中间三种显示语音强度或声压随时间变化的特征;断面声纹只是显示某一时间点上声波强度和频率特征的声纹图。
音高和频率
物体在一秒钟之内振动的次数叫做频率,单位是Hz,赫兹。在国际电信联盟定义的无线电频率划分当中:
分类 |
标准 |
举例 |
特低频(ULF) |
3~30千赫(kHz) |
闷雷声、风声,人声在这个频段没有声音 |
低频(LF) |
30~300千赫(kHz) |
钢琴低音、低音提琴,男低音可达到某个频率的某些部分 |
中频(MF) |
300~3000千赫(kHz) |
电话、收音机,人耳最容易接受的声音频段 |
甚高频(VHF) |
30~300兆赫(MHz) |
|
特高频(UHF) |
300~3000兆赫(MHz) |
|
超高频(SHF) |
3~30秭赫(GHz) |
高频噪音 |
极高频(EHF) |
30~300秭赫(GHz) |
环境和分贝
声音在不同介质中传播的速度,一般是固体>液体>气体,传播的速度还与介质的种类和温度有关。
声音的传递过程中遇到障碍物就会反弹,发生回声现象。多数情况下,只有一个较大分贝的声音在空旷环境下,人耳才会分辨出回声,日常生活中人耳也经常收集到回声,但由于回声的分贝低或者在嘈杂环境下,所以人耳分辨不出回声。
正常人范围在0dB-140dB(分贝),那么非正常范围我们称之为噪声。噪声分为两类,外界环境噪声和振动,和设备噪声和振动。
分贝(db) |
环境 |
分贝(db) |
环境 |
110 |
列车通过铁路桥时,正下方 |
60 |
安静的街头 |
100 |
地铁行车时,车厢内 |
50 |
安静的办公室 |
90 |
公共汽车内 |
40 |
安静的住宅小区,白天 |
80 |
白天十字路口 |
30 |
安静的住宅小区,夜晚 |
70 |
普通讲话 |
20 |
飞机起飞着路时,正下方 |
声学的基本术语
语音
语音是一个连续的音频流,也是一种时间序列,以离散信号的形式被编码,然后使用一定的文件格式来存储,例如”.wav”。
音素
phone,根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。相同发音动作发出的音就是同一音素,不同发音动作发出的音就是不同音素。
音素分为元音与辅音两大类。
- 元音音素:发音时气流在口腔、咽头不受阻碍而形成的音叫元音。
- 辅音音素:发音时气流在口腔、咽头受到一定程度的阻碍而形成的音叫辅音。
英语音素:
英语音素(英语国际音标),共48个音素,其中元音音素20个、辅音音素28个。注意音素和字母不是同一个概念,英语字母共有26个,其中有元音字母5个、辅音字母19个、半元音字母2个。
元音音素,20个元音音素,分为单元音和双元音。
28个辅音音素,其中十个清辅音与十个浊辅音恰好成对,以及8个音标。
英语音素分类 |
分类明细 |
数量 |
分类明细 |
具体音素 |
元音音素 |
单元音 |
12 |
前元音 |
/iː/,/ɪ/,/e/,/æ/ |
中元音 |
/ɜː/,/ə/ |
|||
后元音 |
/ɑː/,/ʌ/,/ɔː/,/ɒ/,/uː/,/ʊ/ |
|||
双元音 |
8 |
合口双元音 |
/aɪ/,/eɪ/,/aʊ/,/əʊ/,,/ɔɪ/ |
|
集中双元音 |
/ɪə/,/eə/,/ʊə/ |
|||
辅音音素 |
清辅音 |
10 |
/p/,/t/,/k/,/f/,/s/,/θ/,/ʃ/,/tʃ/,/ts/,/tr/ |
|
浊辅音 |
10 |
/b/,/d/,/g/,/v/,/z/,/ð/,/ʒ/,/dʒ/,/dz/,/dr/ |
||
音标 |
8 |
/m/,/n/,/l/,/ŋ/,/h/,/r/,/j/,/w/ |
汉语音素
举几个例子说明:
汉语音节a(啊)只有一个音素,ai(爱)有两个音素,dai(呆)有三个音素等。
ma和mi中的m就是同一个因素。
Putonghua(普通话)中包含p、u、t、o、ng、h、u、a共8个因素。
多元音素
Senone,有时候,音素会被放在上下文中考虑,这样就形成了三元音素或者多元音素。但它与亚音素不同,他们在波形中匹配时长度还是和单一音素一样。
由于中文、英文、数字、方言、各国语言等的音素是不同的,所以就导致了各厂商语音模型对这些的支持是非常不一样的。
音节
syllables,由音素phones构成的亚单词单元,称为音节。通俗的讲,指由一个或数个音素组成的语音结构基本单位。
音节是一个比较稳定的实体,因为当语音变得比较快的时候,音素往往会发生改变,但是音节却不变。音节与节奏语调的轮廓有关。
单词
亚单词单元(音节)构成单词。单词在语音识别中很重要,因为单词约束了音素的组合。假如共有40个音素,然后每个单词平均有7个音素,那么就会存在40^7个单词。
声道
Sound Channel,是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。
谐波
harmonicwavelength,是一个数学或物理学概念,是指周期函数或周期性的波形中能用常数、与原函数的最小正周期相同的正弦函数和余弦函数的线性组合表达的部分。
共振峰
共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道的物理特征。
语音识别:声学的要素和特征相关推荐
- 阿里巴巴开源语音识别声学建模技术
编者按:本文作者阿里巴巴机器智能技术实验室高级算法工程师张仕良.文章介绍了阿里巴巴的语音识别声学建模新技术: 前馈序列记忆神经网络(DFSMN),目前基于DFSMN的语音识别系统已经在法庭庭审识别.智 ...
- 【语音识别】基于过零特征实现电话按键语音识别含Matlab源码
1 简介 近年来,随着科学技术的迅猛发展,语音识别技术被广泛应用于各行各业.本文在分析和总结前人研究的基础上,提出了基于多特征参数混合的研究思路,以此来解决在识别率和鲁棒性方面存在的问题.由此可见,如 ...
- 人耳识别代码_语音识别之——音频特征fbank与mfcc,代码实现与分析
语音识别中常用的音频特征包括fbank与mfcc. 获得语音信号的fbank特征的一般步骤是:预加重.分帧.加窗.短时傅里叶变换(STFT).mel滤波.去均值等.对fbank做离散余弦变换(DCT) ...
- 【语音识别】基于mfcc特征模板匹配算法实现声纹识别matlab源码含GUI
在任意一个Automatic speech recognition 系统中,第一步就是提取特征.换句话说,我们需要把音频信号中具有辨识性的成分提取出来,然后把其他的乱七八糟的信息扔掉,例如背景噪声啊, ...
- 声学漫谈之一:声音三要素
声学三要素是指:音调.音色.响度.任何复杂的声音都可以用此三个属性来描述,其分别对应声压的三个物理量:频率.相位.幅度. 音调:人耳对于声音高低的感觉,称为音调.音调主要与声音的频率有关,同时业余声压 ...
- 正 文 声学漫谈之一:声音三要素
声学漫谈之一:声音三要素 https://blog.csdn.net/hi_zhengjian/article/details/78959164 (2016-5-30 20:09) 标签:声学,三要素 ...
- 一个典型的语音识别系统
一.语音识别技术 转载请表明出处:http://blog.csdn.net/u012637501(嵌入式_小J的天空) 语音识别技术,广泛来说是指语意识别和声纹识别:从狭义上来说指语音语义的理 ...
- 系统学习NLP(一)--语音识别的计算机处理综述
参考:https://blog.csdn.net/u012637501/article/details/42424961 从这个月开始,进入NLP方向,<自然语言处理综论>这本书有将近五章 ...
- 远场语音识别错误率降低30%,百度提基于复数CNN网络的新技术
[12月公开课预告],入群直接获取报名地址 12月11日晚8点直播主题:人工智能消化道病理辅助诊断平台--从方法到落地 12月12日晚8点直播:利用容器技术打造AI公司技术中台 12月17日晚8点直播 ...
- 远场语音识别,性能提升 30%,百度怎么做到的?
导语:彻底端到端 ~ "今天我保守报一个30%以上的性能提升,很保守.未来这个技术会再次大幅刷新人们对远场语音的认知.我自己的判断是,三年以内远场语音技术的识别率将达到近场识别率,因为有了这 ...
最新文章
- POJ 1410 Intersection
- Linux那些事儿之我是Sysfs(7)dentry与inode
- 我已经把servlet-api.jar加到classpath中了,可还是无法编译servlet
- 99. 恢复二叉搜索树
- Android 系统中 Location Service 的实现与架构
- Java Web——文件下载时中文文件名乱码问题解决方案
- 版本管理工具Git(2)git的使用
- MySQL调优(八):查缺补漏(mysql的锁机制,读写分离,执行计划详解,主从复制原理)
- Android隐藏标题栏,全屏显示
- echart高级使用_Echart使用总结
- Magento重建所有索引方法
- Makefile for Sphinx documentation
- 朋友圈如何测试(思维导图)
- linux 时间服务器安装配置
- 190122每日一句
- 英文名大全及含义(男)
- 药库管理系统登录界面设计
- matlab 电力电子仿真电路,基于Matlab_Simulink的电力电子电路仿真.pdf
- 计算机分层和tcp分层_认知分层的机械权威与人类权威
- 利用Reachability判断网络环境(WAN/WIFI)