一、音频基础知识 - 语音的基本特征
本篇文章主要介绍量化、分析语音信号:围绕语音是怎么产生的?都有哪些特点?这些原理都是语音识别背后的基础。一、音频基础知识-声音的产生和记录一文中描述了声音的本质,并且介绍了一段单一的声波(比如正弦波)从振动产生,到最终被数字化为一段音频文件的整个过程,这个是理想状态,但是我们知道音频在实际传输过程中,是会受到各种复杂环境的干扰的,而且也不单单是只有一个频率。因此,今天这篇文章就以语音为例,从语音的产生这个角度,分析一下在实际语音产生、传递过程中,遇到的问题,以及以此延伸出来的一些专业名词、术语。
文章目录
- 1. 语音的产生
- 2. 声源
- 3. 语音分类:清音和浊音
- 3.1 清音和浊音频谱差异
- 3.2 分析语音频谱得到信息
- 3.2.1 基频
- 3.2.2 谐波
- 3.2.3 共振峰
1. 语音的产生
上图是《新闻传播大辞典》中对人体发音器官的结构描述示意图,他将发音声道(声音传播通过的地方就叫声道)归类为三个腔体:鼻腔、口腔、咽腔。然后语音的产生就是由声源、声道共同的作用产生的,所以对语音的分析,就要从声源、声道两个来源处进行分析。
2. 声源
一、音频基础知识-声音的产生和记录一文中我们知道,声源是能够产生振动的物体,而人体发音器官结构示意图中,声源有两类:声带振动作为声源、气体在经过唇齿等狭小的区域由于空气与腔体的摩擦作为的声源。两者的本质区别是振动源不同,一个是声带振动,一个是空气摩擦振动。
3. 语音分类:清音和浊音
根据声源的不同,对语音也做了不同的分类:
- 浊音:声带振动作为声源产生的声音(拼音里的a,o,e等)
- 清音:气体摩擦作为声源产生的声音(拼音里的zhi,chi,xi等)
3.1 清音和浊音频谱差异
为了方便分析,做了降噪处理:
为了方便分析,上图中,我录下来“视频互动”这几个词语的音频图,这几个字的汉语拼音是“shi pin hu dong”,前两个字都是清音发声:“shi pin”,后两个字是声带发声的浊音:“hu dong”,从语谱图(时间域频率、能量)上看,清音的频率分布比较宽、均匀,浊音在频率上大多分布在低频区域。空气振动频域肯定会比较高,也比较全,而声带振动频率就非常有限,所以在语谱图上救出现了清音、浊音的频率分布差距。
3.2 分析语音频谱得到信息
清音的声源是空气摩擦振动产生的,复杂,不容分析,我们单独挑浊音来分析。
3.2.1 基频
浊音发声是声带振动产生的,声带振动会产生一个声波,我们把这个声波叫做基波,把这个基波的频率叫做基频,一般用F0来标识基频。
这个基频可以对应到我们平时说的音调,你唱歌音调的高和低就对应着你的声音基频的高和低。
男声正常说话的基频在100 ~ 200Hz左右,女声就更高一点:140Hz ~ 240Hz之间,这就是女声比男声听起来更尖锐的原因。
基频会随着年龄变化去变化:小孩的基频比较高,能达到300Hz,年龄越大基频就越低了。
3.2.2 谐波
声带振动产生的基波,在传输的过程中,会经过声道,并在声道内进行反复的碰撞、折射,这个过程中产生大量的频率的声波,这些声波的频率是基频的倍数,我们把这些声波叫做谐波。按照谐波频率由低到高,依次叫1次谐波、2次谐波等。
浊音频谱中,谐波频率和基频是能量集中的地方(颜色最亮)。
3.2.3 共振峰
比如一个200Hz基频的浊音,大部分的能量在了200Hz 及 200Hz的整数倍的频率上,那是什么决定了谐波能量的高低呢?这就需要从谐波产生的原理上去分析了。
因为高次谐波是由低次谐波在腔体表面反复碰撞折射反射得到的,而且在这个过程中,反复的碰撞会导致能量的衰减,但是我们从语谱图上看,谐波也不是逐渐衰减的,这又是因为什么呢?这是因为我们在分析浊音产生的过程中,忽略了声源的振动信号经过声道时,声道它本身也会发声共鸣,与声道共振频率相近的能量会被增强,其他共振频率部分会被衰减。
因为和声道共振频率相近的部分能量被增强,和声道共振频率差的远的部分被衰减,谐波得到能量就形成了一组高低起伏的形状,我们把中间的巅峰位置叫做共振峰:
根据频率的高低,用F1、F2、F3来标识第一共振峰、第二共振峰、第三共振峰。
根据上面的图片发现,“a、i、u”发声的共振峰的位置、共振峰的能量峰值都不一样,这是因为声道的三个腔体:鼻腔、口腔、喉腔会随着发音的不同,开合、形状都会发声变化,这就形成不同的腔体共振频率,那不同的发音,它的共振峰出现的位置和能量就会不一样,根据这个就能把共振峰的位置和能量和发音对应起来,形成了语音识别的基础原理之一。
一、音频基础知识 - 语音的基本特征相关推荐
- AAC音频基础知识及码流解析
AAC音频基础知识及码流解析 目录 AAC简介 AAC规格简介 AAC特点 AAC音频文件格式及代码解析 AAC元素信息 AAC文件处理流程 AAC解码流程 技术解析 1. AAC简介 AAC是高级音 ...
- PCM音频基础知识及采样数据处理
PCM音频基础知识及采样数据处理 目录 PCM简介 采样频率.量化精度(采样位数)和声道数 音频帧 录播过程 音频混音 PCM音频采样数据处理 转载自:音频PCM知识整理 视音频数据处理入门:PCM音 ...
- Android音视频学习系列(五) — 掌握音频基础知识并使用AudioTrack、OpenSL ES渲染PCM数据
系列文章 Android音视频学习系列(一) - JNI从入门到精通 Android音视频学习系列(二) - 交叉编译动态库.静态库的入门 Android音视频学习系列(三) - Shell脚本入门 ...
- torchaudio音频基础知识学习
torchaudio音频基础知识学习 文章目录 torchaudio音频基础知识学习 前置知识 音频的表示形式 总结 贴出本文学习的主要来源: pytorch官网torchaudio的学习文档 需要使 ...
- 百万调音师—音频基础知识
百万调音师-音频基础知识 音频基本属性 1).音频理论 2).音频格式 3).音频声道 声音如何传输到电脑? 模拟信号 数字信号 脉冲编码调制 1).滤波 2).采样 3).量化 4).编码 分贝 音 ...
- python录音详解_Python实现电脑录音(含音频基础知识讲解)
咪哥杂谈 本篇阅读时间约为 6 分钟. 1 前言 今天开始进入近期系列文章的第一篇,如何用 Python 来实现录音功能. 在开始"造轮子"之前,个人一直强调一个观点,如果有些东西 ...
- 音频基础知识以及PCM转WAV
音频基础知识 声音是什么? 记得初中学物理的时候我们就学过声音了,声音是由振动产生的,声音在空气中振动形成振动波传到我们的耳朵,我们的耳膜接收到了振动波,所以能感受到声音.声音在空气中的振动波我们看不 ...
- Python实现电脑录音(含音频基础知识讲解)
咪哥杂谈 本篇阅读时间约为 6 分钟. 1 前言 今天开始进入近期系列文章的第一篇,如何用 Python 来实现录音功能. 在开始"造轮子"之前,个人一直强调一个观点,如果有些东西 ...
- Python之音频信号处理(一)音频基础知识
一.音频基础知识 1.声音的三要素 (1)音调 人耳对声音高低的感觉称为音调(也叫音频).音调主要与声波的频率有关.声波的频率高,则音调也高.一般音频 儿童>女生>男生. 人耳听觉音频范围 ...
- Android音频开发(一):音频基础知识
一.Android音频开发(一):音频基础知识 二.Android音频开发(二):录制音频(WAV及MP3格式) 三.Android音频开发(三):使用ExoPlayer播放音频 四.Android音 ...
最新文章
- mysql raw_Oracle中的Raw类型解释
- not syncing : corrupted stack end detected inside scheduler解决办法 以及高版本的激活码!
- (0013)iOS 开发之集成友盟第三方登录
- 解决计算机名修改或作业移植导致的服务器名问题.sql
- SQL优化常用方法10
- AdaBoost算法特性
- Python 过滤字母和数字
- WPF入门(六)样式Style
- 了解一下Bootstrap
- 工业互联网为湖南制造装上“智脑”
- 用友U8远程接入解决方案用户手册下载
- 京东大数据技术白皮书 附下载地址
- js打开新窗口与页面跳转
- bom成本分析模型_材料成本控制,从BOM表开始。
- 计算机科学与技术专业大学排名及录取分数,计算机科学与技术专业分数线各大学排名(湖南)...
- 中央民族大学计算机考研2020,2020年中央民族大学856计算机学科专业综合考研复习资料...
- 公有云和私有云的主要区别在哪里,公有云会不会带来隐私泄露的问题?
- SEE 中的数据结构及之间的关系
- 弯道超车老司机戏耍智能合约——竞态条件漏洞 | 漏洞解析连载之三
- docker 中sftp常用命令(新手上路,多多关照)