本篇文章主要介绍量化、分析语音信号:围绕语音是怎么产生的?都有哪些特点?这些原理都是语音识别背后的基础。一、音频基础知识-声音的产生和记录一文中描述了声音的本质,并且介绍了一段单一的声波(比如正弦波)从振动产生,到最终被数字化为一段音频文件的整个过程,这个是理想状态,但是我们知道音频在实际传输过程中,是会受到各种复杂环境的干扰的,而且也不单单是只有一个频率。因此,今天这篇文章就以语音为例,从语音的产生这个角度,分析一下在实际语音产生、传递过程中,遇到的问题,以及以此延伸出来的一些专业名词、术语。

文章目录

  • 1. 语音的产生
  • 2. 声源
  • 3. 语音分类:清音和浊音
    • 3.1 清音和浊音频谱差异
    • 3.2 分析语音频谱得到信息
      • 3.2.1 基频
      • 3.2.2 谐波
      • 3.2.3 共振峰

1. 语音的产生


  上图是《新闻传播大辞典》中对人体发音器官的结构描述示意图,他将发音声道(声音传播通过的地方就叫声道)归类为三个腔体:鼻腔、口腔、咽腔。然后语音的产生就是由声源、声道共同的作用产生的,所以对语音的分析,就要从声源、声道两个来源处进行分析。

2. 声源

  一、音频基础知识-声音的产生和记录一文中我们知道,声源是能够产生振动的物体,而人体发音器官结构示意图中,声源有两类:声带振动作为声源、气体在经过唇齿等狭小的区域由于空气与腔体的摩擦作为的声源。两者的本质区别是振动源不同,一个是声带振动,一个是空气摩擦振动。

3. 语音分类:清音和浊音

根据声源的不同,对语音也做了不同的分类:

  1. 浊音:声带振动作为声源产生的声音(拼音里的a,o,e等)
  2. 清音:气体摩擦作为声源产生的声音(拼音里的zhi,chi,xi等)

3.1 清音和浊音频谱差异


为了方便分析,做了降噪处理:

  为了方便分析,上图中,我录下来“视频互动”这几个词语的音频图,这几个字的汉语拼音是“shi pin hu dong”,前两个字都是清音发声:“shi pin”,后两个字是声带发声的浊音:“hu dong”,从语谱图(时间域频率、能量)上看,清音的频率分布比较宽、均匀,浊音在频率上大多分布在低频区域。空气振动频域肯定会比较高,也比较全,而声带振动频率就非常有限,所以在语谱图上救出现了清音、浊音的频率分布差距。

3.2 分析语音频谱得到信息

  清音的声源是空气摩擦振动产生的,复杂,不容分析,我们单独挑浊音来分析。

3.2.1 基频

  浊音发声是声带振动产生的,声带振动会产生一个声波,我们把这个声波叫做基波,把这个基波的频率叫做基频,一般用F0来标识基频。
  这个基频可以对应到我们平时说的音调,你唱歌音调的高和低就对应着你的声音基频的高和低。
男声正常说话的基频在100 ~ 200Hz左右,女声就更高一点:140Hz ~ 240Hz之间,这就是女声比男声听起来更尖锐的原因。
  基频会随着年龄变化去变化:小孩的基频比较高,能达到300Hz,年龄越大基频就越低了。

3.2.2 谐波

  声带振动产生的基波,在传输的过程中,会经过声道,并在声道内进行反复的碰撞、折射,这个过程中产生大量的频率的声波,这些声波的频率是基频的倍数,我们把这些声波叫做谐波。按照谐波频率由低到高,依次叫1次谐波、2次谐波等。
  浊音频谱中,谐波频率和基频是能量集中的地方(颜色最亮)。

3.2.3 共振峰

  比如一个200Hz基频的浊音,大部分的能量在了200Hz 及 200Hz的整数倍的频率上,那是什么决定了谐波能量的高低呢?这就需要从谐波产生的原理上去分析了。
  因为高次谐波是由低次谐波在腔体表面反复碰撞折射反射得到的,而且在这个过程中,反复的碰撞会导致能量的衰减,但是我们从语谱图上看,谐波也不是逐渐衰减的,这又是因为什么呢?这是因为我们在分析浊音产生的过程中,忽略了声源的振动信号经过声道时,声道它本身也会发声共鸣,与声道共振频率相近的能量会被增强,其他共振频率部分会被衰减。
  因为和声道共振频率相近的部分能量被增强,和声道共振频率差的远的部分被衰减,谐波得到能量就形成了一组高低起伏的形状,我们把中间的巅峰位置叫做共振峰:

   根据频率的高低,用F1、F2、F3来标识第一共振峰、第二共振峰、第三共振峰。
   根据上面的图片发现,“a、i、u”发声的共振峰的位置、共振峰的能量峰值都不一样,这是因为声道的三个腔体:鼻腔、口腔、喉腔会随着发音的不同,开合、形状都会发声变化,这就形成不同的腔体共振频率,那不同的发音,它的共振峰出现的位置和能量就会不一样,根据这个就能把共振峰的位置和能量和发音对应起来,形成了语音识别的基础原理之一。

一、音频基础知识 - 语音的基本特征相关推荐

  1. AAC音频基础知识及码流解析

    AAC音频基础知识及码流解析 目录 AAC简介 AAC规格简介 AAC特点 AAC音频文件格式及代码解析 AAC元素信息 AAC文件处理流程 AAC解码流程 技术解析 1. AAC简介 AAC是高级音 ...

  2. PCM音频基础知识及采样数据处理

    PCM音频基础知识及采样数据处理 目录 PCM简介 采样频率.量化精度(采样位数)和声道数 音频帧 录播过程 音频混音 PCM音频采样数据处理 转载自:音频PCM知识整理 视音频数据处理入门:PCM音 ...

  3. Android音视频学习系列(五) — 掌握音频基础知识并使用AudioTrack、OpenSL ES渲染PCM数据

    系列文章 Android音视频学习系列(一) - JNI从入门到精通 Android音视频学习系列(二) - 交叉编译动态库.静态库的入门 Android音视频学习系列(三) - Shell脚本入门 ...

  4. torchaudio音频基础知识学习

    torchaudio音频基础知识学习 文章目录 torchaudio音频基础知识学习 前置知识 音频的表示形式 总结 贴出本文学习的主要来源: pytorch官网torchaudio的学习文档 需要使 ...

  5. 百万调音师—音频基础知识

    百万调音师-音频基础知识 音频基本属性 1).音频理论 2).音频格式 3).音频声道 声音如何传输到电脑? 模拟信号 数字信号 脉冲编码调制 1).滤波 2).采样 3).量化 4).编码 分贝 音 ...

  6. python录音详解_Python实现电脑录音(含音频基础知识讲解)

    咪哥杂谈 本篇阅读时间约为 6 分钟. 1 前言 今天开始进入近期系列文章的第一篇,如何用 Python 来实现录音功能. 在开始"造轮子"之前,个人一直强调一个观点,如果有些东西 ...

  7. 音频基础知识以及PCM转WAV

    音频基础知识 声音是什么? 记得初中学物理的时候我们就学过声音了,声音是由振动产生的,声音在空气中振动形成振动波传到我们的耳朵,我们的耳膜接收到了振动波,所以能感受到声音.声音在空气中的振动波我们看不 ...

  8. Python实现电脑录音(含音频基础知识讲解)

    咪哥杂谈 本篇阅读时间约为 6 分钟. 1 前言 今天开始进入近期系列文章的第一篇,如何用 Python 来实现录音功能. 在开始"造轮子"之前,个人一直强调一个观点,如果有些东西 ...

  9. Python之音频信号处理(一)音频基础知识

    一.音频基础知识 1.声音的三要素 (1)音调 人耳对声音高低的感觉称为音调(也叫音频).音调主要与声波的频率有关.声波的频率高,则音调也高.一般音频 儿童>女生>男生. 人耳听觉音频范围 ...

  10. Android音频开发(一):音频基础知识

    一.Android音频开发(一):音频基础知识 二.Android音频开发(二):录制音频(WAV及MP3格式) 三.Android音频开发(三):使用ExoPlayer播放音频 四.Android音 ...

最新文章

  1. mysql raw_Oracle中的Raw类型解释
  2. not syncing : corrupted stack end detected inside scheduler解决办法 以及高版本的激活码!
  3. (0013)iOS 开发之集成友盟第三方登录
  4. 解决计算机名修改或作业移植导致的服务器名问题.sql
  5. SQL优化常用方法10
  6. AdaBoost算法特性
  7. Python 过滤字母和数字
  8. WPF入门(六)样式Style
  9. 了解一下Bootstrap
  10. 工业互联网为湖南制造装上“智脑”
  11. 用友U8远程接入解决方案用户手册下载
  12. 京东大数据技术白皮书 附下载地址
  13. js打开新窗口与页面跳转
  14. bom成本分析模型_材料成本控制,从BOM表开始。
  15. 计算机科学与技术专业大学排名及录取分数,计算机科学与技术专业分数线各大学排名(湖南)...
  16. 中央民族大学计算机考研2020,2020年中央民族大学856计算机学科专业综合考研复习资料...
  17. 公有云和私有云的主要区别在哪里,公有云会不会带来隐私泄露的问题?
  18. SEE 中的数据结构及之间的关系
  19. 弯道超车老司机戏耍智能合约——竞态条件漏洞 | 漏洞解析连载之三
  20. docker 中sftp常用命令(新手上路,多多关照)

热门文章

  1. Elasticsearch顶尖高手系列:高手进阶篇(一)
  2. 在Pycharm中,全文搜索、替换,以及单独文件搜索、替换!
  3. f2fs存储结构初探
  4. 微软应用商店Ubuntu 20.04 LTS打开0x8007019e错误解决
  5. 凤凰os可以用linux指令么,用凤凰OS必须先了解的那些事
  6. java工控_用java做工控的大神进
  7. C语言程序确定闰月,怎样计算闰月
  8. MySQL中对索引的理解 特点 优势_深入理解MySQL索引和优化
  9. SiT3808:1 -80MHz 单端压控振荡器VCXO
  10. 苹果 服务通知 V2