提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言


一、声音的由来

声音是一种波,由物体振动产生的,必须通过介质传播(固、液、气)。通常是人们听的到语音是由空气传播的,是一种纵波,传播的方向和震动的方向一致。

人发音的过程:

气流(由肺部排排出)

声带(气流通过声门时对声带所造成的冲击)

声道(包括喉咙、咽头、口腔、鼻腔等,通过改变声道的形状,调制出各种不同的声音)

人听到语音的过程:

空气传播 → 入耳 → 鼓膜获取 → 传递给小骨 → 耳蜗 → 转换为神经电信号 → 传送大脑的中枢听觉系统

二、声学基础

 1.正弦波 

1.正弦波

其中t为时间;f为频率;A为振幅;2Πft+为相位,为初始相位

2.周期T

周期T指的是重复周期的最短时间,单位为秒(s)

3.频率f

频率f指波形在每秒里有多少循环,频率的单位为赫兹(Hz),周期为频率的倒数:T=1/f

4.角频率

角频率 =2Πf=2Π/T,单位为弧度每秒(rad/s)

5.余弦波

与正弦波相差四分之一周期

2.频谱图

1.频谱:任意复杂的周期函数,通过傅里叶变换,都可以表示为一系列不同频率的正弦波和余弦波之和。

傅里叶变换据具体细节?

2.频谱图:复杂的波形图可以分解为许多个正弦波叠加。频谱图的横轴为这些正弦波分量的频率,纵轴为正弦波分量的振幅,但实际应用中,频谱图的纵轴通常不是振幅,而是声压,功率等其他物理量。

图 两个正弦波叠加而成的波形——第一个正弦波频率为5Hz,振幅为2;第二个正弦波频率为50Hz,振幅为1

图 频谱图

三、人类的听觉

1.基频F0

①基音:一种主观心理量,人耳感受到声音的高低。对应的物理量为基频(F0),通常对应的是说话的人在说话时,声带振动的频率,也就是声带每开启与笔画和一次的时间的倒数。

②基音轨迹:横轴为时间,纵轴为基频。随着时间的变化,信号的基频本身也可能出现变化,一半基音轨迹与汉语的声调有关。

第一声——阴平——对应的轨迹:-

第二声——阳平——对应的轨迹:/

第三声——上声——对应的轨迹:∨

第四声——去声——对应的轨迹:\

③共振峰:固有频率会随着声道形状与尺寸的变化而变化,语音信号产生的共振的频率叫做共振峰。

通常前两个共振峰(F1&F2)与元音的舌位有关系,F1为元音舌位的高低;F2为元音舌位的前后,如图 所示

2.声强

①响度:一种主观心理量,人耳感受到声音的大小。对应的物理量为声强。

假如周期为T的信号可以表示为y=f(t)

功率    

②声强的两种定义

····

声强可以理解为单位面积上的声音功率,通过对数函数定义,假设人耳能听到的声音最小功率为Po,那声强LdB可以定义为——

,单位为分贝,dB

····

声强也通过声音所产生的气压来定义

,其中分子是声压的均方根,分母是人耳能听到的声音的最小声压,一半是20微帕,分母也称为听阀,表示人耳听觉的阈值

四、听觉的分线性

对频率感知的非线性,对声强感知的非线性,好的音频信号处理系统需要考虑这两方面。

1.巴克刻度(离散)

关于巴克刻度:描述人耳对于频率感知的非线性,人耳听见的频率分为24个频率群,每个频率都有其对应的中间频率、截止频率、带宽来确定,如图所示

在频率刻度上,听觉系统频率1000Hz与2000Hz之间的距离,与频率2000Hz与3000Hz之间的距离,都是1000Hz,但是对于听觉系统来说会认为1000Hz与2000Hz之间差距更大。巴克刻度可以解决这个问题,例如9巴克到13巴克之间与13巴克到17巴克之间,都是相差了4巴克,听觉系统也会认为这两个差距大致相同,巴克的近似计算法:

,f为频率

常见应用于计算感知线性编码特征时,使用关键频带分析

2.梅尔刻度 (连续)

梅尔刻度连续严格单调递增

频率f与梅尔m之间的换算公式

3.音频信号概念

模拟转数字

1.采样:

*按照固定的频率,对模拟信号的振幅进行取值,这个频率就叫做采样,单位为Hz,表示每秒钟内所取得的采样的个数

*如果准确的度量信号,则需要在每个周期进行至少两次采样:对波峰和波谷各采取一次

*给定一个采样率,我们所能重建的周期信号的频率是该采样率的一半,这个频率是奈奎斯特频率

*越高的采样率有越大的计算量、存储量及网络传输数据量,所以不推荐过高的采样率

*通常为16000Hz的采样率,CD采样率为44100Hz,DVD为48000Hz

频率为20Hz的正弦信号,对信号采取40Hz的离线信号;对信号采取120Hz的离线信号;对信号采取25Hz的离线信号;

2.量化

为了保存和传输采样的数值,将其表示为整数,所以在将实数域的振幅值转换为整数时,会损失一定的精度,这个过程叫做量化

量化的精度:等于相邻两个整数所表示的实数的差值——如果两个实数之间的差距小于这个差值,它便会被量化为同一个整数

现在通常是16000Hz,16位量化

↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑

将连续的音频转换为离散的整数序列


音频编码

将音频信号转换为二进制字节→编码;

将二进制字节转换为音频信号→解码;

1.线性脉冲编码(linearPCM)

含义:直接将采样过后得到的振幅进行量化,且量化的时候相邻整数所表示的信号的差值恒定

缺点:编码效率低

2.非线性脉冲编码

含义:低振幅采取较高精度,高振幅采取较低精度(理由:人耳的非线性);对信号的取值采取对数变换,编码的时候先将信号应用对数函数,再进行线性脉动编码,再解码的时候需要应用指数函数进行逆变换

两种常见的非线性脉冲编码

(北美&日本)——

,对于8位编码来说,=255

(中国&欧洲)——

,这里的A称作压缩系数,欧洲通常取值为A=87.6

如图 两种非线性变换的图像绘制出来十分接近,几乎重叠

3.自适应脉冲编码

4.差分脉冲编码与自适应差分脉冲编码

5.频域编码


音频格式

1.wav

2.常见格式

五、从信号到特征:短时分析

1.传统特征的不足

2.分帧

3.窗函数处理

4.帧叠加

5.帧采样

六、常用的音频特征


参考:

王泉.声纹技术[M],三河市君旺印务有限公司,2020:14-53

搞语音的有关音频的基础知识相关推荐

  1. 计算机播放声音时进行模数转换,音频的基础知识.ppt

    文档介绍: 数字音频的基础知识Szsy-luowei-2006音频的分类数字音频的产生数字音频文件的分类数字音频信息获取的途径摔尾表帛阜姚矫咐褒睡阀俘疵师哀哮沁魂休霹辱鹰娱却扑遭音舟诣厕二淡音频的基础 ...

  2. 音频开发基础知识简介

    在现实生活中,音频(audio)主要用在两大场景中:语音(voice)和音乐(music).语音主要用于沟通通信,如打电话,现在由于语音识别的发展,人机语音交互也是语音的一个应用,目前正在风口上,好多 ...

  3. 视音频格式基础知识视频压缩

    视音频格式基础知识&视频压缩 2018.7.10 一.视频基础知识 1.什么是视频:连续的图像变化每秒超过24帧(frame)画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面:看上去是 ...

  4. 音频相关基础知识(采样率、位深度、通道数、PCM、AAC)

    (这其实是一篇转载好几篇的博客,然后自己加了少许) 转载博客1 关于采样率&位深&码率&无损的一些心得_Marenow的博客-CSDN博客_flac格式采样率比特率记笔记,记下 ...

  5. 音频信号处理基础知识

    语音信号处理基础知识 1.均值 1.1.均值公式定义 x‾=x1+x2+⋯+xnn=∑j=1nxjn\overline{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} ...

  6. Android Multimedia框架总结(十七)音频开发基础知识

    原文链接:http://blog.csdn.net/hejjunlin/article/details/53078828 近年来,唱吧,全民K歌,QQ音乐,等成为音频软件的主流力量,音频开发一直是多媒 ...

  7. ios音频相关基础知识

    最近在看音频相关的知识,然后就搜集了些基础知识记录下来,以便日后查看和供需要的人学习 1.音频(audio) 指人耳可以听到的声音频率在20HZ~20kHz之间的声波,称为音频. 2.音频采样(aud ...

  8. 计算机基础知识 音频,计算机基础知识(总结+试题).pdf

    计算机基础知识(总结+试题) 第一册 Windows XP 第 1 章计算机基本基础 P14 1, 计算机有什么特性 计算机是一种不需要人的直接干预而能够对各种数字化信息进行算术和逻辑运 行的快速工具 ...

  9. 语音识别学习日志 2019-7-17 语音识别基础知识准备6 {维特比算法(Viterbi Algorithm)}

    HMM 维特比算法(Viterbi Algorithm)详细解释参考:http://www.52nlp.cn/hmm-learn-best-practices-six-viterbi-algorith ...

最新文章

  1. 1万粉的小红书kol报价_小红书母婴博主资源怎么找?小红书母婴种草软文撰写技巧分享!...
  2. jquery遍历table
  3. WIN2008系统的IIS7.0配置REWRITE伪静态环境
  4. redis 槽点重新分配 集群_5000+字硬核干货!Redis 分布式集群部署实战
  5. oracle书评,【书评:Oracle查询优化改写】第二章
  6. MFC多线程处理界面假死之红外图像数据获取和excel写入
  7. leetcode第 46 场双周赛
  8. ruby 集合 分组_将Ruby中两个集合的所有元素结合在一起
  9. 编程大神进阶,Python技巧小贴士
  10. CSS快速学习3:文本、背景等属性
  11. 【2】puppet笔记 - package、service、user资源
  12. 匆匆的一瞥,错过了一份正确的BIOS……,安装X64系统时错刷BIOS的彻底死机过程以及解决方法...
  13. excel表 公式失效_如何在没有公式的情况下创建Excel工作表的副本
  14. 【软考系统架构设计师】2010年下系统架构师案例分析历年真题
  15. 用HTML语言编写下图所示网页,2019-02-21第一章 HTML基础
  16. 苹果wifi网速慢怎么办_三步解决家里网速慢的问题
  17. json嵌套字典数据获取
  18. 【图像处理】HDF5 C++编程简介
  19. 习题:输入abc的值求一元二次方程的解
  20. Java笔记总结(二)

热门文章

  1. wps和office有什么区别?
  2. Nebula Graph 在企查查的应用
  3. FCOS搭建环境bug
  4. B站大佬用我的世界搞出卷积神经网络,LeCun转发!爆肝6个月,播放破百万
  5. Arduino ESP8266/ESP32读取和改写MAC
  6. 济南技校计算机专业学什么,技校计算机专业学什么-邹城
  7. 广州润衡网吧装饰,很牛的网吧装饰
  8. python爬取腾讯新闻_Python采集腾讯新闻实例
  9. 【python】调用百度智能云API实现手写文字识别
  10. Spring Boot WebFlux 入门