1. 基本知识

音频数据的承载方式最常用的是脉冲编码调制，即PCM。于自然界中，声音是连续不断的，是一种模拟信号。将声音保存在计算机中最常用的方法是把声音进行数字化处理，即转换为数字信号，然后存储到磁盘。

声音是一种波，有振幅和频率，保存声音就要保存声音在各个时间点上的振幅，但数字信息并不能连续保存所有时间点的振幅。实际上，并不需要保存连续的信号，也可以还原出人耳可接受的声音。

根据奈奎斯特采样定理，为了不失真地恢复模拟信号，采样频率应该不小于模拟信号频谱中最高频率的2倍。根据以上分析，PCM的采集分为以下步骤：

模拟信号——>采样——>量化——>编码——>数字信号

音频是一个专业术语，人类能够听到的所有声音都成为音频，它可以包括噪声。声音被录制下来后，无论是说话声、歌声、乐器声都可以通过数字音乐软件处理。常见把声音制作成CD时，所有声音并没有改变，因为CD本来就是音频文件的一种类型。

2.采样率和采样位数

采样率，即采样的频率。奈奎斯特采样定理规定采样率要大于原声波最高频率的2倍，人耳能听到的最高频率约为20kHz，所以为满足人耳听觉要求，采样率至少应为40kHz,通常为44.1kHz，更高的频率通常为48kHz。

注：人耳听觉频率范围为[20Hz,20kHz]。

采样位数涉及上面提到的振幅量化。波形振幅在模拟信号上是连续的样本值，而在信号中,数字信号一般是不连续的，所以模拟信号量化后，只能取一个近似的整数值。为了记录这些振幅值，采样器会使用一个固定的位数，通常是8位、16位或者32位。

注：位数越多，记录的值越准确，还原度越高，但是占用的硬盘空间越大。

音频采样位数
位数	最小值	最大值
8	-128	127
16	-32 768	32 767
32	-2 147 483 648	2 147 483 647

3.音频编码

因数字信号是由0和1组成的，所以需要将幅度值转换为一系列0和1进行存储，也就是编码，最后得到的数据就是数字信号，即一连串0和1组成的数据。

音频编码是指要在计算机内播放或者处理音频文件，也就是要对声音文件进行数、模转换，这个过程同样由采样和量化构成，人耳所能听到的声音，最低频率是20Hz，最高频率是20kHz。

由于20kHz以上的声音人耳听不见，所以音频文件格式的最大带宽是20kHz，采样速率需要介于40Hz~50kHz，而且对每个样本需要更多的量化位数。

音频数字化的标准是每个样本16位—96dB的信噪比，采用线性脉冲编码调制（PCM），每个量化步长都具有相等的长度。在音频文件的制作中，采用的正式这个标准。

1、取样。对连续信号按一定的时间间隔取样。奈奎斯特取样定理认为，只要取样频率大于等于信号中所包含的最高频率的两倍，则可以根据其取样完全恢复出原始信号，这相当于当信号是最高频率时，每一周期至少要采取两个点。但这只是理论上的定理，在实际操作中，人们用混叠波形，从而使取得的信号更接近原始信号。

2、量化。取样的离散音频要转化为计算机能够表示的数据范围，这个过程称为量化。量化的等级取决于量化精度，也就是用多少位二进制数来表示一个音频数据。一般有8位，12位或16位。量化精度越高，声音的保真度越高。

3、编码。对音频信号取样并量化成二进制，但实际上就是对音频信号进行编码，但用不同的取样频率和不同的量化位数记录声音，在单位时间中，所需存贮空间是不一样的。波形声音的主要参数包括：取样频率、量化位数、声道数、压缩编码方案和数码率等。未压缩前，波形声音的码率计算公式为：波形声音的码率 = 取样频率 × 量化位数 × 声道数 / 8。波形声音的码率一般比较大，所以必需对转换后的数据进行压缩。

4. 声道数

声道数是指所支持的能发不同声音的音响的个数，常见的声道数如下。

单声道：1个声道
双声道：2个声道
立体声道：默认两个声道。
立体声道（4声道）：4个声道。

5. 码率

码率指一个数据流中每秒能通过的信号量，单位为b/s，8b(位)等于1Byte(比特)。可以用以下公式进行计算：

码率=采样率*采样位数*声道数

6. 音频格式

常见的音频格式有CD、WAVE、MP3、MIDI、AAC、WMA、AC-3等。

音视频基础概念（2）——音频相关推荐

音视频基础概念(5)——音频基础说明
现实生活中,音频(Audio)主要用在两大场景中,包括语音(Voice)和音乐(Music).语音主要用于沟通,如打电话等.目前由于语音识别技术的发展,人机语音交互也是语音的一个应用方向,很多大厂推出 ...
《音视频开发进阶指南》读书笔记（一） —— 音视频基础概念
前言最近要学音视频,在图书馆借到这本<音视频开发进阶指南>,读了一段时间觉得挺好就在某宝买了. 以后一段时间应该都会沉浸在研究音视频中,开个专题记录哈每一章的读书笔记吧(以iOS开发的角 ...
音视频基础概念(6)——视频基础
网上冲浪时,我们会接触到网络流媒体和本地视频文件.常见的视频文件格式有MP4.MKV.AVI等.在流媒体网站上看见视频常用的协议有HTTP.RTSP.RTMP.HLS等.视频技术较为复杂,包括视频封装 ...
音视频基础概念（1）——视频
目录 1.1 动画书 1.2 视频 1.3 视频帧 1.4 帧率 1.5 色彩空间 RGB与YUV YUV优势 RGB与YUV的换算日常生活中,音视频随处可见,包括视频.音频.编解码.封装容器.音视 ...
【音频播放】自制音频播放器—音视频基础概念，未完待续。。。
近期用Electron制作了一个简易版客户端,未完待补充,重点在播放,引用凯教,先说几点.(图片禁止搬运,不得允许不准转载) 研究音频的数字化技术之前,必须对声音和图像的的物理性质有基本的了解. 如下 ...
音视频篇 - 音视频基础概念
本文章是阅读<音视频开发进阶指南基于android与ios平台的实践>一书的学习笔记. 目录: 什么是声音声波的三要素数字音频音频编码图像的物理现象 YUV 视频编码视频编码的相 ...
音视频开发一：音视频基础概念
文章目录基础概念音频声音介绍种类音质声音存储的发展采样频率信号频率声道声道布局音帧帧时长采样数采样位数存储空间码流(比特率) 采样格式音频编码(音频压缩) 音频解码 ...
音视频基础概念（3）——音视频编码与音视频容器
这里的编码与第二章节音频中提到的"数字化编码"不是同一个概念,是特指压缩编码. 计算机中,所有数据都是由0和1组成的,音频和视频数据也不例外.由于音视频的数据量庞大,如果按照裸流数 ...
何为音视频流媒体，音视频基础概念（建议收藏）
一.音频 1.采样率是指在每个声道上的采样速率,而不是所有声道的采样速率例如:16000Hz 表示1s中在连续信号中采集16000次,每一次叫做一个采样点 2.采样位宽(位数) 例如:16bit ...

音视频基础概念（2）——音频