走进音视频的世界——杜比音效之AC3与AC4

杜比音效是由杜比实验室开发的，涉及多声道音频压缩技术。这种数字压缩技术目标是生成数字音频信号，当解码重现时，声音与原始信号相同。同时使用最低码率进行压缩，提供真实的立体环绕声。因此，杜比音效广泛应用于电影院、家庭影音、DVD、蓝光光盘。杜比音效系列主要包括：Dolby AC3、Dolby AC3 Plus、Dolby AC4和Dolby TrueHD。杜比实验室发布的环绕声系统历史演进如下表所示：

解码器	编码器	年	描述	频道
杜比立体声	杜比MP矩阵	1975年	电影院采用光学技术。使用杜比A降低噪音。杜比立体声处理器将4：2编码为35mm胶片，并将2：4解码回4.0。	带C和MonoSurround矩阵的FL FR
杜比环绕声	/	1982年	杜比立体声的消费者变体。原始解码器利用带有延迟和幻像中心的简单无源LR电路进行3通道解码。	FL FR和MonoSurround矩阵
杜比立体声SR	杜比MP矩阵	1986年	杜比立体声（Dolby SR）减少了杜比SR降噪，以增强保真度和动态范围。	带C和MonoSurround矩阵的FL FR
杜比定向逻辑（Dolby Pro Logic）	/	1987年	杜比立体声和杜比环绕声的参考有源矩阵2：4解码器（Cat No. 150）。准确解码Lt / Rt以恢复LCRS 4.0环绕声。	带C和MonoSurround矩阵的FL FR
杜比数码	AC-3	1992年电影	离散通道编码器/解码器。Pro Logic解码器可用于缩混立体声输入。	FL FR C SL SR SUB
杜比数字环绕EX	AC-3	1999年	通过5.1中Ls / Rs通道的矩阵编码进行6.1或7.1环绕声。向后兼容标准5.1数字。	FL FR C SL SR（具有矩阵式RearMono）SUB [非离散7.1：BackLeft和BackRight]
杜比定向逻辑II（Dolby Pro Logic II）	不适用	2000	将非编码立体声上混到Surround 5.1。也可用于解码5.1播放的杜比环绕声。消费者解码器通常包括特定的电影，音乐或游戏模式。	FL FR C SL SR SUB
杜比定向逻辑IIx（Dolby Pro Logic IIx）	不适用	2002年	扩展至PLII。将立体声，杜比环绕声，杜比数字5.1增强到6.1或7.1。将杜比数字EX解码为6.1或7.1。在消费产品中保留电影，音乐或游戏模式。	FL FR C SL SR SUB左后和右后
杜比数字+（Dolby Digital Plus）	增强型AC-3	2005年	有损压缩编解码器；48 kHz采样频率，20位字长；支持32 kbit / s – 6 Mbit / s的数据速率，可扩展，包括高清光盘上的768 kbit / s – 1.5 Mbit / s（通常），以及广播和在线的256 kbit / s。当前媒体应用程序的1.0到7.1通道支持；可扩展至16个通道；离散的。通过高达640 kbit / s的S / PDIF连接与杜比数字技术向后兼容。支持杜比元数据。	FL FR C SL SR SUB左后和右后
杜比TrueHD	MLP	2005年	无损压缩编解码器；支持高达4位字长的44.1 kHz至192 kHz采样频率；支持高达18 Mbit / s的可变数据速率。比Dolby Digital Plus更高的比特率。蓝光光盘通道最多支持八个通道的96 kHz / 24位音频；最高192 kHz / 24位的六个通道（5.1）; 2至6通道支持最高192 kHz / 24位最大比特率，最高18 Mbit / s。	/
杜比定向逻辑IIz（Dolby Pro Logic IIz）	不适用	2009年	扩展到PLIIx。加上前置高度通道，可将立体声，杜比环绕声或离散5.1 / 6.1 / 7.1解码为7.1高度或完整9.1。	L，C，R，Ls，Rs，Lrs（左后），Rrs（右后），LFE，Lvh和Rvh

一、Dolby AC3

1、什么是AC3

AC3(Audio Code number 3)，支持从单声道到5.1声道。它提供5个全带宽声道(3Hz~20000Hz)，又称为3/2配置，3个前置声道(左、中、右)，外加2个环绕声道。除此之外，还有第六个重低音声道(3Hz~120Hz)，也称为"低音增强声道"(LFE)。因此，我们习惯把它称为5.1声道，其声道分布如下图所示：

2、AC3编码原理

像MP3、AAC一样，AC3利用声音的掩蔽特性，使用改进的离散余弦变换(MDCT)进行压缩。输入的PCM采样数据必须是32kHz、44.1kHz或者48kHz，而且是20bits。

AC3编码如上图所示包括采样、量化、编码，具体分为以下6个步骤：

1) 将音频的表示从PCM时间样本序列(时域)转换为频率系数块序列(频域)，属于有损压缩。把512个时间样本重叠块乘以时间窗口，并且变换为频域。由于块重叠，每个PCM输入样本用两个连续块表示。然后频域除以2，使得每个块包含256个频率系数。

2) 这组指数被编码成信号频谱，称为频谱包络。

3) 核心位分配例程使用该频谱包络，该例程决定使用多少位编码每个尾数。

4) 尾数根据位分配信息来量化。

5) 将6个音频块(1536个音频样本)的频谱包络和量化尾数转换为AC3帧。

6) AC3比特流(从32到640kbps)是AC3帧的序列。

3、AC3帧结构

AC3帧包含：同步字、循环冗余校验、采样率、框码、比特流识别、比特流模式、编码方式、中心混合水平、环绕声混合水平、环绕模式等字段，如下表所示：

字段	位数	描述
同步字	16	0x0B77，数据传输采用大端
循环冗余校验	16
采样频率	2	'11'=保留'10'= 32 kHz'01'= 44.1'00'= 48
框码	6
比特流识别	5
比特流模式	3	'000'=主音频服务
音频编码方式	3	'010'=左右声道排序
中心混合水平	2
环绕声混合水平	2
杜比环绕声模式	2	'00'=未表示'01'=未环绕编码'10'=是，环绕编码

4、AC3解码过程

AC3解码过程是编码的逆过程，如下图所示：

解码流程如下图所示：

二、Dolby AC3 Plus

AC3 Plus又称为E-AC3，在AC3基础上进行改进增强。支持更大范围的码率(32kb/s~6144kb/s)，支持更多声道。杜比数字（AC-3）支持多达五个全带宽音频声道的最大比特率为640 kbit / s，E-AC-3支持多达15个全带宽音频通道，最大比特率为6.144Mb/s。

1、技术参数

E-AC3技术参数如下：

编码比特率：0.032至6.144 Mbit / s
音频声道：1.0到15.1（即从单声道到15个全音域通道和一个低频声道）
每个位流的音频节目数：8
采样率：32、44.1或48 kHz
三、Dolby AC4

2、结构

E-AC3由一个或多个子流组成，子流有三种类型：

独立的子流，可包含多达5.1个频道的单个节目。杜比数字+（Dolby Digital Plus）流中最多可以存在八个从属子流。独立子流中的声道仅限于传统的5.1声道：左（L），右（R），中（C），左环绕（Ls）和右环绕（Rs）声道，以及低频效果（Lfe）声道。
传统子流包含单个5.1程序，直接对应于杜比数字内容。DD +流中最多只能有一个旧式子流。
从属子流，其中包含传统5.1通道以外的其他声道。由于从属子流具有与独立子流相同的结构，因此每个从属子流最多可包含五个全带宽信道和一个低频信道；但是，这些声道可以分配给不同的扬声器位置。子流中的元数据描述了每个包含的声道的用途。

3、语法

E-AC3是16位对齐的协议，其音频流是固定长度同步帧数据包的集合，每个数据包都对应于256、512、768或1536个连续的时域音频样本。（1536个样本的情况是最常见的情况，对应于杜比数字（Dolby Digital）；较短的子帧长度旨在用于交互式应用（如视频游戏），其中减少编码器延迟是一个重要问题。每个同步帧都是可独立解码的，并且属于服务内的特定子流。同步帧由以下语法元素组成：

一个16位同步字，其值为0x0b77。
比特流信息（BSI）部分，其中包括关键元数据，例如帧大小，比特流标识符（指定使用的语法的版本），通道模式，子流标识符，编码的对话级别（dialnorm）以及用于指导的元数据解码器产生缩混。
音频帧部分，包含同步帧中所有音频块共有的解码信息，包括确定如何打包指数和尾数的必要信息。
一，二，三或六个音频块部分。这些部分包含其他解码元数据，以及编码和量化的频率系数。每个音频块对应于每个通道中的256个PCM样本。
最后一部分包含用户定义的辅助数据，产生统一同步帧长度的任何必要填充以及用于错误检测的16位循环冗余校验码。

三、Dolby AC4

AC4可以包含音频声道和音频对象，已经被DVB(数字电视广播)采用，并被ETSI标准化。AC4最多可具有5.1个核心音频声道，所有杜比AC4都需要对这些音频声道进行解码。其他音频声道可以被编码为辅助信号，解码器可以选择支持这些附加信号，从而变成7.1声道。其中低比特率使用高级联合信号信道编码(A-JCC)，高比特率使用高级耦合(A-CPL)。A-JCC不支持辅助信号，并且仅限于5.1声道音频，而A-CPL支持辅助信号。与E-AC3相比，AC4的比特率降低了50%。

四、Dolby TrueHD

与AC3、E-AC3、AC4不同的是，Dolby TrueHD是无损压缩，主要用于蓝光光盘。杜比TrueHD提供多达16个离散音频声道，每个声道的采样率高达192kHz，采样深度高达24位。TrueHD携带元数据用来修改其对音频数据解析的非音频信息，可以包括音频规范化或动态范围压缩。

五、Dolby Atmos

Dolby Atmos杜比全景声，通过增加高度声道扩展现有的环绕声系统，从而可以将声音解析为三维对象。杜比全景声允许将多达128个声道分配给影院，以便根据影院的功能扬声器提供最佳的动态渲染。它可以在传统的5.1和7.1布局上构建。对于杜比全景声，其命名稍有不同：7.1.4杜比全景声，带有四个头顶式或启用杜比全景声的扬声器。

参考链接：

Dolby Digital: https://en.wikipedia.org/wiki/Dolby_Digital

Dolby DIgital Plus: https://en.wikipedia.org/wiki/Dolby_Digital_Plus

Dolby AC-4: https://en.wikipedia.org/wiki/Dolby_AC-4

Dolby TrueHD: https://en.wikipedia.org/wiki/Dolby_TrueHD

AC3协议：http://www.atsc.org/wp-content/uploads/2015/03/A52-201212-17.pdf

可以到GitHub一起学习音视频：https://github.com/xufuji456/FFmpegAndroid