AMR-NB 与 AMR-WB 语音编码标准技术的对比研究

2013年07月15日 15:58:49 随心飘散 阅读数:6712更多

个人分类: 音视频编码

自适应多速率窄带语音编码 AMR-NB(Adaptive Multi Rate-Narrow Band Speech Codec)算法是由第三代伙伴计划(3rdGeneration Partnership Project,简称 3GPP)于 1999 年 8 月制订的基于码激励线性预测(Code Excited Linear Prediction,CELP)算法的语音压缩编码器标准[1],主要用于第三代移动通信 W-CDMA 系统中。AMR-NB 支持八种速率模式,分别为:模式0(4.75kbit/s)、模式1(5.15kbit/s)、模式2 (5.90kbit/s)、模式3(6.70kbit/s)、模式 4(7.40kbit/s)、模式 5(7.95kbit/s)、模式 6(10.2kbit/s)、模式 7(12.2kbit/s),其以更加智能的方式解决信源和信道编码的速率分配问题,根据无线信道和传输状况来自适应地选择一种编码模式进行传输,使得无线资源的配置与利用更加灵活有效。

在 2000 年 12 月,3GPP 选择自适应多速率宽带语音编码 AMR-WB[2] (Adaptive Multi-RateWideband Speech Codec)算法作为第三代移动通信系统使用的语音编解码算法。AMR-WB 音频带宽在 50Hz-7000Hz,相对于 200Hz-3400Hz 为宽带,支持九种速率模式,分别为:模式0(6.60kbit/s)、模式 1(8.85kbit/s)、模式 2 (12.65kbit/s)、模式 3(14.25kbit/s)、模式 4(15.85kbit/s)、模式5(18.25kbit/s)、模式 6(19.85kbit/s)、模式 7(23.05kbit/s)和模式 8(23.85kbit/s)[3]。在 AMR-WB 中,采用的是代数码激励线性预测编码(Algebraic Code ExcitedLinear Prediction,简称 ACELP),其已被 3GPP 选定为 GSM 和 3G 无线 W-CDMA 的宽带编码器,并将应用于 IP 电话、第三代移动通信、ISDN 宽带电话、ISDN 可视电话和电视会议等领域,这标志着无线和有线业务第一次采用同样的编码器。

2.线性预测分析的比较2.1 帧长及 LP 次数的比较

AMR-NB 和 AMR-WB 编码帧长都是 20ms,子帧长度都是 5ms,输入都是 16 bit PCM 量化的语音信号,两种标准的线谱对(LineSpectrum Pairs, LSP)参数所表征的信息基本上一致。AMR-NB 编码输入为 8 kHz 采样频率,线性预测(Linear Prediction,简称 LP)阶数为 10,AMR-WB 的编码输入为 16kHz 采样频率,LP 阶数为 16。AMR-WB 编码器每帧进行1 次 LP 分析。AMR-NB 编码器在12.2 Kb/s 模式下每帧进行 2 次 LP 分析,即每 10 ms 进行1 次LP 分析;在其他7 种速率模式下每帧进行1 次LPC 分析,即每20 ms进行1 次LP 分析。

线性预测分析就是用线性预测器对语音信号作短时分析,在 AMR-WB 中采用了 16 阶线性预测,与窄带 AMR-NB 算法中的 10 阶线性预测模型相比,可以更好的反应宽带语音信号高频部分的共振峰信息。图 1 和图 2 分别是 16 阶线性预测模型和 10 阶线性预测模型用于宽带语音信号的谱估计包络,从图上可以看到 10 阶线性预测分析只能得到 3000Hz 以下的共振峰信息,高频部分的共振信息丢失了,而 16 阶线性预测分析则可以获得高频部分的共振峰信息。

图 1 16 阶线性预测模型用于宽带语音信号的谱估计包络
Figure1 Spectral Envelope Estimate of WidebandSpeech Using 16th-Order Autocorrelation Method

2.2 加窗的比较

图 2 10 阶线性预测模型用于宽带语音信号的谱估计包络
Figure2 Spectral Envelope Estimate of WidebandSpeech Using 10th-Order Autocorrelation Method

在 AMR-WB 中每个语音帧都要进行一次线性预测分析,分析采用自相关的方法和 30ms的不对称窗。在 LP 分析中有一个 5ms 的提前,对应于一个 5ms 的额外算法延迟。LP 分析窗中包含过去帧的 64 个样点,当前帧的 256 个样点和下一帧的 64 个样点。

第 n 帧(4×5 ms)图 3 加窗帧结构示意图

Figure3 The Diagram of Windowed Frame Structure

在 LP 分析中,AMR-WB 使用的是不对称窗函数,它由两部分组成:第一部分是一个半哈明窗,第二部分是四分之一周期的哈明-余弦函数,该窗的表达式是:

窗函数

窗函数

⎧ 0.54−0.46cos⎛ 2πn ⎞,

n=0,...,L −11

⎪ ⎜2L −1⎟w(n)=⎪ ⎝1 ⎠

(1)

⎨ ⎛ 2π (n − L ) ⎞

⎪cos 1 ,
⎪⎜4L−1⎟ 112⎩⎝2⎠

其中 L1=256,L2=128。

n=L,..,L +L −1

AMR-NB 的 LP 加窗分为 2 种情况:
(1)在 12.2 Kb/s 模式下,分别采用不对称窗函数 wI (n) 和 wII (n) 。其中 wI (n) 窗函

数是

n=L(I),..,L(I) +L(I) −11 1 2

L(I) =160,L (I) =80.而w (n)和AMR-WB相同,其中L(II) =232,L (II) =8.12II 12

⎧ 0.54−0.46cos⎛ πn ⎞, n=0,...,L(I) −1⎪ ⎜2L(I) −1⎟ 1

w(n)=⎪ ⎝1 ⎠ (2)

I

⎨ ⎛ π (n − L ( I ) ) ⎞⎪0.54+0.46cos 1 ,

⎜ 4L(I) −1 ⎟⎩⎝2⎠

(2)在除了 12.2 Kb/s 之外的其他 7 种模式下,由于此时 AMR-NB 也与 AMR-WB 一LL

样采用 5ms 额外延迟,AMR-NB 的 LP 分析窗与 AMR-WB 完全相同,其中 1 =200, 2 =40。3.高频带增益

对于 AMR-WB 而言,为了计算 23.85kb/s 模式的高通增益,输入语音要通过 6400-7000Hz的带通滤波器得到高频带信号,高通增益gHB 通过下面的式子得到:

63 63
gHB = (s (i))2 (s (i))2 (3)

∑i=0

∑i=0

HB2

HB
这里sHB (i)是带通滤波的输入信号,sHB2 (i)是高频合成信号。而相比较下 AMR-NB 没

有高频带增益,AMR-WB 使摩擦音更易于区分,从而增加了可懂度和清晰度。4.语音质量性能测试比较

从 TIMIT 标准英语语音数据库中选取 40 句标准语句(20 句男声,20 句女声),用 ITU-T提供的 AMR-NB 和 AMR-WB 官方代码分别对选取的标准语音进行编解码仿真,对两种算法包含的所有编码模式的语音质量都进行了 PESQ 测试,测试结果如表 1 和表 2 所示。实验时所用男声和女声均选自 TIMIT 数据库,客观评价标准采用 ITU–T P.862.2 制定的wideband--Perceptual Evaluation of Speech Quality ( w-PESQ ) [4]。

表 1 AMR-WB 平均 w-PESQ 值
Tab.1 the average value of w-PES of AMR-WB

表 2 AMR-NB 平均 w-PESQ 值
Tab.2 the average value of w-PES of AMR-NB

AMR-WB

码率(kb/s)类别

23.85

23.05

19.85

18.25

15.85

14.25

12.65

8.85

6.60

均值

男声 PESQ 值

4.28

4.28

4.26

4.25

4.21

4.18

4.16

3.91

3.78

4.146

女声 PESQ 值

4.17

4.17

4.14

4.12

4.09

4.06

4.04

3.80

3.58

4.019

平均 PESQ 值

4.225

4.225

4.2

4.185

4.15

4.12

4.1

3.855

3.68

4.082

AMR-NB

码率(kb/s)类别

12.2

10.2

7.95

7.40

6.70

5.90

5.15

4.75

均值

男声 PESQ 值

3.26

3.30

3.39

3.48

3.46

3.56

3.57

3.58

3.45

女声 PESQ 值

3.03

3.02

3.16

3.16

3.24

3.24

3.26

3.22

3.16

平均 PESQ 值

3.15

3.16

3.28

3.32

3.35

3.40

3.42

3.40

3.31

表 3 AMR-NB 和 AMR-WB 的计算复杂度比较表(单位:加权百万次操作每秒)Table 3 computational complexity comparison table of AMR-NB and AMR-WB (unit:WMOPS)

类别 AMR-NB AMR-WB语音编码 14.2 31.1语音解码 2.6 7.8

从表 1 和表 2 中可以看出,AMR-NB 和 AMR-WB 的合成语音质量随着码率升高而增加,AMR-NB 的合成语音质量比 AMR-WB 的要差。从表 3 中可以看出,AMR-NB 在计算法复杂度等方面都高于 AMR-WB。

从表 1 中可以看出,男声 12.65kbit/s 以上模式的 MOS 分值都超过了 4.0,女生 12.65kbit/s以上模式的 MOS 分值近似为 4.0,可见 12.65kbit/s 及其以上的模式都可以提供高质量的宽带语音。8.85 和 6.60kbit/s 两种模式,MOS 分值也都在 3.4 以上,虽然话音质量稍差,也基本上达到了通信质量标准。AMR-WB 编码算法由于存在多种速率模式和对宽带语音信号处理的要求,算法较为复杂,但编码性能良好,已经达到了设计要求,是一种高品质的语音编码算法。

原始语音

原始语音

0 1000 2000 3000 4000 5000

4.75kb/s码率下合成语音

0 1000 2000 3000 4000 5000

6.70kb/s码率下合成语音

0 1000 2000 3000 4000 5000

12.2kb/s码率下合成语音

0 1000 2000 3000 4000 5000

0.02

0.0200-0.02

-0.020

0.020-0.02

00.02

0

-0.020

0.020-0.02

0

1000 2000 3000 4000 5000 6000 7000

6.60kb/s码率下合成语音

1000 2000 3000 4000 5000 6000 7000

8.85kb/s码率下合成语音

1000 2000 3000 4000 5000 6000 7000

12.65kb/s码率下合成语音

1000 2000 3000 4000 5000 6000 7000

0.020-0.02

0.020-0.02

0.020-0.02

6000 7000

6000 7000

6000 7000

6000 7000

图4 宽带原始语音和在6.60kb/s,8.85kb/s,12.65kb/s 速率下 AMR-WB 解码后的合成语音Figure 4 broadband original voice and the synthesizedspeeches of AMR-WB decoding under 6.60kb/s,8.85kb/s,12.65kb/s rates

图 5 窄带原始语音和在 4.75kb/s,6.70kb/s,12.2kb/s速率下 AMR-NB 解码后的合成语音
Figure 4 narrow original voice and the synthesizedspeeches of AMR-NB decoding under 4.75kb/s,6.70kb/s,12.2kb/s rates

对 AMR-WB 解码后各模式的合成语音进行主观听觉测试,与宽带原始语音文件进行对比发现,6.6kbit/s 模式的解码合成语音失真较为明显,8.85kbit/s 模式的解码合成语音在听觉上有少许失真。12.65kbit/s 以上的模式在听觉上已经难以分辨与原始语音的区别,而且听觉感受性和自然度都比较好。相比较之下,对于 AMR-NB 而言,在与窄带原始语音对比发现,所有模式的失真都比较明显,但是可以听懂。

4.结论

AMR-NB 广泛应用于移动通信领域,代表了 CELP 算法的较高水平,通过自适应地调整编码速率和信道模式,提供了不同无线传输环境下不同容错率的编码器,从而使得通信系统中语音质量和系统容量的折衷更加平衡,同时也满足了系统可能提出的特殊要求,提高了系统的鲁棒性,使得无线资源的利用更加高效。与AMR-NB 相比较,AMR-WB运用ACELP在主观评价上可以获得较高质量的合成语音。与窄带电话语音相比,低频增加的 50Hz-200Hz

使话音更自然、更舒适、更有现场感,高频增加的 3400Hz-7000Hz 使摩擦音更易于区分,从而增加了可懂度和清晰度,这是第一次有一种编解码标准同时被选作有线和无线通用的标准在未来一定会有广泛应用。

AMR-NB 与 AMR-WB 语音编码标准技术的对比研究相关推荐

  1. VoLTE语音编码标准,NV控制

    1. VoLTE语音编码标准 VoLTE使用两种语音编码标准:AMR(或AMR-NB).AMR-WB.每种编码标准又都包含多种码率,中移的测试用例中包含不同编码方式及不同码率之 间的对比测试,终端侧可 ...

  2. 急!急!急!VMWare vSphere 6.X 标准技术支持快要结束了!!!(20221015)

    vmware 生命周期网站显示 6.5和6.7 将在10月15日结束标准技术支持! 什么是标准技术支持? 有条件的尽快升级吧!

  3. vue.js用benz-amr-recorder实现播放amr格式音频 AMR 录音机

    vue.js实现播放amr格式 benz-amr-recorder - npm 安装 npm i benz-amr-recorder --save 引用 import BenzAMRRecorder ...

  4. 附下载|华为《Wi-Fi 6 时代的校园无线网络建网标准技术白皮书》

    学校无线终端数量的不断增加,师生对随时随地接入网络的需求提升.像会议室.报告厅等高密场景下,师生接入困难或者接入后网速很差,而这时Wi-Fi 6的使用能让师生"随时随地"的接入Wi ...

  5. 【Codecs系列】H.266/VVC视频编码标准 技术系列汇总

    DATE: 2020.9.30 文章目录 1.H.266/VCC标准专栏 2.H.266/VCC视频编码标准 技术汇总 1.H.266/VCC标准专栏       视音频技术之H.266/VVC 2. ...

  6. 标准信息公共服务:某市标准技术研究院数据治理项目

    某市标准技术研究院是XX市唯一专业从事标准化科研.服务和应用的准公益类科研事业单位.该院以行业标准建设及对外提供信息与技术服务为主要业务,数据既是其业务的输入(生产要素),也是产出(提供的产品和服务) ...

  7. 新能源关键技术预见的研究

    来源:微信公众号科学家,原载于<今日科苑>2020年第11期 作者:刘进萍.卢世刚 1. 引言 新能源是指采用新技术和新材料正在开发利用的新型能源,既包括风能.太阳能.生物质能等可再生能源 ...

  8. 计算机网络在实践教学,高职计算机网络技术实践教学研究

    高职计算机网络技术实践教学研究 本文关键词:教学研究,高职,实践,计算机网络技术 高职计算机网络技术实践教学研究 本文简介:摘要:文章以就业质量导向为依托,对高职院校信息类专业学生的毕业综合实践课程教 ...

  9. 【Java】基于TA-Lib技术分析指标研究

    [Java]SFC融媒体项目基于TA-Lib技术分析指标研究 [Java]SFC融媒体项目基于TA-Lib技术分析指标研究 0. 前言 1. TA-Lib介绍 2. TA-Lib数据准备 2.1 指标 ...

最新文章

  1. 谷歌发文回顾2018年AI进展:让AI人人可用!
  2. python函数能否增强代码可读性_python——初识函数
  3. linux 查找大文件
  4. [云炬商业计划书阅读分享]袜子广告策划方案
  5. Tableau2019版本安装步骤
  6. 移植RTT使用cubeMx配置后出现 cannot open source input file stm32f1xx_hal_exti.h: No such file or directory
  7. 有钱人是怎么挣钱的?
  8. with ...as ...
  9. 学习Python比较好的书籍推荐
  10. linux stm32 虚拟串口驱动安装,stm32的usb虚拟串口驱动win7系统64位和32位不能正常安装的解决办法!stm32 virtual comport win7(终极解决办法)...
  11. 前端下载图片(文件)以及打包下载图片(文件)
  12. 好看的头像太多了,全部拿住!
  13. 计算机网络自顶向下-套接字编程作业
  14. 判断浏览器版本是否ie8,ie9,ie10,ie11并提示升级
  15. Rust Web 全栈开发 - 1 构建TCP Server
  16. STM32+ESP8266+MQTT微信小程序SoftAP一键配网接入腾讯物联网平台
  17. android x86还是arm,Android x86是否模拟ARM?(Does Android x86 emulate ARM?)
  18. java 学习 汇总
  19. IP地址(简单模拟)
  20. 程序人生:必须了解的程序员 8个职业发展方向

热门文章

  1. Codeforces Round #411 (Div. 1)(A~D)题解
  2. Unity Shader - 实现类似镜面反射、水面扰动效果
  3. Windows10更新失败-错误代码0x800f0922
  4. 图片处理(一)之BMP格式24bit转16bit
  5. 计算机网络自顶向下 应用层 习题
  6. Unity动画生成工具
  7. Figma插件:Bitmap Tool
  8. leetcode-Dijkstra算法
  9. 2008-05-12 日志:佛祖诞生,惊天动地
  10. 慕课 简书项目 个人笔记