简介:日常音视频开会中我们或多或少会遭遇这些场景:“喂喂喂,可以听到我说话吗?我听你的声音断断续续的”,“咦,我怎么可以听到回声?”,“太吵啦,我听不清楚你在说啥” 等等。这些语音质量问题影响音视频开会体验,如若是重要的会议,那足够让人 “恼羞成怒”。那么如何有效的减少这些问题发生呢?本系列文章就将为大家分享阿里云视频云在保障 RTC 语音质量方面的测试经验。

作者|柯淮
审校|泰一

背景介绍

音频质量是指正常网络下的听觉质量音频 3A 算法质量。听觉质量,是在无损网络情况下人耳对语音优劣的主观感受。但在实际生活中,不同人对同一声音可能会有不同的优劣判断,另外还会受到收听环境和收听心理影响。在测试时,我们可以从声音三要素:响度、音高、音色纬度出发,对一些指标进行量化评估。另外业内标准还会将这些量化指标通过一定的加权处理以期望拟合主观感受,比如 POLQA、PESQ 等。

音频 3A 算法是指:

AGC: Automatic gain control(自动增益控制)

ANS: Adaptive noise suppression(噪声抑制)

AEC: Acoustic echo cancellation(回声消除)

这部分内容公众号中已有较多文章较详细介绍原理及实现,这里不再赘述。

往期文章

详解 WebRTC 高音质低延时的背后 — AGC(自动增益控制)

硬货专栏 |深入浅出 WebRTC AEC(声学回声消除)

本系列文章将从音频质量、适配测试、Qos 质量、自动化方案四个维度去介绍阿里云视频云如何保障 RTC 语音质量,本文先介绍音频质量部分(正常网络下的听觉质量和音频 3A 算法质量)。

RTC 语音测试链路拆解

在正式测试前,我们先了解 RTC 语音传输的整个链路框架图,声音通过麦克风采集,而后上行音频算法进行前处理,编解码传输后通过扬声器播放出来。若想测试上行音频算法可在(1)处输入声音,而后在(2)处拉取输出音频进行分析。系统测试时,我们往往从端到端角度评估,即从(1)处输入声音而后在(4)拉取声音进行分析,本文后续测试方法均基于端到端。

音频质量测试方案

阿里云视频云采用业内常用的客观指标+主观评价相结合的方法来保障音频质量,具体指标请参考下图:

客观测试方法

有效频宽

Line in 输入扫频文件 +48K 采样率的人声音频(音频素材参考如下),Line out 录制输出音频,通过频率分析读取有效频宽;

端到端延迟

方法一:使用 VQT 测试,测试结果中输出延迟时间。

方法二:自研。Line in 测试素材,Line out 录制未经过传输及输出音频,计算音频延迟时间。

  • 测试素材:一段连续的单音。
  • 指标计算:录制文件中读取未经过传输的音频起始时间记为 t1,读取经过会议传输的音频起始时间记为 t2,则 Delay=t2-t1。

ANS

考察 ANS 算法在纯噪声和语噪混合场景下的表现,分析指标包含:降噪一致性、信噪比提升、收敛时间、消噪后人声音质。

测试拓扑

通过音量 Line in 或者外放输入背景素材及语音素材,在拉流端 Line out 录制输出音频进行指标分析。

测试素材

指标计算
  1. 信噪比提升:求取经过消噪后音频的信噪比为 A,则信噪比提升值 =A- 输入信噪比。
  2. 降噪一致性:计算各种噪声输入后噪声的残留值,并统计各种噪声下噪声残留是否一致。
  3. 收敛时间:记录噪声能量开始下降的时间为 t1,记录噪声已收敛至平稳的初始时间 t2,收敛时间 =t2-t1。
  4. 音质:改造 VQT POLQA 测试脚本,计算不同信噪比输入下输出音频 MOS 分。下表展示输入信噪比为 10dB 带噪人声,输出音频音质 MOS 分:

AGC

考察AGC算法在不同音量下表现,分析指标包括:声音平稳性、输出响度。

测试拓扑

参考 ANS 测试拓扑图,通过音量 Line in 或者外放输入语音素材,在拉流端 Line out 录制输出音频进行指标分析。

测试素材

指标计算
  1. 声音平稳性:计算输出音频各音量段的平均 RMS,而后求解这个输出音频的平均 RMS 的方差。如下是平均 RMS 的计算公式:

  1. 输出响度:Line out 方式计算输出音频的平均 RMS;外放方式使用标准声压计,以 A 计权方式记录响度值。
  2. 音质:改造 VQT POLQA 测试脚本,计算不同音量输入下输出音频 MOS 分。下表展示大中小音量输入下,输出音频音质 MOS 分:

AEC

考察 AEC 算法单讲和双讲场景下是否存在漏回声、人声抑制等问题。

测试拓扑

【单讲】

推流端播放单讲语音素材,拉流端默认配置放在空旷会议室中。Line out 录制推流端的输出,判断拉流端是否存在漏回声。

【双讲】

同时向推流端和拉流端播放双讲测试素材,Line out 录制推流端的输出,判断拉流端是否存在漏回声和人声抑制。

同时向推流端和拉流端播放双讲测试素材,Line out 录制推流端的输出,判断拉流端是否存在漏回声和人声抑制。

测试素材

指标计算
  1. 漏回声:读取录制音频文件的人声残留量,理论上该处值为 0- 没有漏回声。
  2. 人声抑制:双讲场景下评估此指标。利用 3gpp TS 26.132 标准评价剪切情况,最终评价以 D 类(连续剪切大于 150ms)为标准,值越接近于 0 质量越好。
  3. 收敛时间:测试开始时间记为 t1,AEC 收敛完成无漏回声出现时间记为 t2,收敛时间 =t2-t1。
  4. 人声音质:双讲场景下评估此指标。改造 VQT POLQA 测试脚本,计算双讲场景下人声的音质得分。

STOI

短时客观可懂度,当前学术上比较精确,可靠的客观评估方法来计算语音可懂度,客观测试结果可以一定程度上反映语音可懂性和自然性。存在局限性:需降采样到 16K 进行计算。

  • 测试拓扑:参考 ANS 测试拓扑。
  • 测试素材:ITU-P863 提供标准人声素材。
  • 指标计算:如下框架图展示了 STOI 计算流程,当前业内已有 matlab 和 python 对该算法的工程实现。

POLQA

ITU-T P.863 提供测试方法,可得到 MOS 分和音频延迟。支持 8K、16K、48K 测试,局限性是设备贵。

  • 测试拓扑:参考 ANS 测试拓扑。
  • 测试素材:ITU-P863 提供标准人声素材 &VQT 内置语音测试素材。
  • 指标计算:POLQA MOS 分。

PESQ

ITU-T P.862 提供测试方法,可得到 MOS 分,局限性是仅可支持 8K 和 16K。

  • 测试拓扑:参考 ANS 测试拓扑。
  • 测试方法:测试素材:ITU-P863 提供标准人声素材。
  • 指标计算:PESQ MOS 分

主观测试方法

采用 “YD/T 2309 音频质量主观测试方法(ITU-R BS.1284)” 中提及的评分规则和维度,在不同场景下为专家和普通用户进行打分测试。

评分方法

评价维度

测试场景

测试素材采用“惠威试音碟”和“TUT-acoustic-scenes-2017-development”。

本文为 RTC 音频测试系列的第一篇,后续我们将从适配测试、Qos 质量、自动化方案的维度去介绍阿里云视频云如何保障 RTC 语音质量,欢迎关注公众号「视频云技术」。


「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

原文链接:https://developer.aliyun.com/article/792346?

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

浅谈语音质量保障:如何测试 RTC 中的音频质量?相关推荐

  1. 对计算机辅助英语的看法,浅谈利用计算机辅助英语语言测试

    摘要:随着计算机技术不断深入发展,给我们的生活和学习带来了翻天覆地的变化,越来越多的学校利用计算机辅助各学科进行教学,对计算机教学设施的配备与老师掌握计算机技术方法的要求越来越高.尤其是利用计算机进行 ...

  2. [原创] 浅谈ETL系统架构如何测试?

    [原创] 浅谈ETL系统架构如何测试? 来新公司已入职3个月时间,由于公司所处于互联网基金行业,基金天然固有特点,基金业务复杂,基金数据信息众多,基金经理众多等,所以大家可想一下,基民要想赚钱真不容易 ...

  3. [原创]浅谈移动互联网App兼容性测试

    [原创]浅谈移动互联网App兼容性测试 今天要谈的话题,估计各位测试都有感受,移动互联网App兼容性测试,我们到底测试覆盖如何去挑选机型?具体移动App兼容性测试如何开展?是不是应引进像testin这 ...

  4. 浅谈信息技术在石油行业数字化转型中的运用

    2021年5月12-14日,中国石油石化企业信息技术交流大会暨油气产业数字化转型高峰论坛"将在北京举行,国内各油气企业.国际油气行业专家将齐聚于此,共同研讨5G.人工智能.大数据.区块链.数 ...

  5. 小学语文教学计算机的作用,浅谈多媒体信息技术在小学语文教学中的作用

    浅谈多媒体信息技术在小学语文教学中的作用 时间: 2013-10-29 栏目: 浅谈多媒体信息技术在小学语文教学中的作用 浅谈多媒体信息技术在小学语文教学中的作用 贵州省平塘县油岜小学 冷华超 [摘 ...

  6. 浅谈智能问答系统发展及在高校中需求现状

    在科技新时代的发展中,智能信息化一直是研究的热点,家里用的扫地机器人,强劲有效清除尘土:阿里巴巴2017年推出的AI智能产品-天猫精灵,能实现智能家居控制.查天气.语音购物.手机充值.百科查询.音乐播 ...

  7. 计算机与音乐结合论文,计算机毕业论文:浅谈计算机音乐技术在音乐教学中的应用...

    计算机毕业论文:浅谈计算机音乐技术在音乐教学中的应用 计算机音乐技术是计算机技术与音乐理论结合在一起而形成的一门新的学科,进入了21世纪,随着计算机技术应用的领域越来越广泛,已经深入到了社会的各个方面 ...

  8. 计算机在医院审计的应用,浅谈计算机审计在医院审计业务中的应用.doc

    浅谈计算机审计在医院审计业务中的应用 [摘 要]随着计算机在各行业的广泛应用,审计工作也由最初的对财务账目的手工审计向计算机辅助的软件审计进行转变.这种以计算机软硬件为载体,对被审计单位的财务收支.经 ...

  9. vb怎么样实时取mysql数据库数据_浅谈如何使用vb.net从数据库中提取数据

    1.设置从Model中的Sub Main 启动 2.程序结构 3.Model1 Imports System.Windows.Forms.Application Module Module1 Sub ...

最新文章

  1. 小朋友嘴里的“金钥匙”,良品小食仙、小鹿蓝蓝们要如何拿到?
  2. 深入讲解JSP 2.0下的动态内容缓存技术
  3. vue13过滤器 debounce延迟、limitBy、filterBy、orderBy
  4. [css] CSS3有哪些新增的特性?
  5. Red and Black (找到一个标记一个)
  6. Zookeeper基本概念
  7. C++模版 (一) ----- 函数模版
  8. GridView 合并列、行类
  9. c语言爱心代码简单,利用c语言实现简单心形的代码分享
  10. 域名IP段批量生成器源码
  11. qt与duilib对比
  12. C语言实现原码一位乘法
  13. python股票预测模型_一种基于Python和BP神经网络的股票预测方法
  14. android跑马灯效果横向,Android 通过自定义View实现纵向跑马灯效果
  15. git pull之后出现REBASE(1/1)
  16. 大话西游2同一个账号同一个服务器,大话西游2:服务器合并你是否支持?老玩家告诉你合服后的影响!...
  17. USB1.0 2.0区别
  18. 【知识总结】扩展卢卡斯定理(exLucas)
  19. 大数据Hadoop之——Spark SQL+Spark Streaming
  20. no such column

热门文章

  1. 从centos7默认安装的/home中转移至根目录/ (LVM操作简明教程)
  2. 【实战篇】| 模拟 20 万数据快速查询 IP 归属地
  3. java加载并运行虚拟机_《深入理解Java虚拟机》- Java虚拟机是如何加载Java类的?...
  4. 二叉树的层次遍历_【腾讯面试热身题】二叉树层次遍历(动画展示)
  5. gis根据范围批量分开图斑_基于BIM-GIS技术的公路预防性养护研究
  6. 21-爬虫之scrapy框架selenium的使用08
  7. echarts树状图点击展开子节点_CPU眼里的结构设备树节点及属性详解
  8. syslog源码_Gunicorn源码分析01--目录结构
  9. CodeForces 1213F (强联通分量分解+拓扑排序)
  10. 【share】PHP站点用Squid再次疯狂加速你的WEB