在线会议中,回声带来的全员焦虑感,相信大家并不陌生。戴耳机、静音、重启等慌乱中的应急方法,有时不仅不能解决问题,还可能会带来用户体验和办公效率的降低,而真正能够从根源解决回声干扰问题的方法是提升回声消除技术的鲁棒性、稳定性和效果。而这,也是快手音视频技术的同学们一直在攻坚的方向。

一、快手回声消除技术斩获单项世界冠军

为促进回声消除技术的发展与研究,全球音频技术的顶级会议Interspeech 2021组织了AEC Challenge(Acoustic Echo Cancellation Challenge)比赛,自第一届以来就吸引了包括亚马逊、阿里巴巴、字节跳动、中科院等诸多国内外知名企业和科研院所的参与。快手作为参赛者中的一匹黑马,取得了傲人的战绩。

官方发布的比赛结果:

快手战绩:

比赛开源了两个大型数据集用来训练单讲和双讲场景下的AEC模型,数据包含超过5000条真实音频设备的录音和真实环境中的人声。

该项比赛使用了两种语音质量评价指标:

  • 平均意见分 Mean Opinion Scores(MOS):近段单讲(ST NE)采用MOS主观打分形式,分数定义如下图,评委们根据自己的主观感受进行打分后取平均值作为总分;

  • 失真平均意见分 Degradation Mean Opinion Scores(DMOS):ST NE以外的项目均采用DMOS主观打分方式,评委们以原始音频作为参照进行对比,为参赛音频进行打分。

 二、回声形成原理

在实时音视频通信中,回声产生的本质是扬声器播放的声音被麦克风再次收录,如果通话双方同时开着麦克风,A的声音从B的扬声器播放并被B的麦克风收录,再传回A并从扬声器播出,就会产生回声。

三、传统回声消除技术

当对方的声音和自己的回声混在一起,如果把回声信号从混合的声音中分离出并消除掉就可以解决困扰,但这就像把红色墨水倒进蓝色墨水,再要求把红墨水从蓝墨水中完全分离出来,是一件非常具有挑战性的事情。

常用的传统回声消除技术的主要原理是预估本地扬声器到本地麦克风的包括了反射路径的声学传输函数。简单来说,就是预测大致的回声信号和它的传播路径,用混合的声音信号减去预测到的回声信号就得到了消除部分回声的信号。AEC回声消除技术包括了两个步骤:

step1. 线性自适应滤波:用估计的近似回声路径去逼近真实的回声路径,从而得到大致回声信号。在纯净语音和回声的混合信号中除去此信号,就会去除部分回声信号;

step2. 非线性处理:线性AEC的处理只有在高质量音箱且混响不大的环境中才有效果,所以需要依赖非线性进一步抑制残留回声。

下图粗略地描述了常用回声消除系统的技术框图。其中,DE是延时估计模块;NLMS是自适应滤波器估计算法;background filter和foreground filter是为了更加稳定地估计滤波器系数而存在的设计;RES是残留回声抑制模块。

传统AEC虽然可以达到回声消除的目的,但是在许多声学环境复杂的情况下还是存在较大弊端。例如,非线性处理,仅在处理单讲(只有一端讲话)回声时有效,但是在双讲(近端和远端同时说话)场景中,依然容易对近端语音造成比较大的抑制。

四、快手Deep AEC技术原理 

快手新技术融合传统AEC和深度回声消除技术,针对传统AEC的漏洞做出了改进,让新技术在双讲环境中也可以精准消除回声。

为了弥补传统AEC非线性处理在双讲场景中抑制近端语音信号的缺陷,快手Deep AEC通过海量数据对模型进行训练,再加上让模型在各种场景中打磨和考验,最终学习到了非线性失真的特性。所以,相较于传统非线性处理技术,Deep AEC具备了在任何声学场景中都可以深度挖掘到可能问题且可以快速将其修复的能力。这样即便在双讲段,也能很好地消除回声且不会进一步抑制近端语音。

在对比其他基于深度学习的回声消除算法时,快手的新算法中包含了两个主要的创新点

  • 采用交织型网络(CrossNet),同时估计语音和干扰,并且相互共享信息,能够显著提升消除回声的能力;

  • 对于神经网络的损失函数,结合当前常用loss,研发出系列提升网络性能的创新。

除了Deep AEC深度算法本身,另一个决定回声是否可以被消除的重要因素就是通讯场景中非常常见的噪声以及大混响。为了进一步解决问题,快手针对这两方面同步进行了增强处理,使音频质量得到了进一步优化。

在训练数据上,快手除了使用大量真实数据(包括1000小时左右的纯净语音,100多小时的各类噪声,5000个设备的真实回声数据),还做了大规模的数据增强处理以模拟各种实际情况中遇到的幅度突变,以及采集播放设备频响、丢包等复杂场景。整个信号处理的流程,都在频域进行,保证了总体延时控制在比赛所要求的40ms以内。而对于一些客观指标,比如ERLE(Echo Return Loss Enhancement),单讲情况下能够达到56dB左右;PESQ (Perceptual Evaluation of Speech Quality),在多种信噪比情况下平均能提升0.8左右。

这些创新点以及完善的系统设计,使得快手在AEC Challenge比赛上,获得了优异成绩。

五、回声消除的未来

音视频已经逐渐成为空气和水一样无处不在的基础设施,快手本着对用户体验的极致追求,在音视频领域技术上精雕细琢。Deep AEC过去在快手业务中发挥了巨大价值,未来,这项技术也将持续迭代和优化,保持行业领先,在继续支撑快手业务的同时,赋能更多场景和业务。

黑马冠军快手在国际回声消除大赛中战绩颇丰相关推荐

  1. 回声消除的昨天、今天和明天

    导读:回声消除是音频通话中最为复杂的模块,对于音频通话质量起到至关重要的作用.一直以来,网易云信致力于提供良好的回声消除性能,为用户提供优异的音频通话质量.本篇文章中网易智企音视频开发专家将和大家共同 ...

  2. 波束形成、回声消除、声源定位及端到端等语音信号处理算法

    现今信息技术飞速发展,语音技术源源不断地融入到各个领域,语音信号处理是人机接口的关键技术,已广泛应用于直播.在线通话.智能音箱等产品中. (落地应用) 随着语音产品广泛落地应用,语音行业飞速发展,各大 ...

  3. echo回声不能用了_回声消除的昨天、今天和明天

    导读:回声消除是音频通话中最为复杂的模块,对于音频通话质量起到至关重要的作用.一直以来,网易云信致力于提供良好的回声消除性能,为用户提供优异的音频通话质量.本篇文章中网易智企音视频开发专家将和大家共同 ...

  4. 风口上的政府大数据 需要消除“大误区”

    据中国政府网消息,国务院今日公开发布<国务院关于印发促进大数据发展行动纲要的通知>.<纲要>提出,未来几年将逐步实现国家政府数据统一开放平台,到2020年,我国将形成一批具有国 ...

  5. 解密回声消除技术之一(理论篇)

    http://hulong988.blog.51cto.com 解密回声消除技术之一(理论篇) 2009-06-11 22:24:58 标签:语音 职场 休闲 通讯 原创作品,允许转载,转载时请务必以 ...

  6. 技术干货 | 为高音质保驾护航 - 通信中的回声消除

    导读:语音通信,在当代生活已经成为了大家主要的沟通交流方式,而通话语音的质量也是衡量每个厂商系统好坏的标志之一.这次给大家分享网易云信是如何通过回声消除算法保证通话语音质量的. 文|胡林艳 网易云信音 ...

  7. [投稿]Speex回声消除代码分析

    本文是音频处理的朋友icoolmedia(QQ:314138065)的投稿.对音频处理有兴趣的朋友可以通过下面的方式与他交流: 作者:icoolmedia  QQ:314138065  音视频算法讨论 ...

  8. 详解低延时高音质:回声消除与降噪篇

    在实时音频互动场景中,除了我们上一篇讲到的编解码会影响音质与体验,在端上,降噪.回声消除.自动增益模块同样起着重要作用.在本篇内容中我们将主要围绕回声消除和降噪模块,讲讲实时互动场景下的技术挑战,以及 ...

  9. 解密回声消除技术--转

    一.回声消除原理 从通讯回音产生的原因看,可以分为声学回音(Acoustic Echo)和线路回音(Line Echo),相应的回声消除技术就叫声学回声消除(Acoustic Echo Cancell ...

最新文章

  1. java 多线程 原子操作_线程安全之原子操作
  2. JVM优化之调整大内存分页(LargePage)
  3. spark 算子使用类变量_自己工作中超全spark性能优化总结
  4. matlab 设计 18db,基于混沌理论的微弱MPSK信号解调方案设计
  5. mysql行级锁作用_Mysql事务及行级锁的理解
  6. 读《程序员的SQL金典》[2]--函数
  7. 17 SD配置-企业结构-分配-分配允许的信用控制范围给公司码
  8. python网络爬虫学习笔记(五):urllib.parse库
  9. Microsoft Dynamics CRM 2015 之安装SQL Server 2012过程中出现“启用windows功能NetFx3时出错...
  10. 学了python做什么自由职业者_我又有一位程序员朋友成了自由职业者
  11. 太极root权限_太极iOS 8.4完美越狱曝安全隐患:Root权限易获取
  12. CDR都特价了,你还用破解版?
  13. 8600 系列 VSM 用于磁性微型机器人以及韦根线研究
  14. 服务器更新维护公告语,6月1日阴阳师服务器更新维护内容公告
  15. 天猫精灵对接智能设备
  16. 基于ipfs和eth的视频分享应用开发经历(一)
  17. 微信小程序-预览图片识别二维码
  18. 服务器受到勒索病毒威胁我们要怎么处理?
  19. win10怎么在桌面添加计算机,win10怎么添加我的电脑(计算机)快捷方式到桌面
  20. MATLAB打印99乘法表

热门文章

  1. python变量命名规则_Python教程第9篇:牢记Python变量命名5大规则
  2. 163 邮件 服务器 ssl,为什么用163的smtp服务时要关闭TLS才能发送邮件?
  3. python3字典升序排序_python3从零学习-4.2、内置数据类型
  4. cmd运行python脚本处理其他文件_如何在cmd命令行里运行python脚本
  5. css 下边框 90%,css怎么设置下边框
  6. jquery指定节点设css,jquery 获取和设置节点属性 css样式
  7. linux目录形式,linux 系统下 ngnix 显示目录形式
  8. php 非侵入式,Tideways和xhgui打造PHP非侵入式监控平台
  9. php 中文截断,PHP中实现中文字串截取无乱码的解决方法
  10. 能用计算机解决的问题十个,计算机常见问题及解决方法,计算机十项常见故障...