2018年10月19日,LiveVideoStackCon音视频技术大会在北京召开。本届会议以“技术开启新‘视’界”为主题,汇集资深的音视频技术工程师,探讨在音频、视频、图像等技术的实践与思考。网易云信资深音频算法工程师李备在教育专场中的主题演讲上,分享了软件层实时音频解决方案中,网易云信NRTC针对WebRTC 源生算法不足的优化,以及在音乐内容特殊场景下的新思考。

火爆的市场衍生更丰富的音视频应用场景

互联网产品对实时音视频技术的需求正在各个千亿、百亿规模的市场中爆发,并逐渐成为基础设施型的重要技术。李备认为,随着未来更多可玩性的开发被挖掘,音视频的应用仍有很大增长空间。此外,实时音视频技术助推了互联网产品的创新和进化,赋予了产品以更丰富、更高效的场景表达,也促进了实时音视频技术自身的进化。

实时音视频技术需要与行业和应用场景紧密结合。当前及未来,客户的核心诉求除了对稳定高效等技术性能的要求之外,个性化的需求也在增加。李备介绍,网易云信基于自研的全功能工业级的音视频技术框架NRTC,进行了诸多场景化和针对性的技术优化,形成了对实时音频应用的观察与思考。

网易云信NRTC优化算法,弥补WebRTC源生算法的局限

李备强调,尽管当前针对一般行业的软件层实时音频框架已经日益成熟,但仍然有两个较明显的痛点需要解决:一是在复杂变化的网络状况中,因为信号弱或者网路拥塞而造成的延时或丢包现象;二是随着终端种类和应用场景跨度的增加,不同类型终端设备和使用环境的巨大差异对整体解决方案的适配度提出了更高的要求。一般行业基于交流的目的,在对于实时音频的诸多需求中,首先看重框架的流畅性,低延时、音量足够大的同时没有明显的回声、噪声和杂音。在满足以上需求之外,最后才会去关注音质、双讲体验以及其他性能。

那么一个解决以上痛点稳定运转的音频框架该如何设计?以WEBRTC的音频框架图为例:

WebRTC的线程模型与数据驱动方式,不同颜色表示不同线程,蓝色箭头表现数据驱动方式

但每个模块为了保障实时音频的稳定都有很多方面的问题需要注意,例如采集回声非线性、音量大小,以及delay中系统内在延迟的大小与变化等,都是平台下音频采集和播放的常见问题。

由于音频前处理的挑战及WebRTC 源生算法的一些不足等原因,需要技术人员进一步优化以提升整个框架的技术表现,确保终端用户的产品体验。网易云信的全功能工业级的音视频技术框架NRTC针对这些不足做了一系列的优化。比如,采集回声的非线性是目前线上采集面临的普遍问题,其稳定性会直接影响回声的消除和处理效果。WebRTC在这方面的不足使得一些厂商为了服务回声消除,不得不以降低音量为代价。针对源生WebRTC Delay Estimation 的稳定性问题,网易云信的NRTC将远端和近段的delay进行了对齐优化,提升了整体框架消除回声、杂音和降噪方面的性能。

再譬如,对于用户在沟通中产生的气声的采集和处理,也是音频框架面临的普遍难点之一。因为气声发音能量低,回声大,而且能量集中在中高频,所以正常算法无法满足处理需求。以源生WebRTC AEC 和NRTC 在iPhone6P气音发音下的表现进行对比,经NRTC框架进行算法优化后的效果明显更优。

网易云信针对音乐场景下实时音频解决方案如何取舍的新思考

除了一般性沟通场景下的音视频应用,音乐内容及其应用场景对技术有更为特殊的要求。李备介绍,与普通场景相比,音乐内容场景对声音的要求存在较大差异。譬如,人耳对于音乐的感知是更加敏感的,稍有音质的下降人耳就能察觉,这对于声音处理提出了更高的要求。而相对于以交流为目的一般场景,音乐内容对实时音频技术要求的优先级也有所不同:稳定和音质成为第一诉求,降噪和低延迟降级为次要需求。

由于音乐内容场景的上述特殊性,一般的实时音频框架在音乐内容场景下便会呈现某些局限性。比如,适用于一般场景的音频框架的低采样率、非全频段处理、对近端声音和对双讲的粗糙处理、码率设置较低、简单的Audio QoS都不足以支撑音乐内容的特殊场景。再如,在采用更高码率的情况下,如果还沿用一般的策略,便会造成比较严重的拥塞或丢包。那么,面对这些新的需求、痛点和局限性,在资源有限的情况下如何取舍,李备分享了网易云信的四点新思考:

  • AGC(auto gain control) 在音乐内容下新需求——因为音乐场景下有情感投入的特殊需求,比如在情感舒缓的时候音量较低,在情感猛烈时音量较高。因此,如果在AGC算法中对能量进行相近处理,对于音乐内容的传输是非常大的伤害;
  • Howling Control 在音乐场景下的危害——在对音乐demo处理时,如果对某个频段的回声做过分的消除处理,会对人的听觉感受造成很大影响;
  • NS(Noise Suppression)在音乐内容下的痛处——有些音乐场景乐器众多,NS处理会对某些声音造成一定的损伤。为了追求对原声的极致体验,有些工程师干脆关闭NS模块,宁愿忍受噪声,也不愿损失音乐效果。李备介绍,网易云信深知这一技术问题给产品和用户造成的困扰,在实践中不断优化自己的NS算法,力争给到客户更好的技术服务;
  • TSM(Time Scale Modification)在音乐场景下的影响——如果将用于一般场景的TSM算法直接照搬到音乐内容场景下,会导致音乐内容在传输时节拍的变化,所以需要做出专门适配音乐场景的TSM算法。

“在垂直领域愈发丰富的今天,针对不同的场景,对策略进行调整,是每个底层技术提供商应该思考的问题,也是网易云信一直努力的方向。”李备总结道。让技术匹配客户,让服务更加细致,既是整个行业生态追求的结果,也是推动行业生态进步的动力。

另外,想要获取更多产品干货、技术干货,记得关注网易云信博客。

网易云信实时音频框架背后:算法优化带来产品体验全面提升相关推荐

  1. 网易云信AI音频最新研究成果获世界顶级学术会议 ICASSP 2022 认可

    近日,全球顶级音频技术会议 ICASSP 2022 公布了论文入选名单.网易云信音频实验室论文--<一种针对实时通信的基于神经网络的啸叫检测方法>(A Neural Network-bas ...

  2. 网易云信直播sdk的整体传输优化

    现有市场上的主流直播在传输方面,大部分使用TCP传输,也有部分使用UDP传输(类似上行使用rtc,然后在源站或者媒体服务器转换为rtmp协议再进行推流).通常来说,udp效率更高一些,但由于自身无连接 ...

  3. 网易云信的音频共享技术 | 体验共享专题

    导读:随着现代社会生活方式变化,社交娱乐的方式也在逐渐改变.传统面对面的社交娱乐活动正在逐步变革,越来越多的交互行为逐渐转移到网络上.RTC 技术的进步也推动了网络娱乐形式的变化,单方向信息传递方式如 ...

  4. 网易云信亮相LiveVideoStackCon2020,分享RTC中AI音频算法产品化经验

    10月31日-11月1日,LiveVideoStackCon2020音视频技术大会在北京隆重举办.本次大会以"多媒体开启新视界"为主题,聚焦在音频.视频.图像等技术的最新探索与应用 ...

  5. 保障IM推送、优化移动网络 网易云信解决移动IM稳定难题

    引用内容"IM本身是一个比较复杂和庞大的系统,在客户端开发时,也就会涉及到很多繁杂的业务需求.当绝大多数IM平台商都在朝向功能化的一站化大潮流迈进时,唯有云信不忘静下心来沉淀内功.云信针对移 ...

  6. 网易云信 QUIC 应用优化实践

    导读:网易云信作为音视频服务提供商的领导者,一直致力于提供顶级的音视频通话服务体验,为用户在各种恶劣环境下提供可靠的音视频服务.如何在极端弱网条件下仍然能给用户提供可靠的音视频服务,是网易云信关注的重 ...

  7. 网易云信深度优化解决移动聊天室“痼疾”

    本文源于云信移动技术专家项望烽在开源中国源创会2016年终盛典的题为<聊天室场景下的移动网络优化>分享. (网易云信移动端技术 项望烽) 突破传统群组思维和架构,实现无人数上限的聊天室 步 ...

  8. 教育场景下的实时音频解决方案

    本文来自网易云信 资深音频算法工程师 李备在LiveVideoStackCon 2018讲师热身分享,并由LiveVideoStack整理而成.在分享中李备详细分析了在线教育的音频需求,以及一般软件音 ...

  9. 网易云信 7 周年丨服务超过 150 万开发者,消息量突破 20000 亿条

    ● 数学家的眼中,7 年能够换算成 2555 天或是 220752000 秒. ● 经济学领域认为,7 年是通常意义上的一个经济周期. ● 生物学家看来,每个 7 年,人体的全身细胞就会完成一次彻底的 ...

最新文章

  1. 7.3 rpm工具用法
  2. 一个典型的后台软件系统的设计复盘——(二)如何id一个事物
  3. 35-面试:如何找出字符串的字典序全排列的第N种
  4. codeforces 703B
  5. Java-消息框显示两整数加减乘除
  6. 神经网络与深度学习——TensorFlow2.0实战(笔记)(四)(python列表与元组)
  7. Mac底下java和jre路径
  8. 101个微软提供的Visual Studio 2005示例
  9. C#接口编程实例解析[转]
  10. 2016最新微信公众号运营必备网址大全
  11. Android app分享文件到微信
  12. 滴滴天使投资人的25条创业建议
  13. impress.js css模板,使用impress.js制作幻灯片
  14. 计算机无法添加无线网络,Win7电脑无法连接无线网络的原因和处理方法
  15. AM5728高性能SOC,满足工业协议支持、大数据计算、实时控制等需求,适用于图像处理、电力协议管理
  16. elementUI 表格宽度自适应、不换行
  17. 【机器学习】EM算法
  18. 骨传导耳机品牌排行榜前十名,目前最好的几款骨传导耳机推荐
  19. Django模型系统(一)
  20. uni-app:使用uni.downloadFile下载文件并保存到手机

热门文章

  1. Android ListViewview入门
  2. 博客美化20150418
  3. linux源码阅读笔记 fork函数
  4. 如何在ashx页面获取Session值
  5. 蛋白提取纯化的方法、注意事项及常见问题解答
  6. laydate组件 无法传值_Vue组件通信的几种方式
  7. SLAM学习--视觉slam学习教材推荐(附相关技术文档下载链接)
  8. HFSS安装提示failed to check out license during initialization,怎么解决?
  9. 北斗导航 | RAIM奇偶矢量法理论分析(公式推导:原理图)
  10. send()/recv()和write()/read():发送数据和接收数据