10月31日-11月1日,LiveVideoStackCon2020音视频技术大会在北京隆重举办。本次大会以“多媒体开启新视界”为主题,聚焦在音频、视频、图像等技术的最新探索与应用实践,覆盖教育、娱乐、医疗、安防、旅游、电商、社交、游戏、智能设备等行业领域,数十位业内知名讲师与来自全国各地的音视频工程师、多媒体工程师、图像算法工程师、运维与物联网工程师等分享了技术创新与最佳实践。

本次大会中,人工智能相关话题十分火爆,AI已经渗透到多媒体技术的各个环节,无论内容生产、编解码、音视频前后处理等,AI都有一席之地,甚至被寄予厚望。网易云信资深音频算法工程师郝一亚博士受邀参会,在“音频技术:逼近人耳极限”专题会场进行了题为《RTC中AI音频算法的产品化》的主题演讲,并在“5G、AI,新技术与新变革”圆桌论坛中分享了AI在音视频领域应用的实践经验。

主题分享中,郝一亚博士首先介绍了AI在音频处理中日渐强大的力量。随着AI在计算机视觉等领域的成功应用,CNN、RNN等深度学习网络被迅速应用到了音频领域,AI在音频降噪、场景分类、回声控制、盲源分离等方向着发挥着越来越重要的作用。

虽然AI在音频领域的价值日渐明显,但在目前的算法中,特别是RTC音频中,还没有被大范围的应用起来。针对音频处理中AI的挑战与局限,郝一亚博士概括为三点。一是计算复杂度。AI模型通常需要巨大的计算量,就目前我们大部分终端设备的计算能力来说压力很大,对RTC中的实时性提出了考验。二是泛化能力。AI算法是基于有限的数据集训练出来的,泛化能力有限一直是问题所在。而RTC中覆盖的业务场景非常多,AI算法要覆盖所有场景更是难上加难。三是鲁棒性。RTC丰富的应用场景中会有很多突发情况,对于AI算法鲁棒性的要求也非常高。

由于算力、数据和AI模型本身的限制,现在AI还达不到替换传统信号处理方法的阶段,但音频AI在效果上的优势已经被证实。郝一亚博士提出,在RTC领域,要想更好地发挥出AI的优势,有效规避不足,进行“模块化”处理是一个有效的途径。把端到端、长链路的处理拆分,分别找到合适的AI模块,让专业的“人”做专业的事。

以音频降噪中的AI算法为例,传统降噪算法中包含了很多模块,其中“噪声估计”模块很适合做深度学习训练,特别是针对一些稳态噪声。在这里,不用端到端地去训练整个AI模型,而是把这一模块训练成单独的噪声估计模型。通过模块化的处理,实现了轻量级模型、简单的训练目标以及更适合DNN模型,从而最大程度的发挥了AI的优势。

郝一亚博士认为,未来越来越多的AI技术将融入到RTC中,一些新的爆发点可能是更先进的神经网络模型,更高效的GPU等,但是,有一项关键点不会变,那就是大量的数据。目前,网易云信已配备了全套工具和环境采集多种来源的数据集用于训练AI算法,已经在音频降噪和视频超分等场景中实践应用。

2015年10月至今,网易云信一直专注于即时通讯和音视频技术领域的前沿探索和应用实践,已帮助100万企业开发者成功发送10000亿条消息,日活突破3亿,在百家争鸣的PaaS市场中实现稳中增长。近期,网易云信再度加码技术能力,全面升级的音视频通话2.0产品上线,AI等新兴技术已融入产品开始服务客户。未来,网易云信将坚持不断创新,探索融合通讯领域的新技术、新产品、新应用,与行业共创美好新时代。

网易云信亮相LiveVideoStackCon2020,分享RTC中AI音频算法产品化经验相关推荐

  1. 网易云信亮相LiveVideoStackCon 2019,分享BBR在实时音视频领域的应用

    8月23日,LiveVideoStackCon音视频技术大会在北京隆重举办.本届会议以"多媒体技术赋能新世界"为主题,聚焦音频.视频.图像.AI等技术的最新探索与应用实践.大会汇集 ...

  2. 网易云信亮相 GIAC 全球互联网架构大会,解密新一代音视频架构在元宇宙场景的实践...

    7 月 22 日,2022 GIAC 全球互联网架构大会在深圳隆重召开.GIAC 是中国地区规模最大的技术会议之一,专门面向架构师.技术负责人及高端技术从业人员等人群. 作为互联网技术的年度盛会,大会 ...

  3. 网易云信亮相 LiveVideoStackCon 2021,解构自研大规模传输网 WE-CAN

    近日,LiveVideoStackCon 2021 音视频技术大会北京站隆重召开.作为多媒体行业的技术盛会,众多行业专家齐聚在此,新技术.新产品.新趋势与新思想在这里碰撞交汇,不断催生出创新突破的新灵 ...

  4. 网易云信亮相LiveVideoStackCon 2019,解读移动端播放器优化实践

    4月19日, LiveVideoStackCon音视频技术大会在上海隆重举办.本届会议以"多媒体技术赋能新世界"为主题,汇集资深的音视频技术工程师,聚焦音频.视频.图像.AI等技术 ...

  5. 加速元宇宙技术落地,网易云信亮相 MetaCon 元宇宙技术大会 2022

    4 月 23 日,MetaCon 元宇宙技术大会 2022 隆重召开.作为业界首个重点围绕元宇宙技术展开的大会活动,MetaCon 吸引了来自行业内众多知名科研学者.头部科技公司技术大咖.独角兽型创业 ...

  6. 网易云信亮相LiveVideoStackCon2022,解构基于WebRTC的开源低延时播放器实践

    8 月 5 日- 6 日,LiveVideoStackCon 2022 音视频技术大会上海站隆重召开,作为音视频领域颇具影响力的技术大会,此次大会吸引了众多行业专家,融汇新概念.新技术.新趋势和新思想 ...

  7. 网易云信亮相WOT, 打造“IM+连麦互动直播”云服务

    8月26日,World Of Tech2016移动互联网技术大会在北京拉开序幕,包括Google.百度.网易.滴滴在内的众多国内外知名互联网公司纷纷亮相.WOT移动互联网技术大会专注于互联网IT技术领 ...

  8. 浅谈语音质量保障:如何测试 RTC 中的音频质量?

    简介:日常音视频开会中我们或多或少会遭遇这些场景:"喂喂喂,可以听到我说话吗?我听你的声音断断续续的","咦,我怎么可以听到回声?","太吵啦,我听不 ...

  9. 如何将RTC中基于AI的音频算法有效的产品化

    正文字数:4854  阅读时长:7分钟 将AI算法任务模块化是一种解决AI音频处理算法应用效果不够好.通用/扩展性差.计算开销大等问题的有效方法.网易云信 资深音频算法工程师 郝一亚在LiveVide ...

最新文章

  1. 实战:基于OpenCV的人眼检测
  2. 4个开源在线调查工具
  3. dwa的区别 teb_teb_local_planner安装及使用
  4. java多张图片合成一张_OLIS 多张图片合成分享
  5. Windows添加在此处打开命令CMD
  6. 大佬(概率期望DP)
  7. 解读Batch Normalization
  8. SpatiaLite空间索引(一)
  9. volume image
  10. hive元数据库表分析及操作
  11. 树型DataGrid的思路
  12. 二、三角高程测量计算(C#语言)
  13. 专访马化腾:首次开谈个人经历、管理心得、技术创新、微信的诞生等
  14. 时间序列(ARIMA)模型
  15. “35岁,我退休了”:关于中年危机,这是最靠谱的回答
  16. 物联网安全与安全分析
  17. linux移植街机模拟器,gngeo 游戏模拟器(街机)移植CE3100
  18. SAP中重复制造生产计划编制——机器工时计算
  19. 美团招聘CV算法专家/AutoML专家
  20. 中国剩余定理扩展中国剩余定理

热门文章

  1. Groovy/Spock 测试导论
  2. jsdk php,jsdk.php · webeautiful/dashpianku - Gitee.com
  3. mysql性能测试工具msyqlslap_mysqlslap工具测试mysql DB的性能
  4. 都在抢论文第一作者,如何处理?
  5. Lidar SLAM | 地面三维激光雷达测试报告
  6. 问题 | FileNotFoundError: [Errno 2] No such file or directory: 'null'
  7. windows10自动填充密码开机自动登陆
  8. linux下的普通文件的属性,linux下文件目录和属性
  9. ajax如何将数据写入文本框,ajax 从数据库读到文本框
  10. julia(6)-循环与猜数字