AI在实时音视频互动中应用的 n 种姿势

在场景需求的推动下，以及背后算法、算力、数据的支撑下，AI 已经慢慢走出实验室，开始拥抱产业，这其中也包括 RTC 行业。在实时的视频、实时音频、实时传输、视频内容检索与推荐、实时交互等层面，都已经出现了与 AI 结合的落地应用。

从实时的视频来讲，超分辨率就是最典型的应用之一。在深度学习的帮助下，我们可以在视频接收端提高原有图像的分辨率，得到高分辨率的图像，这个过程就是超分辨率重建。我们以前也分享过一些知名的算法模型。

实时音频方面，我们可以看到很多 AI 的应用。例如带宽扩展，在我们通话的过程中，对方的声音听起来有些闷，这是因为语音信号中的高频区域被移除掉了。而基于DNN的频带扩展则可将高频区域恢复出来，就像下图这样。经过频带扩展后的信号增加了很多高频信息，实际的听感也会更加明亮、清晰。

除此之外，AI 在实时语音上的应用还包括语音增强、基于 RNN 的丢包恢复、语音音乐分类器等。AI的发展使得音频领域有了更多的可能性去解决之前难以处理的问题。对于实时音频而言，AI是一把全面提升质量的利刃，但实时音频所必须的低复杂度、低延时特性注定全面AI化引擎还有很长的路要走。

另外，除了实时音视频，AI 还可以用于改善实时传输质量，也可以用于视频内容的检索与推荐，或进行音视频内容审核。以上这些相关话题，你都可以在今年的 RTC 实时互联网大会上听到。

在 RTC 2019 实时互联网大会的「AI 与 RTC 技术专场」，来自声网Agora、Hulu、依图科技、南京大学的演讲人们将从分享 AI 在移动端实时视频超分辨率、音频优化、传输优化、视频内容推荐、音频内容审核等角度分享实践经验。细数下来，今年几十个演讲中，有近 1/3 的演讲都与深度学习、神经网络相关。

同时，在大会第一天上午的主会中，声网Agora 首席科学家钟声、搜狗公司AI交互事业部高级总监、语音技术部负责人陈伟，也将围绕 AI 与 RTC 深入分享更多技术实践与趋势。

大会门票限时免费截止到 9 月 30 日，扫码报名

部分演讲议题

Topic：Deep Learning based Super Resolution for mobile RTC

Speaker：周世付声网Agora AI 算法工程师

近几年，超分辨率技术一直是计算机视觉领域的一个热门话题，其应用前景广泛，比如RTC。然后，超分辨率技术在移动端落地的过程中，面临着模型过大、运算复杂、设备发热过大的问题。本次演讲内容将重点分享超分辨技术在移动端落地的探索和实践经验，内容包括对抗神经网络、模型剪枝压缩等。

Topic：基于内容的视频推荐和实践

Speaker：谢晓辉 Hulu 首席研发经理

视频网站面临的技术挑战之一是如何对视频做精准的用户分发，理解用户、环境和视频内容是解决问题的核心和关键。以头部视频为主的视频网站由于用户选择成本更高、消费行为稀疏、复杂而且感性，因此对视频进行精确、细致与丰富的理解和刻画显得更为重要。相比传统的基于用户行为的推荐系统，如何借助于视频内容理解来优化个性化推荐和内容发现呢？本次演讲内容将重点分享Hulu在这一方面的探索和实践经验，内容包括视频理解在内容冷启动、视频精细化标签和分组、深度推荐模型中的应用等等。

Topic：RTC x Audio x AI，现状和展望

Speaker：陈若非声网Agora 音频体验与工程总监

本次演讲会从一个相对宏观的角度来分析介绍人人和人机交互相关的音频技术分类，现状总结和对未来的展望。其中会重点展开RTC与音频，AI结合的部分，我们需要解决哪些问题，有什么挑战，AI能在哪些方面帮到我们，声网在这些方面的一些思考和进展，其中也包括了AI降噪，AI丢包隐藏，声音美化等音效的成果展示。

Topic：互联网语音内容审核中的关键AI技术

Speaker：胡泊依图科技高级架构师

相较于成熟的图片、视频审核，语音是行业公认的新难题。语音违规不仅风险更隐蔽、影响更恶劣，其对应的AI技术也存在更高的壁垒。难点一：高复杂度场景下的语音识别。语聊房、视频直播、短视频中的语音往往伴有极强背景音（如音乐、噪声等）、语速极快咬字不清、口音严重等情况，使得其识别难度数倍于传统场景。难点二：极低误报率要求下的违规内容过滤。上述场景中，违规内容出现的概率往往在万分之一甚至十万分之一，这就要求算法模型在不漏太多的情况下尽可能的减少误报（从而减少人工审核的工作量）。本次演讲，依图将结合自身经验，介绍如何有针对性的进行技术实现和方案设计，克服以上难点。

Topic：基于神经网络的自适应传输

Speaker：马展南京大学电子学院副教授、博士生导师

网络是动态变化的，如带宽波动和意想不到的延迟，伤害用户的体验质量（QoE），而且全球网络媒体服务都需要面对这个问题。在这次演讲中，我们提出了一个神经自适应传输（NAT）框架解决全球网络规模下互动媒体服务的网络问题。整个神经自适应传输（NAT）系统有三个主要组成部分：一个基于学习的云覆盖层路由（COR）方案，通过绕过网络拥塞并找到最低延时路径，提供最佳传输路径；一个基于协同视频处理（CVP）系统的残余神经网络在设备端来协调端上的计算能力，通过学习分辨率缩放来改进QoE;还有一个深度强化学习（DRL）的自适应实时流（ARS）策略，用来选择适当的视频比特率，以获得最大QoE。我们验证过COR可以提高用户满意度5％到43％，CVP可以减少相同质量下带宽消耗的30％以上，基于DRL的ARS可以保证流媒体流畅度，QoE也可改善50％以上。

以上只是一部分与 AI 相关的话题，可以在「阅读原文」找到更多干货演讲。

RTC 2019 门票限免至 9 月 30 日，赶快报名吧

AI在实时音视频互动中应用的 n 种姿势相关推荐

实时音视频聊天中超低延迟架构的思考与技术实践
1.前言从直播在线上抓娃娃,不断变化的是玩法的创新,始终不变的是对超低延迟的苛求.实时架构是超低延迟的基石,如何在信源编码.信道编码和实时传输整个链条来构建实时架构?在实时架构的基础之上,如果通过优 ...
离开 YY 三年，赵斌和他的声网是如何做实时音视频互动的？
"为什么通话质量不好?" 在从业生涯里,赵斌总会遇到别人问这样的问题,然后他只能告诉这只是由于网络或设备出了毛病. 但这样的问题问的多了,会让他感到很沮丧,因为如果是网络的问题,程 ...
TRTC助力高并发、高可用实时音视频互动场景落地（内含开发福利）
疫情之下,大家在工作生活中更多开始使用直播,视频会议.网络教学等场景需求被点燃,但与此同时不可避免会带来突发的大规模在线视频与协作需求与流量冲击,面临高并发.高可用.高性能的挑战. 面对疫情压力,腾讯 ...
实时音视频互动系列（上）：又拍云UTUN网络详解
如何定义实时音视频互动, 延迟 400ms 内才能无异步感实时音视频互动如果存在1秒左右的延时会给交流者带来异步感,必须将视频播放延迟限制在400ms以内,才能给用户较好的交互体验. 当延迟控制在4 ...
18个实时音视频开发中会用到开源项目
实时音视频的开发学习有很多可以参考的开源项目.一个实时音视频应用共包括几个环节:采集.编码.前后处理.传输.解码.缓冲.渲染等很多环节.每一个细分环节,还有更细分的技术模块.比如,前后处理环节有美颜. ...
实时音视频聊天中的延时问题一篇就够
1.前言音视频实时通讯的应用场景已经随处可见,从"吃鸡"的语音对讲.直播连麦.直播答题组队开黑,再到银行视频开户等.对于开发者来讲,除了关注如何能快速实现不同应用场景重点额音视频 ...
理解实时音视频聊天中的延时问题一篇就够
音视频实时通讯的应用场景已经随处可见,从"吃鸡"的语音对讲.直播连麦.直播答题组队开黑,再到银行视频开户等.对于开发者来讲,除了关注如何能快速实现不同应用场景重点额音视频通讯,另一 ...
实时音视频聊天中的延时问题一篇就够，低延时场景及优化
1.前言音视频实时通讯的应用场景已经随处可见,从"吃鸡"的语音对讲.直播连麦.直播答题组队开黑,再到银行视频开户等.对于开发者来讲,除了关注如何能快速实现不同应用场景重点额音视频 ...
简述实时音视频聊天中端到端加密（E2EE）的工作原理
前言本文着重阐述端到端加密(E2EE),端到端加密是确保数据传输安全的可行方法之一.读完这篇文章,你可以了解这种加密方式的基本原理. 说到互联网的数据安全,一般用户可能认为,像端到端加密这类问题事不 ...

AI在实时音视频互动中应用的 n 种姿势

AI在实时音视频互动中应用的 n 种姿势相关推荐

最新文章

热门文章