AI在实时音视频互动中应用的 n 种姿势
在场景需求的推动下,以及背后算法、算力、数据的支撑下,AI 已经慢慢走出实验室,开始拥抱产业,这其中也包括 RTC 行业。在实时的视频、实时音频、实时传输、视频内容检索与推荐、实时交互等层面,都已经出现了与 AI 结合的落地应用。
大会门票限时免费截止到 9 月 30 日,扫码报名
部分演讲议题
Topic:Deep Learning based Super Resolution for mobile RTC
Speaker:周世付 声网Agora AI 算法工程师
近几年,超分辨率技术一直是计算机视觉领域的一个热门话题,其应用前景广泛,比如RTC。然后,超分辨率技术在移动端落地的过程中,面临着模型过大、运算复杂、设备发热过大的问题。本次演讲内容将重点分享超分辨技术在移动端落地的探索和实践经验,内容包括对抗神经网络、模型剪枝压缩等。
Topic:基于内容的视频推荐和实践
Speaker:谢晓辉 Hulu 首席研发经理
视频网站面临的技术挑战之一是如何对视频做精准的用户分发,理解用户、环境和视频内容是解决问题的核心和关键。以头部视频为主的视频网站由于用户选择成本更高、消费行为稀疏、复杂而且感性,因此对视频进行精确、细致与丰富的理解和刻画显得更为重要。相比传统的基于用户行为的推荐系统,如何借助于视频内容理解来优化个性化推荐和内容发现呢?本次演讲内容将重点分享Hulu在这一方面的探索和实践经验,内容包括视频理解在内容冷启动、视频精细化标签和分组、深度推荐模型中的应用等等。
Topic:RTC x Audio x AI,现状和展望
Speaker:陈若非 声网Agora 音频体验与工程总监
本次演讲会从一个相对宏观的角度来分析介绍人人和人机交互相关的音频技术分类,现状总结和对未来的展望。其中会重点展开RTC与音频,AI结合的部分,我们需要解决哪些问题,有什么挑战,AI能在哪些方面帮到我们,声网在这些方面的一些思考和进展,其中也包括了AI降噪,AI丢包隐藏,声音美化等音效的成果展示。
Topic:互联网语音内容审核中的关键AI技术
Speaker:胡泊 依图科技 高级架构师
相较于成熟的图片、视频审核,语音是行业公认的新难题。语音违规不仅风险更隐蔽、影响更恶劣,其对应的AI技术也存在更高的壁垒。难点一:高复杂度场景下的语音识别。语聊房、视频直播、短视频中的语音往往伴有极强背景音(如音乐、噪声等)、语速极快咬字不清、口音严重等情况, 使得其识别难度数倍于传统场景。难点二:极低误报率要求下的违规内容过滤。上述场景中,违规内容出现的概率往往在万分之一甚至十万分之一,这就要求算法模型在不漏太多的情况下尽可能的减少误报(从而减少人工审核的工作量)。本次演讲,依图将结合自身经验,介绍如何有针对性的进行技术实现和方案设计,克服以上难点。
Topic:基于神经网络的自适应传输
Speaker:马展 南京大学电子学院副教授、博士生导师
网络是动态变化的,如带宽波动和意想不到的延迟,伤害用户的体验质量(QoE),而且全球网络媒体服务都需要面对这个问题。在这次演讲中,我们提出了一个神经自适应传输(NAT)框架解决全球网络规模下互动媒体服务的网络问题。整个神经自适应传输(NAT)系统有三个主要组成部分:一个基于学习的云覆盖层路由(COR)方案,通过绕过网络拥塞并找到最低延时路径,提供最佳传输路径;一个基于协同视频处理(CVP)系统的残余神经网络在设备端来协调端上的计算能力,通过学习分辨率缩放来改进QoE;还有一个深度强化学习(DRL)的自适应实时流(ARS)策略,用来选择适当的视频比特率,以获得最大QoE。我们验证过COR可以提高用户满意度5%到43%,CVP可以减少相同质量下带宽消耗的30%以上,基于DRL的ARS可以保证流媒体流畅度,QoE也可改善50%以上。
以上只是一部分与 AI 相关的话题,可以在「阅读原文」找到更多干货演讲。
AI在实时音视频互动中应用的 n 种姿势相关推荐
- 实时音视频聊天中超低延迟架构的思考与技术实践
1.前言 从直播在线上抓娃娃,不断变化的是玩法的创新,始终不变的是对超低延迟的苛求.实时架构是超低延迟的基石,如何在信源编码.信道编码和实时传输整个链条来构建实时架构?在实时架构的基础之上,如果通过优 ...
- 离开 YY 三年,赵斌和他的声网是如何做实时音视频互动的?
"为什么通话质量不好?" 在从业生涯里,赵斌总会遇到别人问这样的问题,然后他只能告诉这只是由于网络或设备出了毛病. 但这样的问题问的多了,会让他感到很沮丧,因为如果是网络的问题,程 ...
- TRTC助力高并发、高可用实时音视频互动场景落地(内含开发福利)
疫情之下,大家在工作生活中更多开始使用直播,视频会议.网络教学等场景需求被点燃,但与此同时不可避免会带来突发的大规模在线视频与协作需求与流量冲击,面临高并发.高可用.高性能的挑战. 面对疫情压力,腾讯 ...
- 实时音视频互动系列(上):又拍云UTUN网络详解
如何定义实时音视频互动, 延迟 400ms 内才能无异步感 实时音视频互动如果存在1秒左右的延时会给交流者带来异步感,必须将视频播放延迟限制在400ms以内,才能给用户较好的交互体验. 当延迟控制在4 ...
- 18个实时音视频开发中会用到开源项目
实时音视频的开发学习有很多可以参考的开源项目.一个实时音视频应用共包括几个环节:采集.编码.前后处理.传输.解码.缓冲.渲染等很多环节.每一个细分环节,还有更细分的技术模块.比如,前后处理环节有美颜. ...
- 实时音视频聊天中的延时问题一篇就够
1.前言 音视频实时通讯的应用场景已经随处可见,从"吃鸡"的语音对讲.直播连麦.直播答题组队开黑,再到银行视频开户等.对于开发者来讲,除了关注如何能快速实现不同应用场景重点额音视频 ...
- 理解实时音视频聊天中的延时问题一篇就够
音视频实时通讯的应用场景已经随处可见,从"吃鸡"的语音对讲.直播连麦.直播答题组队开黑,再到银行视频开户等.对于开发者来讲,除了关注如何能快速实现不同应用场景重点额音视频通讯,另一 ...
- 实时音视频聊天中的延时问题一篇就够,低延时场景及优化
1.前言 音视频实时通讯的应用场景已经随处可见,从"吃鸡"的语音对讲.直播连麦.直播答题组队开黑,再到银行视频开户等.对于开发者来讲,除了关注如何能快速实现不同应用场景重点额音视频 ...
- 简述实时音视频聊天中端到端加密(E2EE)的工作原理
前言 本文着重阐述端到端加密(E2EE),端到端加密是确保数据传输安全的可行方法之一.读完这篇文章,你可以了解这种加密方式的基本原理. 说到互联网的数据安全,一般用户可能认为,像端到端加密这类问题事不 ...
最新文章
- 细胞因子风暴与新冠肺炎
- python核心编程电子版_python核心编程答案.pdf
- ABAP 如何实现屏幕字段不可输入
- linux 声卡权限,archlinux的声卡问题如何解决
- python代码该怎么简化_Python开发简化代码的六大技巧
- iOS开发之Runtime关联属性
- java程序服务不能启动不了_JavaService.exe注册的windows服务无法启动问题
- elementary OS下netbeans中文乱码的问题
- for mew歌词 shell_求shell for mew的中文歌词
- Python黑帽编程 3.4 跨越VLAN
- android模拟器 bridge,ADB (Android Debug Bridge)简介
- XMPP即时通讯协议
- flask中的csrf防御机制
- 2020哔哩哔哩校招前端笔试编程题
- powershell安装sdkman
- Manim文档及源码笔记-CE文档-主题化指南3渲染文本和公式
- 云计算技术文章的创作心得
- js转换中文为拼音以及首字母
- 数据挖掘考题汇总(填空题与计算题)带答案
- 趣店财报:最会赚钱的趣店亏了