✎ 编 者 按

成立于2019年,拍乐云是国内第一家视频会议背景的实时互动通信云服务提供商,汇聚了一大批专注于音频、视频、白板、网络、AI等领域的资深技术专家。在过去两年间,拍乐云一直致力于帮助用户实现高清、稳定、易用、低时延的实时互动。随着5G和AI技术的发展以及全球疫情的影响,音视频应用场景日益多变,拍乐云如何用更好的产品体验为用户提供完善的解决方案?LiveVideoStack近日采访了拍乐云首席科学家&合伙人章琦老师,他将从产品、技术挑战、应对策略以及AI赋能等角度和大家聊聊他对音视频技术的理解和展望。章琦老师也是LiveVideoStackCon北京站的嘉宾讲师,将在会上为我们带来精彩的演讲。

讲师介绍:章琦,拍乐云首席科学家&合伙人。浙大数学系硕士毕业,20年视频开发经验,8年WebEx音视频引擎架构师工作经验,OpenH264作者,历任虹软、WebEx、网易等公司,精通视频算法,也精通音视频工程,主导了多家公司的音视频引擎架构设计,深入理解人工智能技术以及其在实时通信领域的应用,拥有年服务千亿级分钟音视频通话的经验。

LiveVideoStack: 章老师,您好,非常高兴邀请您接受采访,您可以跟大家介绍一下您在拍乐云所负责的工作吗?

章琦:我在拍乐云主要负责音视频相关的开发工作,包括编码解码、音视频引擎、前沿技术的研究等。除了开发和管理工作,我也会参与到客户对接中。因为我们做的是toB企业服务,技术、产品、服务都很重要,所以会非常关注技术支持的对接、用户的使用反馈。

LiveVideoStack: 我们看到,拍乐云最近推出了业内首个“线上美术音视频方案”,这其中有一项视频矫正技术,您能介绍一下这项技术以及它所用到的算法吗?

章琦:美术线上教学场景下,视频的内容以画布居多。如果要完美呈现画的内容,保证画的空间比例关系,对拍摄的角度要求很高,需要将摄像头对准画布正中心,这在实际操作中其实很难,稍有偏差,作品的空间几何关系就会变化。为了降低用户使用难度,我们支持用户可以随意拍摄,在拍摄后对视频进行矫正处理,这其中需要关注摄像头的拍摄位置和角度,因此需要实时估计采集参数,然后求解几何变换矩阵,最后对视频进行处理,同时为了降低大量运算引入的时延,我们还进行了GPU优化,使整个操作在1毫秒左右,使用户的体验更加流畅。

LiveVideoStack: 在互联网这条高速公路上,最常发生的就是网络拥塞,所造成的后果就是丢包、延时和抖动,大大降低音视频的质量,在应对网络拥塞方面,拍乐云是如何做的呢?

章琦:拍乐云应对网络拥塞的主要手段是带宽预测,动态码率调整和自适应的FEC、ARQ、PLC等技术,可以实现在极限场景下依然通话流畅。同时还采用了前向纠错、丢包重传和丢包隐藏三大丢包恢复策略来应对拥塞。除了弱网对抗,拍乐云还自建了Pano Backbone全球实时传输加速网络,解决跨区域、跨国的链路问题,降低拥塞发生的概率,保障音视频的通信质量。

LiveVideoStack: 您之前讲过,所有抵抗弱网的手段都需要付出代价,也可以被认为是等价交换。这里的代价指的是什么?

章琦:这里的代价指的是抗弱网带来的其他性能的受损。举例来说,传输上的丢包是随机事件,在数据发送的时候无法得知这个数据是否会在传输时被丢。前向纠错编码虽然具备抗丢包能力,但是它对于数据包的保护是比较盲目的,客观上导致传输效率降低。从这个角度上来说,判断系统的抗弱网能力要避免从单一维度出发,需要全面考量。

LiveVideoStack: 您认为在未来,AI技术还能给RTC行业带来哪些大的变化?

章琦:AI技术对整个RTC行业带来的影响必然是非常深远的,客观地说,以深度学习为代表的AI技术的发展与成熟,对音视频关键技术的突破提供了另一个有希望的方向。有些使用传统技术无法解决的问题,可以通过与AI技术的融合,大大降低问题解决的难度。无论是RTC行业的核心音视频编解码,还是其他一些音视频处理和增强技术,比如现在比较热的音频降噪、 视频超分、对象分割识别等,在AI的加持下,都获得了突破。

LiveVideoStack: 您是浙大数学系毕业,是什么样的机缘巧合使您踏上了音视频这条路?

章琦:我的硕士研究方向是数字图像处理,三年求学期间,受益于我的导师叶懋东老师匪浅,只可惜当时的想法不够成熟,在数学这个方向的学习上未能理解叶老师的深意,至今觉得遗憾。读研期间,我还参与了信电系信息与通信工程研究所刘济林和王兴国老师的一些研究项目,他们是国内比较早研究视频编解码技术的团队,在技术上,受陈国斌博士师兄影响比较大, 可以说他们几位都是我踏上音视频开发这条路的贵人。

LiveVideoStack: 在音视频领域深耕这么多年,您能预测一下,下一个音视频技术发展趋势在哪里吗?

章琦:深度学习、虚拟现实技术、3D视频等等。深度学习在前面已有回答,这里不再赘述。虚拟现实和3D视频会依赖于相关硬件技术的成熟,我相信这一天不会太远了。

LiveVideoStack: 我了解到您平时很喜欢阅读,如果让您分别推荐一本音视频领域内的技术书,和一本行业外的其他类型的书,您会推荐哪两本?

章琦:第一本书我想推荐 Write Great Code Volume 2: Thinking Low-Level, Writing High-Level。这本书的作者是Randall Hyde,他的另一本久负盛名的作品是The Art of Assembly Language。不推荐The Art of Assembly Language 的原因是大多数同学都不会有写汇编代码的机会。不过不需要写汇编代码,并不表示你不需要掌握相关的知识,对音视频开发来说,代码执行的效率是非常重要的指标。不过实际工作中,我发现有相当比例的同学都不注意代码执行的效率。可能也是不具备相关的知识和感觉.  这本书是汇编语言的大家信手拈来之作,可以帮助你从汇编的角度来审视高级语言,理解软件是如何在CPU上运行的,从而写出高效且漂亮的代码。

Write Great Code Volume 2: Thinking Low-Level, Writing High-Level

第二本书我想推荐的是《中的精神 – 吴清源自传》, 在围棋这个圈子中,吴清源是以昭和棋圣之名享誉于世的大人物。他击败了所有日本的一流棋手,将他们的对局棋分降为先相先或让先,独步日本棋坛二十余年。但是这样一位高高在上的大人物,他的生活却相当清贫。与之对照的是他的精神世界非常丰富,舍棋之外,别无他物。金庸说他最佩服的人里,古人是范蠡,今人是吴清源。这本书就是吴清源精神世界的最好写照。

《中的精神:吴清源自传》

LiveVideoStack: 您将参加9月份在北京的LiveVideoStackCon音视频大会,那么在会上您会带来哪些令人期待的内容?

章琦:我会分享拍乐云视频编码器的设计实践以及针对实时视频系统应用场景落地的一些优化策略。

大家知道,实时视频系统对于时延的要求极高,所以视频编码器必须满足实时性的要求。现代编码器在 Rate-distortation 性能的提升上是以复杂度的上升为代价的,当前应用设备的碎片化非常严重、设备的运算能力差异巨大,这些都是新技术落地实时音视频系统将面临的挑战。所以我想分享下我们在设计实时视频编码器时,在平衡复杂度和实时性上的一些考量。

LiveVideoStack: : 好的,谢谢您接受采访,期待您在2021LiveVideoStackCon北京站的精彩演讲!

编辑:Alex


LiveVideoStackCon2021北京站火热报名中!

详情请扫描图中二维码或点击阅读原文了解大会更多信息。

降低网络拥塞,追求美好体验——对话拍乐云首席科学家章琦相关推荐

  1. 打造爆款游戏互动体验,拍乐云Unity实时语音了解一下

    玩家之间的实时语音互动是互联游戏的必备功能,拍乐云近日推出 Unity 实时语音解决方案,帮助游戏厂商和开发者在接入游戏引擎的同时快速实现跨平台游戏中的社交互动模块,带给玩家更沉浸式的互动体验,享受美 ...

  2. 全程干货!拍乐云受邀LiveVideoStackCon,首席科学家分享拥塞控制最佳实践

    2021年4月16日-4月17日,国内规模最大的多媒体技术领域峰会LiveVideoStackCon在上海隆重举行.本届大会以"新技术,新机会"为主题,聚焦在音频.视频.图像等技术 ...

  3. 拍乐云远程视频银行解决方案,为金融数字化注入“新活力”

    中国银行业协会在今年发布的<中国银行业客服中心与远程银行发展报告(2020)>中指出,随着数字化融入经济生活的方方面面,我国银行业正在快速迭代升级.用户对银行的数字化服务也提出了更高的要求 ...

  4. 【金猿产品展】拍乐云——新一代实时音视频云服务,构建云上的每一次美好互动...

    拍乐云产品 本项目由拍乐云投递并参与"数据猿年度金猿策划活动--2021大数据产业创新服务产品榜单及奖项"评选. 数据智能产业创新服务媒体 --聚焦数智 · 改变商业 拍乐云提供的 ...

  5. 拍乐云携手UCloud,共建云的美好时代

    前言 在全球数字经济背景及新基建浪潮的推动下,云计算正在迎来下一个黄金十年,进入普惠发展期. UCloud "优云精选计划"是基于 IaaS 和 PaaS 基础设施服务,精选优秀技 ...

  6. 拍乐云推出业内首个「线上美术教学音视频方案」,打造极致互动体验

    在线教育因为其上课的时间地点便捷.名师资源共享和强大的教研能力,获得了越来越多学生和家长的青睐,教学生如何创造美的美术教育也被滚滚浪潮推向了线上.但无法面授,笔墨丹青如何一线牵?线上美术教学效果能不能 ...

  7. 拍乐云 x 美上美学|监管当下,如何回归教育本质,打造品质和体验?

    拍乐云愿携手更多的教育行业客户,积极拥抱变化,拓展素质教育赛道,打造线上教学品质,在教育的这条路上一起长跑下去. 近几月以来,随着政策对K12教育的监管持续收紧和"五育并举"的重申 ...

  8. 拍乐云创始人CEO赵加雨:深耕18载,打造全景式音视频服务

    2020年疫情来袭,"云生活"成了人们熟悉并依赖的体验.在线会议.线上教学等"云服务"也迎来了前所未有的机遇和挑战,行业竞争变得越发激烈. 在一众精兵强将中,有 ...

  9. 拍乐云基于AV1的实时视频系统技术实践

    点击上方"LiveVideoStack"关注我们 实时视频系统对于时延的要求极高,视频编码器必须满足实时性的要求.新一代视频标准AV1相比主流H.264在Rate-distorta ...

最新文章

  1. ImportError: DLL load failed: 找不到指定的模块。 TensorFlow 1.13
  2. python实用小方法
  3. PHP实用小程序(四)
  4. 快速入门数据结构和算法
  5. 梁家卿 | 百科知识图谱同步更新
  6. 0pencv——图像腐蚀
  7. 无服务器TOP3大关键问题及解决方案
  8. 2013下半年(11月)信息系统项目管理师考试题型分析(综合知识、案例分析、论文)...
  9. python降维可视化 自编码_如何使用自动编码器可视化降维? (Python | TensorFlow)...
  10. _GNUC__宏函数
  11. python36安装opencv3.2_Python3.5.3下配置opencv3.2.0的操作方法
  12. deepin允许root登录_王者荣耀安卓免ROOT不用电脑修改战区2020最新版教程
  13. Atitit机器学习原理与概论book attilax总结
  14. CrashLoopBackOff问题排查
  15. 修改Android手机的分辨率和屏幕密度
  16. 为什么蓝牙一主多从能解决集中式水表抄表难题?
  17. 让联想 IdeaPad 710s-13ISK 遇到最新版黑苹果macOS Mojave 10.14.5
  18. 在线日志解析方法:Drain,Logram
  19. 【C】少年时代的经典游戏:三子棋
  20. 2023兔年头像框制作生成小程序源码+多模板/抓住红利

热门文章

  1. Cortex-M3-复位(序列)
  2. [短文速读] a=a+b和a+=b的区别
  3. DockOne微信分享(八十四):Docker在B站的实施之路
  4. 即将到来的 Android N 将具备这些新特性
  5. 06-Java 本地文件操作
  6. linux和windows文件名称长度限制
  7. ngCloak 实现 Angular 初始化闪烁最佳实践
  8. 如何判断 ios设备的类型(iphone,ipod,ipad)
  9. UVA - 12338 Anti-Rhyme Pairs(后缀数组)
  10. 考研计算机网络比较难还是数据结构,2015考研:历年计算机试卷结构与难度分析...