萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

用AI搞视频编解码器,现在路子有点“野”。

插帧、过拟合、语义感知、GAN……你想过这些“脑洞”或AI算法,也能被用到编解码器上面吗?

例如,原本的算法每帧压缩到16.4KB后,树林开始变得无比模糊:

但在用上GAN后,不仅画面更清晰,每帧图像还更小了,只需要14.5KB就能搞定!

又例如,用插帧的思路结合神经编解码器,能让最新压缩算法效果更好……

这一系列算法的思路,背后究竟是什么原理,用AI搞编解码器,潜力究竟有多大?

我们采访了高通工程技术副总裁、高通AI研究方向负责人侯纪磊博士,了解了高通一些AI编解码器中的算法细节和原理。

编解码器标准逐渐“内卷”

当然,在了解AI算法的原理之前,需要先了解视频到底是怎么压缩的。

如果不压缩,1秒30帧、8bit单通道色深的480p视频,每秒就要传输80+Mbps数据,想在网上实时看高清视频的话,几乎是不可能的事情。

目前,主要有色度子采样、帧内预测(空间冗余)和帧间预测(时间冗余)几个维度的压缩方法。

色度子采样,主要是基于我们眼睛对亮度比对颜色更敏感的原理,压缩图像的色彩数据,但视觉上仍然能保持与原图接近的效果。

帧内预测,利用同一帧中的大片相同色块(下图地板等),预测图像内相邻像素的值,得出的结果比原始数据更容易压缩。

帧间预测,用来消除相邻帧之间大量重复数据(下图的背景)的方法。利用一种名叫运动补偿的方法,用运动向量(motion vector)和预测值计算两帧之间像素差:

这些视频压缩的方法,具体到视频编解码器上,又有不少压缩工作可以进行,包括分区、量化、熵编码等。

然而,据侯纪磊博士介绍,从H.265到H.266,压缩性能虽然提升了30%左右,但这是伴随着编码复杂度提高30倍、解码复杂度提高2倍达成的。

这意味着编解码器标准逐渐进入了一个“内卷”的状态,提升的压缩效果,本质上是用编解码器复杂度来交换的,并不算真正完成了创新。

因此,高通从已有压缩方法本身的原理、以及编解码器的构造入手,搞出了几种有意思的AI视频编解码方法。

3个方向提升压缩性能

具体来说,目前的AI研究包括帧间预测方法、降低解码复杂度和提高压缩质量三个方向。

“预判了B帧的预判”

从帧间预测来看,高通针对B帧编解码提出了一种新思路,论文已经登上ICCV 2021。

I帧:帧内编码帧(intra picture)、P帧:前向预测编码帧(predictive-frame)、B帧:双向预测内插编码帧(bi-directional interpolated prediction frame)

目前的编解码大多集中在I帧(帧内预测)和P帧上,而B帧则是同时利用I帧和P帧的双向运动补偿来提升压缩的性能,在H.265中正式支持(H.264没有)。

虽然用上B帧后,视频压缩性能更好,但还是有两个问题:

一个是视频需要提前加载(必须提前编码后面的P帧,才能得到B帧);另一个是仍然会存在冗余,如果I帧和P帧高度相关,那么再用双向运动补偿就显得很浪费。

打个比方,如果从I帧→B帧→P帧,视频中只有一个球直线运动了一段距离,那么再用双向运动补偿的话,就会很浪费:

这种情况下,用插帧似乎更好,直接通过时间戳就能预测出物体运动的状态,编码计算量也更低。

但这又会出现新的问题:如果I帧和P帧之间有个非常大的突变,例如球突然在B帧弹起来了,这时候用插帧的效果就很差了(相当于直接忽略了B帧的弹跳)。

因此,高通选择将两者结合起来,将基于神经网络的P帧压缩和插帧补偿结合起来,利用AI预测插帧后需要进行的运动补偿:

别说,效果还确实不错,比谷歌之前在CVPR 2020上保持的SOTA纪录更好,也要好于当前基于H.265标准实现开源编解码器的压缩性能。

除此之外,高通也尝试了一些其他的AI算法。

用“过拟合”降低解码复杂度

针对编解码器标准内卷的情况,高通也想到了用AI做自适应算法,来像“过拟合”一样根据视频比特流更新一个模型的权重增量,已经有相关论文登上ICLR 2021。

这种方法意味着针对单个模型进行“过拟合”,对比特流中的权重增量进行编码,再与原来的比特流进行一个比较。如果效果更好的话,就采用这种传输方式。

事实证明,在不降低压缩性能的情况下,这种方法能将解码复杂度降低72%,同时仍然保持之前B帧模型达到的SOTA结果。

当然,除了视频压缩性能以外,单帧图像被压缩的质量也需要考虑,毕竟视觉效果也是视频压缩追求的标准之一。

用语义感知和GAN提高压缩质量

用语义感知和GAN的思路就比较简单了。

语义感知就是让AI基于人的视觉来考虑,选出你在看视频时最关注的地方,并着重那部分的比特分配情况。

例如你在看网球比赛时,往往并不会关注比赛旁边的观众长什么样、风景如何,而是更关注球员本身的动作、击球方法等。

那么,就训练AI,将更多的比特放到目标人物身上就行,像这样:

从结构上来讲也比较简单,也就是我们常见的语义分割Mask(掩膜):

这种方法能很好地将受关注的局部区域帧质量提升,让我们有更好的观看效果,而不是在视频被压缩时,看到的整幅图像都是“打上马赛克”的样子。

据高通表示,这种语义感知的图像压缩,目前已经在扩展到视频压缩上了,同样是关注局部的方法,效果也非常不错。

而基于GAN的方法,则更加致力于用更少的比特数生成视觉效果同样好的图像质量:

据高通表示,数据集来自CVPR中一个针对图像压缩的Workshop CLIC,提供了大约1600张的高清图片,利用自研的模型,能在上面训练出很好的效果:

也就是开头的图片效果,即使在大小被压缩后,基于GAN的图像还是能取得更好的视觉质量:

期待这些技术能马上应用到手机等设备上,让我们看视频的时候真正变得不卡。

相关论文:
[1]https://arxiv.org/abs/2104.00531
[2]https://arxiv.org/abs/2101.08687

参考链接:
[1]https://www.qualcomm.com/news/onq/2021/07/14/how-ai-research-enabling-next-gen-codecs
[2]https://github.com/leandromoreira/digital_video_introduction

用AI打破编解码器内卷,高通最新几篇顶会论文脑洞有点大相关推荐

  1. AI正在模仿人类大脑!2021年10篇顶会论文:大脑也在「无监督」学习

    编辑:桃子 小咸鱼 [导读]神经科学会成为人工智能「超进化」的关键吗?只要模拟大脑,神经网络就可以获得相似或相同的智能.近日,神经科学家Patrick Mineault就2021年无监督学习的大脑模型 ...

  2. 打破硬件内卷:荣耀开启高端旗舰手机智慧新赛道

    3月17日,荣耀旗舰新品发布会如期召开,全能智慧旗舰荣耀Magic4系列面向中国市场正式发布.继2月28日巴塞罗那MWC首发之后,荣耀Magic4系列国内发布会又带来了诸多全新看点:首先是荣耀Magi ...

  3. 移动端AI应用太抢手,高通这次要送开发者20万+的SUV

    近日,由Qualcomm 主办,CSDN.Testin云测.极视角.中科创达.OPPO和创业邦共同协办.TensorFlow Lite 作为开源技术合作伙伴的行业内最具专业性质的"Qualc ...

  4. 高通最新处理器指定三星为唯一制造商

    高通公司表示,三星电子将成为该公司最新旗舰处理器的唯一制造商.对此,台积电目前呈无言以对状态,三星此次一家全收高通最新旗舰处理器,相信是今年台积电最大的坏消息了.有分析师估计,这次合作价值超过10亿美 ...

  5. 北大95后「AI萝莉」回来了,一次中8篇顶会论文的她,现在达摩院开源7大NLP模型...

    梦晨 博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 曾有一位北大硕士生,在校期间一次性在国际顶会ACL中标8篇论文,其中2篇一作,还登上了知乎热搜. 在那次热搜之后,这位"论文 ...

  6. 北大95后「AI萝莉」回来了,一次中8篇顶会论文的她,现在达摩院开源7大NLP模型

    曾有一位北大硕士生,在校期间一次性在国际顶会ACL中标8篇论文,其中2篇一作,还登上了知乎热搜. 在那次热搜之后,这位"论文大户"似乎逐渐销声匿迹. 今天,她带着阿里达摩院深度语言 ...

  7. 苹果xsmax有高通基带吗_苹果iPhone 12深度拆解:内置高通X55基带!信号超稳

    虽然正式开卖前无法开机,但一些国内经销商已经可以对iPhone 12进行深度剖析了,网上就已经有人晒出了iPhone 12的基带,如果你还担心iPhone 12的信号问题,那么可以基本放心了,比上一代 ...

  8. 什么是内卷?华为内部这篇文章读懂

    来源:互联网坊间八卦(ID:kekesil) 内卷的意思是明明已经靠近边界有个天花板,但却又不断自我激发,繁复化.精致化.概念的含糊其辞是无效讨论和跌入焦虑自我再生产困境的原因之一.判断内卷还是良性竞 ...

  9. 腾讯智能识别终端设备获授权;微软将推动必应商业变现;Meta减少数字藏品;高通推出首款5G物联网处理器丨每日大事件...

    ‍ ‍数据智能产业创新服务媒体 --聚焦数智 · 改变商业 企业动态 腾讯智能识别终端设备获授权 3月14日, 腾讯科技(深圳)有限公司申请的"智能识别终端"外观专利获授权.摘要显 ...

最新文章

  1. java实现 k nn算法_数据挖掘(二)——Knn算法的java实现
  2. 【最新阿里-京东-美团-滴滴-面试题及答案】
  3. 数据结构实验之链表三:链表的逆置
  4. linux下remove函数
  5. java按行写入txt文件内容_JAVA编程:读文件,按行输出文件内容
  6. Springboot源码——应用程序上下文分析
  7. Extjs Grid 中给已经添加过Filter的列增加标识
  8. SVN源码服务器搭建-详细教程(我的收藏)
  9. jQuery.extend函数详细用法![转]
  10. python 在线网盘源码_发现一个开源的网盘程序!
  11. incaseformat病毒专杀:怎么查杀incaseformat病毒?紧急扩散!
  12. 高版本Matlab运行时//在当前文件夹或MATLAB路径中未找到文件//函数或变量 ‘xx‘ 无法识别//解决方法
  13. 解决com.lowagie.text.DocumentException: Font 'STSong-Light' with 'UniGB-UCS2-H' is not recognized.
  14. 中文编程语言——易语言,到底是用来干什么的?易语言值得学习吗?易语言的优势有什么?
  15. 本地音乐如何导入apple_如何将自己的音乐添加到Apple Music
  16. 没学历没经验没外语没技能,啥都没有靠啥找工作?
  17. Can‘t connect to MySQL server on ‘localhost‘ (10061)
  18. Python 编写函数实现交叉合并字符串,例如:ABCD与1234的合并结果是A1B2C3D4
  19. 产品运营:如何激活沉默用户
  20. DAY-8 Rviz 转 Gazebo

热门文章

  1. 广西哪个学计算机电子大学好,广西大学和桂林电子科技大学哪个计算机好
  2. google引擎地址
  3. Android权限列表 中文 英文 说明
  4. 最新springboot选题推荐-商品物品产品众筹平台(mysql)-JAVA.VUE【数据库设计、论文、毕设源码、开题报告】
  5. Gradle-JDK版本问题导致运行失败
  6. Keil(MDK)开发软件及STM32芯片包官网下载地址
  7. MAC:外接其他接盘设置f1——f12功能键位
  8. android截取视频为gif图片大小,视频编辑器实验室:修剪,裁剪,转换为GIF
  9. 筑巢大数据,引得凤凰来
  10. 分享一个计算机视觉的交流群