高通CVPR神研究：视频处理计算量降低78%，教卷积层自己“挑像素”，卡成PPT的视频纵享丝滑...

萧箫发自凹非寺
量子位报道 | 公众号 QbitAI

图像领域，已经限制不住AI算法大牛们的身手了。

现在，随着视频产业火热发展，相关算法也正成为计算机视觉研究的新潮流。

毕竟日常生活中，无论是视频通话、还是网课直播，都涉及大量的视频处理算法。

但如果这些算法性能不高的话，视频就会出现卡顿、降低分辨率的情况，体验极差。

（想象视频通话时，画面卡成PPT的情况，已经开始生气了……）

因此，降低视频算法计算量，一直是国内外AI视觉算法大牛们致力研究的问题。

最近有两篇CVPR 2021的论文，就引起了视频圈的不少关注。

它们教算法模型学会了自己“省算力”，将视频处理算法的计算效率提升了几倍不止，性能也并不下降！

教AI自己省算力，计算量-78%

用卷积神经网络处理视频，其实是一个计算量巨大的任务。

这里的“计算量”并非指视频大小，而是卷积处理图像的方式——将图像完整地“扫”一遍。

但真正的视频，往往存在大量变化不大的场景（甚至10帧内只有一只手在动）：

这种情况下，如果还将每个像素都处理一遍……仿佛已经感受到GPU在燃烧了。

那么，能否教AI学会高效“偷懒”，不浪费任何多余的算力呢？

当然可以，而且有2种方法。

在第一篇论文中，提出了名为Skip-Convolutions（跳跃卷积）的新型卷积层，它能将前后两帧图像相减，并只对变化部分进行卷积。

没错，就像人的眼睛一样，更容易注意到“动起来的部分”。

很快啊，计算量一下子从10.2GMACS（每秒10^9次定点乘累加计算）降到了0.4GMACS，不到原来的4%！

注意，不止是上面的姿态估计，这个卷积层适用于任何神经网络算法，包括光流、语义分割、分类任务等。

在最新的语义分割任务中，相比于经典视频AI算法HRNet，这个算法就将计算量减少了78%，延迟降低65%，性能还不下降。

而第二篇论文采用了一个新方法，让AI模型“自行控制计算量”。

论文提出了一个名为FrameExit的网络，由多个级联分类器组成，可以随着视频帧的复杂度，来改变模型所用的神经元数量。

在视频前后帧差异大的时候，AI会用整个模型计算；前后帧差异小的时候，则只用模型的一部分计算。

也就是说，要是某一帧看起来不需要复杂计算的话，用更小的模型处理就够了。

相比于其他模型，这种方法最高甚至能提升5倍的性能。

同时，神经网络检测的精确度（mAP）不仅没有下降，甚至还增加了！

目前，第二篇论文已经入选CVPR 2021的Oral。

重要的是，这两篇论文背后的单位，竟然都是高通，一个与所有手机用户息息相关的公司。

看来我们又能用上更多性能更棒的手机视频应用了。

手机视频应用，性能超级加倍

这两项AI视频感知技术，高通已经在研究落地了。

不得不说，即使是落地的方向，也都是我们平时手机视频应用的刚需。

除了能优化视频处理算法以外，这类感知技术还能让更多AI视频模型被用到手机上。

首先是针对视频处理算法的优化。

例如，对于我们常见的线上视频会议、网课等视频通话场景来说，如果视频处理算法模型不好，实时通话的质量就会非常差。

甚至可能因此出现卡顿的情况，然后直接掉帧，比语音通话的观感还差。

但如果用上这类视频感知技术，AI就能对视频中的部分像素进行智能处理，极大地降低视频通话所需的图像计算量，让通话过程变得更流畅。

又例如，我们的手机在对视频文件进行智能剪辑处理时，往往会出现耗电量大、文件加载慢的问题。

但如果用这类算法对视频剪辑应用进行处理，不仅能优化算法本身，还能让剪辑过程变得更加丝滑。

事实上，也正是由于这类视频感知算法，让更多AI模型能被应用到手机中。

以小米11为例，它的其中一项视频编辑功能，是对视频中的一部分画面进行时间暂停，另一部分则保持播放，就像一个人对另一个人施加了“时间停止”魔法。

这类视频算法模型，此前的计算量非常大，原本在论文中要用GPU才能实现。现在用手机就能实现“时间停止”，还是实时的：

不止是一段视频，就连其中的特殊帧也能被暂停，并做成一段很有意思的视频：

又例如，各大AI视觉论文中常见的图像增强算法，以往主要是针对拍照实现，无法被应用到视频中。

但现在，由于视频计算量的下降，它已经能用在实时视频拍摄中了，甚至包括视频会议这样的场景。

以OPPO Find X3 Pro的夜景摄影为例，正常拍摄下逆光、或是夜景的视频效果，在AI的计算下也能将脸看得清清楚楚：

甚至就连我们常见的视频智能稳定、视频插帧，之所以能应用到手机视频上，也离不开视频感知算法对智能帧间对比、超分辨率算法等技术的加持。

例如，这是vivo X60 Pro+的视频智能稳定效果：

事实上，上面这些已经被应用到手机中的AI黑科技，背后都有着骁龙888的算力和处理性能支持。

也就是说，高通已经将不少AI视频处理算法，从“几张纸”的论文变成了实际的手机视频应用。

“隐形”AI黑科技，身边其实就不少

不止是手机应用，在这些算法的加持下不断“进阶”。

在智慧医疗、智能工厂、XR等“未来”场景逐渐成为现实的背后，同样有着无数的AI黑科技。

以我们常见的VR设备为例，由于有了AI算法的加成，摄像头也能实现由内向外更精准的追踪。

结合5G进行视频传输后，有了AI加持的VR设备，不仅能给孩子们进行科普教育、还能让医生能够给病患更细致地讲解病情。

又例如，现在出门去医院看病，只需要一个码，就能将包括病案信息、诊疗进度、最新诊疗结果在内的相关病情信息汇集在码中。

利用东大集成研发的“小码哥”进行扫描后，医生就能快速获取全部信息，及时进行诊断。

同时，物联网医疗设备和AI数据分析还能简化健康监控，建立一个真正“互联”的医院，让患者也能在不同地区、时间及时查看病情结果。

又例如，利用AI+边缘计算+5G，就能做出替代人眼进行质量检测和瑕疵识别的智能化数字生产线，让工厂节省大量人力成本。

不仅如此，工业搬运机器人也能通过5G+AI，对摄像头所收集的视频流数据在云端或边缘侧进行智能分析，从而实现远程操控。

但用户并不需要了解其中的每一个细节。

因为，高通这样的前沿科技公司，正将这些技术难点一一攻克。

△高通在AI方向的应用布局

然后，再以产品的方式呈现出来，让每一个用户都能无差别地享受最新科技突破。

黑科技有多复杂？

那不是大多数用户需要考虑的。

两篇CVPR 2021论文地址：
[1]https://arxiv.org/abs/2104.11487
[2]https://arxiv.org/abs/2104.13400