萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

图像领域,已经限制不住AI算法大牛们的身手了。

现在,随着视频产业火热发展,相关算法也正成为计算机视觉研究的新潮流。

毕竟日常生活中,无论是视频通话、还是网课直播,都涉及大量的视频处理算法

但如果这些算法性能不高的话,视频就会出现卡顿、降低分辨率的情况,体验极差。

(想象视频通话时,画面卡成PPT的情况,已经开始生气了……)

因此,降低视频算法计算量,一直是国内外AI视觉算法大牛们致力研究的问题。

最近有两篇CVPR 2021的论文,就引起了视频圈的不少关注。

它们教算法模型学会了自己“省算力”,将视频处理算法的计算效率提升了几倍不止,性能也并不下降!

教AI自己省算力,计算量-78%

用卷积神经网络处理视频,其实是一个计算量巨大的任务。

这里的“计算量”并非指视频大小,而是卷积处理图像的方式——将图像完整地“扫”一遍。

但真正的视频,往往存在大量变化不大的场景(甚至10帧内只有一只手在动):

这种情况下,如果还将每个像素都处理一遍……仿佛已经感受到GPU在燃烧了。

那么,能否教AI学会高效“偷懒”,不浪费任何多余的算力呢?

当然可以,而且有2种方法。

在第一篇论文中,提出了名为Skip-Convolutions(跳跃卷积)的新型卷积层,它能将前后两帧图像相减,并只对变化部分进行卷积。

没错,就像人的眼睛一样,更容易注意到“动起来的部分”。

很快啊,计算量一下子从10.2GMACS(每秒10^9次定点乘累加计算)降到了0.4GMACS,不到原来的4%

注意,不止是上面的姿态估计,这个卷积层适用于任何神经网络算法,包括光流、语义分割、分类任务等。

在最新的语义分割任务中,相比于经典视频AI算法HRNet,这个算法就将计算量减少了78%,延迟降低65%,性能还不下降。

而第二篇论文采用了一个新方法,让AI模型“自行控制计算量”。

论文提出了一个名为FrameExit的网络,由多个级联分类器组成,可以随着视频帧的复杂度,来改变模型所用的神经元数量。

在视频前后帧差异大的时候,AI会用整个模型计算;前后帧差异小的时候,则只用模型的一部分计算。

也就是说,要是某一帧看起来不需要复杂计算的话,用更小的模型处理就够了。

相比于其他模型,这种方法最高甚至能提升5倍的性能。

同时,神经网络检测的精确度(mAP)不仅没有下降,甚至还增加了!

目前,第二篇论文已经入选CVPR 2021的Oral。

重要的是,这两篇论文背后的单位,竟然都是高通,一个与所有手机用户息息相关的公司。

看来我们又能用上更多性能更棒的手机视频应用了。

手机视频应用,性能超级加倍

这两项AI视频感知技术,高通已经在研究落地了。

不得不说,即使是落地的方向,也都是我们平时手机视频应用的刚需。

除了能优化视频处理算法以外,这类感知技术还能让更多AI视频模型被用到手机上。

首先是针对视频处理算法的优化。

例如,对于我们常见的线上视频会议、网课等视频通话场景来说,如果视频处理算法模型不好,实时通话的质量就会非常差。

甚至可能因此出现卡顿的情况,然后直接掉帧,比语音通话的观感还差。

但如果用上这类视频感知技术,AI就能对视频中的部分像素进行智能处理,极大地降低视频通话所需的图像计算量,让通话过程变得更流畅。

又例如,我们的手机在对视频文件进行智能剪辑处理时,往往会出现耗电量大、文件加载慢的问题。

但如果用这类算法对视频剪辑应用进行处理,不仅能优化算法本身,还能让剪辑过程变得更加丝滑。

事实上,也正是由于这类视频感知算法,让更多AI模型能被应用到手机中。

小米11为例,它的其中一项视频编辑功能,是对视频中的一部分画面进行时间暂停,另一部分则保持播放,就像一个人对另一个人施加了“时间停止”魔法。

这类视频算法模型,此前的计算量非常大,原本在论文中要用GPU才能实现。现在用手机就能实现“时间停止”,还是实时的:

不止是一段视频,就连其中的特殊帧也能被暂停,并做成一段很有意思的视频:

又例如,各大AI视觉论文中常见的图像增强算法,以往主要是针对拍照实现,无法被应用到视频中。

但现在,由于视频计算量的下降,它已经能用在实时视频拍摄中了,甚至包括视频会议这样的场景。

OPPO Find X3 Pro的夜景摄影为例,正常拍摄下逆光、或是夜景的视频效果,在AI的计算下也能将脸看得清清楚楚:

甚至就连我们常见的视频智能稳定、视频插帧,之所以能应用到手机视频上,也离不开视频感知算法对智能帧间对比、超分辨率算法等技术的加持。

例如,这是vivo X60 Pro+的视频智能稳定效果:

事实上,上面这些已经被应用到手机中的AI黑科技,背后都有着骁龙888的算力和处理性能支持。

也就是说,高通已经将不少AI视频处理算法,从“几张纸”的论文变成了实际的手机视频应用。

“隐形”AI黑科技,身边其实就不少

不止是手机应用,在这些算法的加持下不断“进阶”。

在智慧医疗、智能工厂、XR等“未来”场景逐渐成为现实的背后,同样有着无数的AI黑科技。

以我们常见的VR设备为例,由于有了AI算法的加成,摄像头也能实现由内向外更精准的追踪。

结合5G进行视频传输后,有了AI加持的VR设备,不仅能给孩子们进行科普教育、还能让医生能够给病患更细致地讲解病情。

又例如,现在出门去医院看病,只需要一个码,就能将包括病案信息、诊疗进度、最新诊疗结果在内的相关病情信息汇集在码中。

利用东大集成研发的“小码哥”进行扫描后,医生就能快速获取全部信息,及时进行诊断。

同时,物联网医疗设备和AI数据分析还能简化健康监控,建立一个真正“互联”的医院,让患者也能在不同地区、时间及时查看病情结果。

又例如,利用AI+边缘计算+5G,就能做出替代人眼进行质量检测和瑕疵识别的智能化数字生产线,让工厂节省大量人力成本。

不仅如此,工业搬运机器人也能通过5G+AI,对摄像头所收集的视频流数据在云端或边缘侧进行智能分析,从而实现远程操控。

但用户并不需要了解其中的每一个细节。

因为,高通这样的前沿科技公司,正将这些技术难点一一攻克。

高通在AI方向的应用布局

然后,再以产品的方式呈现出来,让每一个用户都能无差别地享受最新科技突破。

黑科技有多复杂?

那不是大多数用户需要考虑的。

两篇CVPR 2021论文地址:
[1]https://arxiv.org/abs/2104.11487
[2]https://arxiv.org/abs/2104.13400

高通CVPR神研究:视频处理计算量降低78%,教卷积层自己“挑像素”,卡成PPT的视频纵享丝滑...相关推荐

  1. group convolution (分组卷积)的计算量详解、卷积计算量特征图大小,池化特征图大小、深度通道deep-wise 卷积

    group convolution (分组卷积)的计算量详解.卷积计算量特征图大小,池化特征图大小.深度通道deep-wise 卷积 提示:最近忙着各种提前批的笔试面试,所以没太多空刷题了都,先复盘一 ...

  2. Google、高通都在研究的芯片架构,是他们对抗ARM的武器

    作者 | 张智伟 出品 | AI科技大本营(公众号ID:rgznai100) 据美国媒体 TheInfomation 报道,Google.高通.英伟达等 80 多家科技公司陆续开始研究一个名叫 RIS ...

  3. 智能机计算机在线用,高通骁龙7c/8c/8cx计算平台发布:为始终在线的PC打造

    新酷产品第一时间免费试玩,还有众多优质达人分享独到生活经验,快来新浪众测,体验各领域最前沿.最有趣.最好玩的产品吧~!下载客户端还能获得专享福利哦! IT之家12月6日消息 在夏威夷举办的骁龙技术峰会 ...

  4. Cloud一分钟 |高通预在年底与苹果和解;比特币绝地反弹;广电拿下5G,或成第四大运营商...

    Hello,everyone: 11月29日早,星期四 CSDN一分钟新闻时间: 苹果高管称iPhone XR是该公司最畅销的机型   反正你又不公布销量,你怎么说都对 爱奇艺拟发售5亿美元至10亿美 ...

  5. 【达摩院OpenVI】几行代码,尽享丝滑视频观感

    团队模型.论文.博文.直播合集,点击此处浏览 随着网络电视.手机等新媒体领域的快速发展,用户对于观看视频质量的要求也越来越高.当前市面上所广为传播的视频帧率大多仍然处于20-30fps,已经无法满足用 ...

  6. windows11视频及网盘资源,纵享丝滑!

    ​视频来自B站翼王,笔者亲自体验,操作非常丝滑! 微信扫码或搜索公众号"程序员阿俊",回复"win11",开启丝滑模式!

  7. 朱俊彦团队提出GAN压缩算法:计算量减少20倍,生成效果不变,GPU、CPU统统能加速...

    边策 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 现如今,GAN的效果已经越来越出神入化. 比如英伟达的GauGAN,就如神笔马良,能够凭空造物: 不过,从无化有背后,计算量也相当惊人 ...

  8. linux 播放 4k 视频,高通 S845 能录制 4K HDR 视频,但有哪些设备能看到呢?

    Screenshot, UHD Alliance 高通发布了新世代 Snapdragon 845 SoC 后,大家可能都会留意到它支持录制 4K HDR 视频的能力,让大家用手机拍摄视频时也能有着更鲜 ...

  9. 从AI打王者荣耀到自动驾驶,高通一口气公布了5G+AI未来的无数种可能

    晓查 发自 深圳 量子位 出品 | 公众号 QbitAI "让AI触手可及",这是高通今日举办的AI开放日活动主题. 作为一家以移动通信技术闻名的公司,中国区董事长孟樸一开始就强调 ...

最新文章

  1. 华为CodeCraft2017算法结果检查工具(包含测试用例展示)
  2. 他们让云撸猫变成现实,台湾大学开发手持VR设备解救吸猫人
  3. oracle 让人抓狂的错误之 null值 与 无值(无结果)-开发系列(一)
  4. 写作心得——文章标题的重要性之一
  5. 工频干扰频谱测量_【鼎阳硬件智库译文|高速总线之测试测量】定量测量多通道串行数据系统中的串扰引起的抖动...
  6. Java String 字符串
  7. 家庭作业(信息学奥赛一本通-T1430)
  8. 【华为云技术分享】云图说 | 容器交付流水线ContainerOps,助力企业容器化转型
  9. 所有的计算机语言都必须进行多进制运算,2018职称计算机考试巩固练习及答案17...
  10. 一步步实现SDDC--学习平台环境的搭建
  11. javaScript技巧表:单提交验证类[转载]
  12. GI OPatch升级 The opatch Component check failed. This patch is not applicable for...
  13. vue异步数据 报错_VUE 异步数据传递给 component props 的问题
  14. B站DR-CANup主电路系统建模_基尔霍夫定律的解题过程分析
  15. linux的文件系统简单介绍
  16. js 设置body背景图片
  17. ResNet50及其Keras实现
  18. AWVS14.7破解版免费获取
  19. APS计划排程和生产排产系统,包含哪些排程算法?
  20. 真人qq秀代码_关于QQ我的记忆

热门文章

  1. 如何使用ui-router中的ui-sref将参数传递给控制器
  2. 使用pip将Python包安装到不同的目录中?
  3. 如何获取Vim中所有已安装颜色方案的列表?
  4. 如何在Python中定义二维数组
  5. 如何丢弃Git中未进行的变更?
  6. 【8.23更新--技术干货全家桶】大数据计算技术共享计划 — MaxCompute技术公开课第二季...
  7. k8s 关键字以及管理流程。
  8. SpringMVC之源码分析--LocaleResolver和ThemeResolver应用
  9. hdu1576 mod 运算的逆元
  10. 贵州省新农合业务系统容灾技术支撑服务项目