paper:https://arxiv.org/abs/2103.15683

本文是武汉大学&哈尔滨工业大学&武汉理工在视频超分领域的一次突破性的成果。在深入分析多帧超分、递归超分以及混合框架超分存在的问题之后,本文创造性的提出了同时利用过去和未来应状态的全局视频超分方案OVSR。受益于OVSR的全局信息特性,所提方法在几个公开数据集上取得了超越以往模型的性能,刷新了Vid4、UDM100的指标,达到了前所未有的28.41dB的性能。

Abstract

现有视频超分主要有这样两种流派:(1) 采用滑动窗口+多帧方式对低分辨率图像进行超分,这其中当以EDVR为其中佼佼者;(2) 采用递归方式,即利用前一帧超分结果辅助当前帧的超分重建,这其中代表性的工作有FRVSR、RRN、RSDN等。也有一些工作尝试将两者进行组合构建一个混合框架,但未能充分发挥两者各自的优势,这方面的工作有FFCVSR、BasicVSR(但作者并未提到这个工作)。

本文提出一种全能(Omniscient)框架,它不仅利用了前一帧的超分结果,同时利用了当前帧与后一帧的超分结果。该框架是一种更广义的框架,像多帧超分、递归超分以及混合框架均为其特例,所提框架具有更好的表现性能。

最后,我们在公开数据集上进行了对比分析:从客观与主观评价以及计算复杂度等方面,所提方法均取得了优于其他SOTA方法的性能,Vid4上的性能对比见上图。

Introduction

上图给出了滑动窗口+多帧超分(见上图a)、递归超分(见上图b)、混合框架超分(见上图c)以及本文所提LOVSR(见上图d)与GOVSR(见上图e)的示意图。在正式介绍本文所提OVSR之前,我们先来看一下已有方法的弊端所在。

  • 滑动窗口+多帧超分:这其中知名的方法有VSR-DUF、VSR-TGA、TDAN、EDVR、TOFlow、MMCNN、PFNL等,这些方法采用动态卷积、形变卷积、光流、非局部等思想进行时序对齐。理论上,这些方法打破了时序相关性,可以同时采用多个线程进行图像重建。然而,受限于多帧输入(比如3帧、5帧、7帧等),这种方法仅仅能利用近邻帧信息,而忽视了前一超分结果,阻碍了这类方法的性能进一步提升。
  • 递归超分:这其中知名的方法有FRVSR、RRN、RSDN等。它们采用递归的方式从前往后以此处理,在处理当前帧时会利用前一帧的超分结果进行辅助。受限于先天机制,它无法利用后续的帧信息,阻碍了其性能提升。
  • 混合框架:这方面的方法有RLSP、FFCVSR等。它仅仅利用了历史信息的隐状态,并未取得令人满意的效果。

基于上述分析,我们尝试“同时利用历史与未来隐状态信息进行当前帧超分重建”,即前面图中的d和e。接下来,我们将针对所提方案进行更详细的介绍。

Method

上图给出了本文所设计的OVSR示意图,它同时借鉴了多帧超分与递归超分的思想。理论上,近邻帧可以提供LR空间最基本的空时信息,而估计的SR输出可以在HR空间提供更多的时序相关性。很自然的一种想法就是组合两者以充分探索空时相关性。

这就促使我们提出了上图的OVSR,我们设计了两个子网络:前置网络NetpNet_pNetp​与后置网络NetsNet_sNets​。首先,前置网络对所有LR图像进行处理以输出SR结果和隐状态;然后,后置网络在前述信息的辅助下对所有LR进行超分重建。更进一步,我们将两者生成的SR结果相加得到最终的SR结果。

按照前置网络与后置网络的处理方向,OVSR可以进一步划分为LOVSR(Local Omniscient VSR)与GOVSR(Global Omniscient VSR)。当NetpNet_pNetp​与NetsNet_sNets​的处理方向相同时,这意味OVSR仅能利用当前与历史信息,以及非常有限的未来信息(比如1-2帧),我们将这种方案定义为LOVSR;我们通过逆转NetpNet_pNetp​的处理方向定义GOVSR,也就是说GOVSR可以同时利用序列中的所有LR图像进行超分重建。一句话概括:LOVSR适合于在线视频超分,而GOVSR适合于离线视频超分

值得一提的是:上述所提OVSR并不依赖于特定生成器架构,任意类型的生成器均可嵌入到上述结构中。

Network Design

接下来,我们将OVSR进行具象化:将PFNL嵌入到上述框架中,见上图。上图为GOVSR示意图,LOVSR类似可以推断出来。由于前置网络与后置网络具有相似的结构,故而我们仅仅对后置网络进行相似介绍。

我们对PFNL中的PFRB进行调整,使得具有三个分支以覆盖过去、现在和将来(想到了小崔的小品了,哈哈)。处理流程如下:

  • 首先,我们采用一个卷积层对LR图像ItLRI_t^{LR}ItLR​与隐状态HtH_tHt​进行融合得到FtLRF_t^{LR}FtLR​;
  • 然后,三个分支信息采用残差分支分别处理后再进行合并,通过这种方法对空间相关性、时序相关性进行充分探索;
  • 其次,三个分支的特征拼接后并由一个卷积处理得到隐状态HtsH_t^sHts​;
  • 最后,隐状态上采样得到IsSRsI_s^{SR_s}IsSRs​​并与前置网络的输出IsSRpI_s^{SR_p}IsSRp​​相加得到超分结果。

前置网络与后置网络可以定义为如下形式:
ItSRp,Htp=Netp({It−1LR,ItLR,It+1LR},Ht+1p)I_t^{SR_p}, H_t^p = Net_p(\{I_{t-1}^{LR}, I_t^{LR}, I_{t+1}^{LR}\}, H_{t+1}^p) ItSRp​​,Htp​=Netp​({It−1LR​,ItLR​,It+1LR​},Ht+1p​)

ItSRs,Hts=Nets({It−1LR,ItLR,It+1LR},{Ht−1s,Htp,Ht+1p})I_t^{SR_s}, H_t^s = Net_s(\{I_{t-1}^{LR}, I_t^{LR}, I_{t+1}^{LR}\}, \{H_{t-1}^s, H_t^p, H_{t+1}^p \}) ItSRs​​,Hts​=Nets​({It−1LR​,ItLR​,It+1LR​},{Ht−1s​,Htp​,Ht+1p​})

最终的SR结果由两者的SR结果相加得到:
ItSR=ItSRs+ItSRpI_t^{SR} = I_t^{SR_s} + I_t^{SR_p} ItSR​=ItSRs​​+ItSRp​​
由于NetsNet_sNets​是对NetpNet_pNetp​的继承,我们自然的约束NetpNet_pNetp​用于进行低频结构的重建,而NetsNet_sNets​用于高频细节重建。故而损失函数定义如下:
L=(ItHR−ItSR)2+ϵ2+α(ItHR−ItSRp)2+ϵ2\mathcal{L} = \sqrt{(I_t^{HR} - I_t^{SR})^2 + \epsilon^2} + \alpha \sqrt{(I_t^{HR} - I_t^{SR_p})^2 + \epsilon^2} L=(ItHR​−ItSR​)2+ϵ2​+α(ItHR​−ItSRp​​)2+ϵ2​
最后用一句话来总结:OVSR对过去、现在以及未来的LR图像、隐状态等所包含的空时相关性进行了充分探索

Experiments

在训练数据方面,我们采用了MM522进行训练,验证集为Vid4和UDM100;同时还采用Vimeo90K进行了训练,但仅在Vimeo90K-T上进行了验证。数据的退化方式为高斯模糊。

上表给出了Vid4数据集上的性能对比,所提方案GOVSR-8+4-80取得了前所未有的28.41dB;GOVSR最轻量版仍取得了优于其他方案的性能27.99dB;LOVSR取得了比GOVSR稍差的性能,但仍比其他方案更优。

上表给出了UDM100数据集上的性能对比,GOVSR-8+4-80取得了前所未有的40.14dB指标;LOVSR同样取得了非常优异且超出其他方案的指标39.99dB。

上表给出了Vimeo90K数据集上的性能对比,GOVSR-8+4-80取得了37.63dB(低于BasicVSR的38.84dB),相比RSDN,指标提升近0.9dB。

上表从方案类型、帧数、参数量、计算量、推理耗时等各个维度进行了对比分析。本文所提轻量型OVSR-8+2-56取得了最快的推理速度:720p实时;中等模型OVSR-8+4-56在指标上超越其他方案的同时具有更快的推理速度;重度模型OVSR-8+4-80牺牲了推理速度得到了最佳的指标,视觉效果可参见下图。

题外话

美中不足之处,本文并未与BasicVSR一文进行对比与分析。因为两者在处理思路上真的是非常的相似。 下图给出了BasicVSR的示意图,两者在大方向上是相似的:利用过去、现在以及未来的信息对当前帧进行重建;两者都采用两个子网络按照两个方向进行处理。在更具体的实现上,两者采用了完全不同的思路:OVSR采用非局部思想+多帧思路进行处理;而BasicVSR则采用了光流对齐进行时序相关性建模。两者在性能上均取得了大幅超越以往模型的性能。两者还有一个共同之处:都尚未开源,哈哈。

推荐阅读

  1. 你的感知损失可能用错了,沈春华团队提出随机权值广义感知损失
  2. CVPR2021|超分性能不变,计算量降低50%,董超等人提出用于low-level加速的ClassSR
  3. SANet|融合空域与通道注意力,南京大学提出置换注意力机制
  4. GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR
  5. 图像超分中的那些知识蒸馏
  6. RepVGG|让你的ConVNet一卷到底,plain网络首次超过80%top1精度
  7. Transformer再下一城!low-level多个任务榜首被占领
  8. 通道注意力新突破!从频域角度出发,浙大提出FcaNet
  9. 46FPS+1080Px2超分+手机NPU,arm提出一种基于重参数化思想的超高效图像超分方案
  10. CVPR2021|“无痛涨点”的ACNet再进化,清华大学&旷视科技提出Inception类型的DBB

28.41dB,视频超分最新力作:PFNL+双向信息传播=OVSR相关推荐

  1. 刷新视频超分新记录28.41dB!一种全局视频超分方案OVSR

    导读 本文是武汉大学&哈尔滨工业大学&武汉理工在视频超分领域的一次突破性的成果.在深入分析多帧超分.递归超分以及混合框架超分存在的问题之后,本文创造性的提出了同时利用过去和未来隐状态的 ...

  2. NTIRE2021 视频超分竞赛简要回顾

    编辑:Happy 首发:AIWalker 本文对NTIRE2021视频超分竞赛进行了简单的介绍,总而言之一句话:BasicVSR是最大赢家. Dataset NTIRE2021的视频超分竞赛仍然延续N ...

  3. 计算高效,时序一致,超清还原!清华NYU 提出 RRN:视频超分新型递归网络

    原文链接:https://bbs.cvmart.net/articles/3158 专注计算机视觉前沿资讯和技术干货 微信公众号:极市平台 官网:https://www.cvmart.net/ 本文为 ...

  4. 传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:AI算法与图像处理 导读 本文将传统图像处理中的自相似性 ...

  5. 一种用于360度全景视频超分的单帧多帧联合网络

    一种用于360度全景视频超分的单帧多帧联合网络 论文.代码地址:在公众号「3D视觉工坊」,后台回复「全景视频超分」,即可直接下载. 摘要和简介 球形视频,也称360度(全景)视频,它的捕获.存储和传输 ...

  6. 入选CVPR 2022!一举打败16个同类模型,视频超分比赛冠军算法!

    来源:量子位 如何让模糊的老片变高清? AI的答案是超分辨率算法: 现在,在视频超分领域,有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩,登上了CVPR 2022. 它的名字叫做 ...

  7. 一举打败16个同类模型,视频超分比赛冠军算法入选CVPR 2022,来自商汤南洋理工大学...

    丰色 发自 凹非寺 量子位 | 公众号 QbitAI 如何让模糊的老片变高清? AI的答案是超分辨率算法: 现在,在视频超分领域,有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩, ...

  8. 【论文解读】传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分...

    作者丨Happy 编辑丨极市平台 导读 本文将传统图像处理中的自相似性.金字塔等思路与深度学习相结合进行视频超分,得到了SOTA指标,并为传统图像处理思路与深度学习提供了一个新的结合点.>> ...

  9. 视频超分中的自监督适应方案

    关注公众号,发现CV技术之美 本文分享论文『Self-Supervised Adaptation for Video Super-Resolution』,通过采样半监督的方式训练VSR网络,并为知识蒸 ...

最新文章

  1. 使用 Nginx 和 Memcached 对 WordPress 的整页做缓存
  2. AAAI2020| 超低精度量化BERT,UC伯克利提用二阶信息压缩神经网络
  3. 常见浏览器兼容问题、盒模型2种模式以及css hack知识讲解
  4. Bitmap Cache
  5. 帮你梳理springboot所有常用注解
  6. QT的QQmlPropertyMap类的使用
  7. php的数据模型包括,数据库中模型的分类有哪些
  8. 【One by one系列】一步步部署.net core应用
  9. 如何通过项目周报获取项目信息-周报模板
  10. 怎样修复IE浏览器 IE浏览器修复方法
  11. matlab各种分布计算公式,SPC常见项目的计算公式
  12. 微信小游戏开发之使用云开发作为后台服务
  13. 总结移动开发入行十周年
  14. 帝国cms 7.5 utf8集成百度编辑器完美集成版
  15. 华东师范大学、普陀区科委领导一行莅临和数集团
  16. 艺展中国-一代名家刘泽仲作品展
  17. MySQL批量修改库、表、列的排序规则
  18. User-Agent详解
  19. 用友BIP产品矩阵亮相首届中小企业数字化转型大会,数智创新驱动企业高效成长
  20. java web atm机_java笔记——模拟ATM机例子

热门文章

  1. MATLAB数组乘方
  2. 书架 bookshelf
  3. 【无标题】Deep AVPpred:人工智能驱动的病毒感染多肽药物的发现
  4. Burp Suite进行账号密码爆破
  5. 云主机的六大安全威胁
  6. 2020河南城建学院计算机专业,2019-2020河南城建学院一流本科专业建设点名单3个(省级)...
  7. @zxing/library插件在H5页面上调用摄像头进行扫码识别解决方法,以及对华为手机的兼容
  8. 中秋佳节,实现一个自定义任意路径嫦娥奔月程序:过什么节,代码走起
  9. Django学习记录8
  10. 成功解决需要Xmanager软件来处理X11转发需求