(如需转载等事宜请联系"我爱计算机视觉")
作者单位:苏黎世联邦理工大学、Meta、鲁汶大学
论文链接:https://arxiv.org/pdf/2201.12288.pdf
代码链接:https://github.com/JingyunLiang/VRT
编者言:本文为将Swin Transformer应用于单图超分中的SwinIR的视频扩展版本,在视频复原的各领域中都有很大的提升,本文将从视频超分方向来解读VRT。

看点

VSR通常需要利用多个相邻但通常不对齐的视频帧的时间信息。现有的方法通常利用滑动窗口策略或循环架构来解决这一问题,这要么受到逐帧恢复的限制,要么缺乏远程建模能力。本文提出了一种视频恢复Transformer(VRT),亮度如下:

  1. VRT的特点是并行计算和远程依赖建模,它在多个尺度上提取、对齐和融合帧特征
  2. 本文提出了相互注意以完成帧间相互对齐,这是隐式运动估计后的广义版本图像扭曲
  3. VRT在视频恢复方面实现了最先进的性能,包括视频超分辨率、去模糊和去噪

方法

Overview

VRT可分为两部分:特征提取和重建。在每个尺度上,它有两种模块:时间相互自注意(TMSA)和平行扭曲,架构如下图所示:
首先通过一个2D卷积提取浅层特征ISFI^{SF}ISF,然后使用一种基于UNet的多尺度网络,以不同的分辨率来对齐帧。具体地说,当总采样数为S时,对特征进行S-1次降采样,每次降采样将2×2邻域压缩到通道维度,并通过线性层将通道数减少到原始数。然后逐渐对特征进行上采样反求回其原始大小。在不同尺度,通过采用TMSA和平行扭曲两个模块进行特征提取以及运动处理。在多尺度特征提取、对齐和融合后,额外采用多个TMSA模块进一步进行提炼得到深层特征IDFI^{DF}IDF。重建部分将浅层特征ISFI^{SF}ISF和深层特征IDFI^{DF}IDF作为输入,使用PixelShuffle以S的比例因子对特征进行上采样,选取Charbonnier函数作为损失。

时间相互自注意(TMSA)

给定参考帧XRX^RXR与支持帧XSX^SXS,通过给定投影矩阵与线性投影计算出:QR=XRPQ,KS=XSPK,VS=XSPVQ^{R}=X^{R} P^{Q}, \quad K^{S}=X^{S} P^{K}, \quad V^{S}=X^{S} P^{V}QR=XRPQ,KS=XSPK,VS=XSPV定义注意力图为A,Yi,;RY^R_{i,;}Yi,;R​为新特征中的第iii个元素,它们被计算为:A=SoftMax⁡(QR(KS)T/D)Yi,:R=∑j=1NAi,jVj,:S\begin{gathered} A=\operatorname{SoftMax}\left(Q^{R}\left(K^{S}\right)^{T} / \sqrt{D}\right) \\ Y_{i,:}^{R}=\sum_{j=1}^{N} A_{i, j} V_{j,:}^{S} \end{gathered}A=SoftMax(QR(KS)T/D​)Yi,:R​=j=1∑N​Ai,j​Vj,:S​​由于QRQ^RQR与KSK^SKS来自不同帧,因此AAA反映了参考帧和支持帧中元素之间的相关性,互注意力(MA)则为AAA与VSV^SVS的加权。

如上图(a)所示,当Kk,;SK^S_{k,;}Kk,;S​与Qi,;RQ^R_{i,;}Qi,;R​相似时(支持帧的黄box与参考帧中的橘box),Ai,k>Ai,jA_{i, k}>A_{i, j}Ai,k​>Ai,j​,在注意力图中即为:{Ai,k→1,Ai,j→0,for j≠k,j≤N\left\{\begin{aligned} A_{i, k} & \rightarrow 1, \\ A_{i, j} & \rightarrow 0, \end{aligned} \quad \text { for } j \neq k, j \leq N\right.{Ai,k​Ai,j​​→1,→0,​ for j​=k,j≤N这种计算方式将支持帧中的第k个元素移动到参考帧中的第i个元素的位置,这相当于给定光流的图像扭曲。此外,与多头自注意类似,多头互注意力(MMA)定义为进行h次MA并将结果concat。与显式运动估计和图像扭曲相比,MA有如下好处:

  1. 与只关注目标像素的图像扭曲相比,MA可以自适应地保留来自支持帧的信息。当没有匹配的位置时,它还可以避免黑洞伪影。
  2. MA没有局部性的偏差,这是大多数基于CNN的运动估计方法固有的,尤其是当两个相邻对象朝不同方向移动时
  3. MA是在特征级别进行运动估计和扭曲。相比之下,光流通常在RGB图像上进行估计然后在特征上进行扭曲。此外,RGB图像上的光流估计通常对光照变化、遮挡和模糊不鲁棒

本文将MA与自注意结合起来以提取和保留当前帧中的特征。在两帧X1X_1X1​和X2X_2X2​上使用MMA两次:将X1X_1X1​向X2X_2X2​扭曲,将X2X_2X2​向X1X_1X1​扭曲。这些扭曲的特征被组合,然后与多头自注意(MSA)的结果concat,后接一个MLP用于降维。然后,添加另一个MLP以进行进一步的特征变换。如架构图中的绿色框所示,还使用了两个LayerForm(LN)层和两个残差连接。在视频超分的恢复中,时间信息与空间信息的重建都很重要,在这里,编者对于TSMA的理解为:MMA主要通过两帧的注意力交互来提取时间维度的信息,MSA则将两帧合并一起来进行空间维度信息的提取,整合MMA与MSA的过程实质上是时间信息与空间信息的整合。
此外,受限于互注意力的设计,上面过程一次只能处理两帧。扩展到T帧的一种简单方法是顺序处理帧对,从而导致O(T2)O(T^2)O(T2)的复杂度。本文提出了TMSA来解决这个问题。TMSA首先将视频序列分割成不重叠的2帧片段并并行运行,如上图(b)所示,它每隔一层将序列暂时移动1帧以启用交叉剪辑连接,从而将计算复杂度降低到O(T)O(T)O(T)。当多个TMSA模块堆叠在一起时,时间感受野增加,在第iii层时为2(i−1)2(i-1)2(i−1)。

平行扭曲

由于空间窗口分割,互注意机制可能无法很好地处理大运动。因此,如架构图的橙色方框所示,在每个网络阶段结束时使用特征扭曲来处理大运动。对于帧特征XtX_tXt​,我们计算其与相邻帧特征并扭曲为X^t−1\hat{X}_{t-1}X^t−1​与X^t+1\hat{X}_{t+1}X^t+1​。然后将它们与原始特征连接起来,并使用MLP进行特征融合和降维。其中采用光流模块预测残差光流并采用可形变卷积进行对齐。

实验

消融实验

针对多尺度训练和平行扭曲的消融实验

针对TMSA中的MSA和MMA的消融实验

定量评估

在BI和BD的定量评估上均优于BasicVSR++,除了在REDS4基准上,因为VRT只在16帧上训练而BasicVSR++为30帧。

定性评估

可以看出在REDS上VRT和BasicVSR++的恢复效果相近,但在Vid4上VRT能恢复出更多的纹理。

对于霸榜视频超分领域的VRT方法的深度解读相关推荐

  1. 传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:AI算法与图像处理 导读 本文将传统图像处理中的自相似性 ...

  2. 入选CVPR 2022!一举打败16个同类模型,视频超分比赛冠军算法!

    来源:量子位 如何让模糊的老片变高清? AI的答案是超分辨率算法: 现在,在视频超分领域,有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩,登上了CVPR 2022. 它的名字叫做 ...

  3. 刷新视频超分新记录28.41dB!一种全局视频超分方案OVSR

    导读 本文是武汉大学&哈尔滨工业大学&武汉理工在视频超分领域的一次突破性的成果.在深入分析多帧超分.递归超分以及混合框架超分存在的问题之后,本文创造性的提出了同时利用过去和未来隐状态的 ...

  4. 一举打败16个同类模型,视频超分比赛冠军算法入选CVPR 2022,来自商汤南洋理工大学...

    丰色 发自 凹非寺 量子位 | 公众号 QbitAI 如何让模糊的老片变高清? AI的答案是超分辨率算法: 现在,在视频超分领域,有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩, ...

  5. 【论文解读】传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分...

    作者丨Happy 编辑丨极市平台 导读 本文将传统图像处理中的自相似性.金字塔等思路与深度学习相结合进行视频超分,得到了SOTA指标,并为传统图像处理思路与深度学习提供了一个新的结合点.>> ...

  6. 28.41dB,视频超分最新力作:PFNL+双向信息传播=OVSR

    paper:https://arxiv.org/abs/2103.15683 本文是武汉大学&哈尔滨工业大学&武汉理工在视频超分领域的一次突破性的成果.在深入分析多帧超分.递归超分以及 ...

  7. NTIRE2021 视频超分竞赛简要回顾

    编辑:Happy 首发:AIWalker 本文对NTIRE2021视频超分竞赛进行了简单的介绍,总而言之一句话:BasicVSR是最大赢家. Dataset NTIRE2021的视频超分竞赛仍然延续N ...

  8. 揭开“视频超分”黑科技的神秘面纱

    在看电影时,有一幕大家应该都非常熟悉,警察从证据图片中选取一块区域放大,再放大,直到一个很小的目标变得清晰可见,从而发现重要的线索.现实中是不是真的有这样的技术,可以把模糊的小图变得清晰?答案是,一定 ...

  9. 视频超分:DUF(Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without ...)

    论文:基于 非动作补偿 动态上采样滤波器的深度视频超分网络 文章检索出处:2018 Conference on Computer Vision and Pattern Recognition(CVPR ...

最新文章

  1. 计算机32位操作系统最大识别到内存,win7 32位系统可以支持多大的内存_win7 的32位系统最大支持多少g的内存...
  2. ASP+Access中文乱码的解决方法,ASP中文乱码,asp乱码问题
  3. 乘法器之五(混和式乘法器(Hybrid multiplication))
  4. 在centos6.7用yum安装redis
  5. 移植mysql到嵌入式ARM平台
  6. jsonp/ajax 自己的一些总结
  7. 刘强东卸任京东 CEO,“二号位”徐雷接棒:三大电商巨头“二把手”正式集齐
  8. SQL server 2016数据库 下载安装
  9. C# 控制台程序(Console Application )启动后隐藏
  10. Java - BeanUtils.copyProperties 与 PropertyUtils.copyProperties 用法及区别
  11. 实现python源代码加密
  12. html制作论坛页面模板,Discuz3.3仿小米论坛风格整站模板制作教程——1、新建模板方案...
  13. linux文件加解密,linux 系统下对文件进行加解密的方法参考总结
  14. Crucible安装与使用(代码审查Code Review)
  15. OpenCV:imwrite存储图像后为全黑
  16. 955.WLB 红包封面来啦!送给希望不加班的你~
  17. cleintHeight、offsetHeight、scrollHeight、cleintTop、offsetTop、scrollTop、getClientRects、getBoundingClien
  18. java向飞秋发文件_飞秋如何发文件夹
  19. PointPillars点云检测在OpenPCDet推理代码详解
  20. 浅析一种电动汽车充电桩集中监控平台的设计与实现

热门文章

  1. MySQL高级篇知识点——其它数据库日志
  2. mysql myisam can't open table_Can’t open file:'[Table]mytable.MYI'
  3. Android 移动安全知识技术全解(加固技术、常规漏洞、Android 逆向......),移动安全问题不容忽视
  4. DOTA2是暴雪的吗
  5. 虚函数、抽象函数、抽象类、接口
  6. 【整车Silmulink模型】(一)整车动力学模型
  7. vue集成capacitor
  8. 电子专业如何写毕业论文
  9. 判断是否是对象本身的属性(hasOwnProperty)
  10. 数学建模英文论文的写作方法和步骤