论文:EDVR:视频超分与加强的可变形卷积网络
文章检索出处: 2019 ICCV

摘要和简介

为了处理较大的运动,我们设计了一个金字塔,级联和可变形对齐模块 (PCD)。在该模块中,使用可变形卷积从粗到精的方式在特征级别完成了帧对齐。其次,提出了时空注意融合模块 (TSA),在时间和空间上都应用注意以强调后续恢复的重要特征。该模型在NTIRE19上夺冠。
在本文中,我们将介绍NTIRE2019在视频恢复和增强方面的挑战中的获奖解决方案。该任务中使用REDS为数据集,与现有数据集相比,REDS中的视频包含更大,更复杂的运动。
PCD模块受TDAN启发,使用可变形卷积将相邻帧与参考帧对齐。与TDAN不同,我们以从粗到精的方式执行对齐,以处理大型和复杂的运动。 具体来说,我们使用金字塔结构,该结构首先使用粗略估计将低比例的特征对齐,然后将偏移量和对齐的特征传播到较高的比例以促进精确的运动补偿,在金字塔对准操作之后级联可变形卷积,以进一步提高对准的鲁棒性。通过计算参考帧和每个帧的特征之间的逐元素关系来引入时间注意进行相邻特征的加权与后续的特征融合,然后进一步应用空间注意为每个通道的每个位置分配权重,以更有效的利用跨通道和空间信息。

方法

Overview

给定2N+1低分辨率帧I{t−N:t+N}I_{\{t-N:t+N}\}I{tN:t+N},定义中间帧ItI_tIt为参考帧,其他帧为相邻帧。目的是估计接近高分辨率帧OtO_tOt的参考帧O^t\hat O_tO^t。 PCD对齐模块在功能级别将每个相邻帧与参考帧对齐,TSA融合模块融合不同帧的图像信息,然后融合的特征通过重建模块,该模块是EDVR中的残留块的级联,可以用单个图像SR中的任何其他高级模块替换。 在网络的末端执行上采样操作以增加空间大小。 最后,通过将预测图像残差添加到直接上采样的图像中来获得高分辨率帧。

金字塔,级联和可变形卷积的对齐

可变形对齐应用于每个帧的特征,记做Ft+i,i∈[−N:+N]F_{t+i},i∈[-N:+N]Ft+i,i[N:+N]。其他可变形卷积部分可参见 TDAN:可变形卷积 这篇文章,本文不再进行叙述。
我们使用金字塔和级联精炼去解决对准中的复杂运动和大时差问题。具体来说,为了生成lllFt+ilF_{t+i}^lFt+il,使用strided convolution filter 将第(lll-1)个金字塔的特征下采样x2,获得lll层的特征。在第lll层,从第(lll+1)层通过x2上采样的偏移量和对齐特征来预测本层的偏移量和对其特征(紫色线)。流程图如下:
公式如下:
其中,ΔPt+il\Delta P_{t+i}^lΔPt+il表示偏移量,fff是由几个卷积层组成的通用函数,“ , ”代表串联,()↑s()^{↑s}()s表示上采样s倍,DConv表示可变形卷积,g表示具有多个卷积层的通用函数。采样采用双线性插值法,使用3层的金字塔结构, 为了减少计算成本,不会随着空间大小的减少而增加通道数。

时空注意力融合

我们在融合的时候采用了时空注意。在特征空间中,应该更加注意与参考帧更相似的相邻框架。对于每个帧i∈{-N:+N},相似距离h可以计算为:
其中θ(Ft+ia)\theta (F_{t+i}^a)θ(Ft+ia)∅(Fta)\varnothing(F_t^a)(Fta)是两个embeddings,可以使用简单的卷积滤波器实现。sigmoid激活函数用于将输出限制为[0,1],稳定梯度反向传播。然后将时间注意图与原始对齐特征Ft+iaF_{t+i}^aFt+ia相乘,用一个额外的融合卷积层来聚合这些注意力调制特征F^t+ia\hat F_{t+i}^aF^t+ia
[.,.,.,]表示级联。然后从融合特征中计算出空间注意蒙版。 采用金字塔设计以增加注意力接收范围。 此后,融合的特征由掩码通过逐元素的乘法和加法来调制。

二级恢复

单个EDVR可以达到最先进的性能,但是还原后的图像并不完美,故采用两阶段策略来进一步提升性能。具体的来说,将一个类似但较浅的EDVR网络进行级联,以完善第一级的输出帧。好处有二:(1)有效地消除了先前模型中无法处理的严重运动模糊,提高了修复质量; (2)减轻了输出帧之间的不一致。

实验

数据集:REDS(720p)包含240个训练剪辑,30个验证剪辑和30个测试剪辑(每个都有100个连续帧)。 在比赛中,由于无法获得测试地面的真实性,我们选择了四个代表性的片段(具有不同的场景和动作)作为测试集,以REDS41表示。 其余的训练和验证剪辑被重新分组为我们的训练数据集(总共266个剪辑)。此外,Vid4和Vimeo-90K-T也一起进行评估。
PCD对齐模块采用五个残差块(RB)进行特征提取。 我们在重建模块中使用40个RB,在第二阶段模型中使用20个RB。 每个残差块中的通道大小设置为128。我们分别使用大小为64x64和256x256的RGB色块作为视频SR和去模糊任务的输入。mini_batch为32。除非另有说明,否则网络将以五个连续的帧(即N = 2)作为输入。 我们通过随机的水平翻转和90旋转来扩充训练数据。 我们仅采用Charbonnier函数作为最终损失。
使用Adam优化器,其中β1\beta_1β1=0.9,β2\beta_2β2=0.999。初试学习率设置为4x10−410^{-4}104,使用8个NVIDIA Titan Xp GPU对其进行训练
在Vid4上与其他模型的PSNR和SSIM对比:

在Vimeo-90K-T上与其他模型的PSNR和SSIM对比:
在REDS4上与其他模型的PSNR和SSIM对比:
有无PCD和TSA、不同数据集与测试集的消融实验:

仅供学习使用,请勿转载。

视频超分:EDVR(EDVR: Video Restoration with Enhanced Deformable Convolutional Networks)相关推荐

  1. 视频重建论文EDVR: Video Restoration with Enhanced Deformable Convolutional Networks阅读笔记

    论文来源:CVPRW2019 论文链接:http://ieeexplore.ieee.org/document/9025464 项目地址:GitHub - xinntao/EDVR: Winning ...

  2. EDVR: Video Restoration with Enhanced Deformable Convolutional Networks阅读笔记

    EDVR: Video Restoration with Enhanced Deformable Convolutional Networks EDVR:基于增强可变形卷积网络的视频恢复 论文:htt ...

  3. 论文笔记之EDVR: Video Restoration with Enhanced Deformable Convolutional Networks

    EDVR: Video Restoration with Enhanced Deformable Convolutional Networks 金字塔.级联和可变形卷积的对齐 时间空间注意力融合 整体 ...

  4. AAAI 2021 | 视频超分中的可变形对齐解读

    摘要 · 看点 在 AAAI 2021,南洋理工大学 S-Lab.香港中文大学-商汤科技联合实验室和中科院深圳先进技术研究院等对视频超分辨率中的可变形对齐作出分析.可变形卷积最初是为适应对象的几何变化 ...

  5. 揭开“视频超分”黑科技的神秘面纱

    在看电影时,有一幕大家应该都非常熟悉,警察从证据图片中选取一块区域放大,再放大,直到一个很小的目标变得清晰可见,从而发现重要的线索.现实中是不是真的有这样的技术,可以把模糊的小图变得清晰?答案是,一定 ...

  6. 新视频超分算法来了:CVPR 2021 NTIRE 2021 冠军

    来源 | OpenMMLab 编辑 | 刘冰一 转自:AI科技评论 今天给大家带来的干货是新鲜出炉的 CVPR 2021,该文斩获 NTIRE 比赛冠军.目前代码已经 Merge 到 MMEditin ...

  7. 视频超分:DUF(Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without ...)

    论文:基于 非动作补偿 动态上采样滤波器的深度视频超分网络 文章检索出处:2018 Conference on Computer Vision and Pattern Recognition(CVPR ...

  8. 视频超分:Zooming Slow-Mo(Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution)

    论文:慢动作缩放:快速准确的一阶时空视频超分 文章检索出处: 2020 CVPR 摘要和简介 时空视频超分辨率任务旨在从低帧率(LFR),低分辨率(LR)视频中生成高分辨率(HR)慢动作视频. 一个简 ...

  9. Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation论文解析(视频超分)

    Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation论文解析(视频超分) 论文可 ...

最新文章

  1. ladp3 获取属性_Ldap获取ad属性的方法.
  2. Qt5.5.1移植到freescale imx6
  3. 视频专辑:轻松学习flash动画制作视频教程
  4. vue 实例化几种方式_vue注册组件的几种方式总结
  5. CSS中的overflow属性
  6. Python 爬虫进阶三之 Scrapy 框架安装配置
  7. 顺序队列,循环队列,链队列
  8. 使用DNS 轻松获取主机信息
  9. MySQL中创建用户
  10. vue 转换信息为二进制 并实现下载
  11. React学习笔记2017-12-31
  12. Android ConnectivityManager详解
  13. 服务器性能低下时正确的处理方法
  14. marlab中主成分得分怎么求_数学无耻得分法,独家秘密,快点用起来
  15. 4大MQ消息队列的比较
  16. 利用“栈”快速计算——逆波兰表达式
  17. 知道密码,如何去除Word文档的各种保护?
  18. Machine Learning Algorithms Study Notes
  19. 【ODX介绍】-3.1-ODX-D,ODX-F,ODX-C,ODX-V,ODX-M的XSD文件
  20. 从源码分析PHP的SESSION实现机制

热门文章

  1. 28.深入浅出MYSQL的优化
  2. SaaS产品盘点:独立应用创新向全程电子商务蜕变
  3. 高清媒体播放机产品分析()
  4. HDFS文件读写机制思考及图解
  5. php mysql 偶数 id_javascript – 如何从mysql数据库(PHP)中的表中选择所有偶数的帖子ID...
  6. opc在自动化控件系统的应用
  7. Oracle入门笔记(三)——Oracle数据类型
  8. 华为云存储空间图库占比太大_用户数据安全存储 华为云空间这些功能大显身手...
  9. 医疗系统--体温单(三测单)系统(体温单控件)
  10. msysgit Permission denied (publickey)