时空超分辨论文阅读笔记(一)---- Zooming Slow-Mo

CVPR 2020

论文地址:https://arxiv.org/abs/2002.11616
代码地址:https://github.com/Mukosame/Zooming-Slow-Mo-CVPR-2020

目录

  • 时空超分辨论文阅读笔记(一)---- Zooming Slow-Mo
    • Abstract
    • 模型设计
      • 1. 模型主要由四个部分组成:
      • 2.主要模块
        • 2.1 中间帧特征插值模块
        • 2.2 Deformable ConvLSTM
        • 2.3 帧重建模块
      • 3.一些参数设置
    • 实验部分

Abstract

关于时空超分辨(STVSR)模型的设计策略:

  • 二阶段模型(two-stage)
  • 一阶段模型(one-stage)

模型设计

图1 模型结构图
1. 模型主要由四个部分组成:
  • 特征提取模块(feature extractor)

    ​ 该模块由一个Conv layer + k1k_1k1​个残差块组成,负责提取输入帧特征。

  • 中间帧特征插值模块(frame feature temporal interpolation module)

    ​ 该模块根据输入的特征序列信息{F2t−1L}t=1n+1\{F^L_{2t-1}\}^{n+1}_{t=1}{F2t−1L​}t=1n+1​,预测输出中间帧序列的特征{F2tL}t=1n\{F^L_{2t}\}^{n}_{t=1}{F2tL​}t=1n​。

  • Deformable ConvLSTM

    ​ 该模块则是对整个特征序列进行一个时间对齐和特征聚合 。

  • 高分辨率帧重建模块(HR frame reconstructor)

    ​ 利用经过时空融合后的特征序列生成最后的高清高分辨视频序列

2.主要模块
2.1 中间帧特征插值模块

​ 二阶段方法(VFI+VSR)中往往是在像素级(pixel-wise)上先生成中间帧,然后对插帧后的序列进行超分辨,为了以one-stage的方式完成插帧和超分,该模块对输入帧特征进行采样融合来生成中间帧特征。根据插帧的经验,要生成中间帧特征,需要利用上下文特征间的双向运动信息来近似估计两侧到中间的运动信息(forward motion information and backwarp motion information),然后再进一步融合这两侧运动信息和上下文特征从而生成中间帧特征。

​ 至于如何估计上下文特征间的双向运动信息,该模块采用了可变形卷积,认为其不规则的采样区域,具备比较强大的对几何物体运动建模的能力,能够从上下文特征中捕捉比较丰富的运动信息,以更好应对包含复杂运动和大幅运动的视频场景,运动信息估计模块如下图所示:

图2 可变形卷积估计运动信息近似生成中间特征

​ 值得注意的是这里的blending操作采用的是简单的线性混合函数来结合T1T_1T1​以及T3T_3T3​,具体公式如下:
F2L=α∗T1(F1L,Φ1)+β∗T3(F3L,Φ3)F^L_2 = \alpha*T_1(F^L_1,\Phi_1)+\beta*T_3(F^L_3,\Phi_3) F2L​=α∗T1​(F1L​,Φ1​)+β∗T3​(F3L​,Φ3​)
其中,α和β\alpha和\betaα和β 指的是两个1x1的卷积核,而∗*∗则代表的是卷积操作。

2.2 Deformable ConvLSTM

​ 生成完整的视频帧特征序列{FtL}t=12n+1\{F^L_t\}^{2n+1}_{t=1}{FtL​}t=12n+1​ 后,就需要利用该特征序列来生成HR Frames。显然,对于整个序列来说,时间信息是非常重要的,且为了保证生成HR video的时间一致性,需要有效利用序列所隐藏的帧间信息。这篇工作,则考虑使用ConvLSTM来在序列间传播时间信息,同LSTM一样,ConvLSTM通过融合前面传递到当前时间步t的隐藏状态ht−1h_{t-1}ht−1​,记忆状态ct−1c_{t-1}ct−1​和时间步t的特征,输出hth_tht​和ctc_tct​然后继续向下传播时间信息,大致公式如下所示:
ht,ct=ConvLSTM(ht−1,ct−1,FtL)h_t,c_t = ConvLSTM(h_{t-1},c_{t-1},F^L_t) ht​,ct​=ConvLSTM(ht−1​,ct−1​,FtL​)
​ ht−1h_{t-1}ht−1​ 以及 ct−1c_{t-1}ct−1​ 就是t之前序列的时间信息,得益于记忆状态ccc,ConvLSTM具有长期记忆的能力, 而利用Conv来捕捉t时刻的特征与其之前状态的一个运动信息,但是由于卷积时的感受野比较小,所以ConvLSTM处理大幅运动的能力有限,而这会导致错误信息的不断传播和累积。

​ 为了更好处理大幅运动的视频,这篇工作在ConvLSTM中嵌入了可变形卷积操作,利用可变形卷积分别捕捉[ht−1,FtL][h_{t-1},F^L_t][ht−1​,FtL​] 和 ct−1,FtL]c_{t-1},F^L_t]ct−1​,FtL​]之间的运行信息并实现时间上的对齐,得到[ht−1a,ct−1a][h^a_{t-1},c^a_{t-1}][ht−1a​,ct−1a​] ,然后再利用ConvLSTM继续进行时间信息的聚集和特征融合,并向下传播,过程的示意图如下所示:

图3 嵌入可变形卷积的ConvLSTM

​ 同时,为了更好利用全局的时间信息,实际上使用了双向的可变形 ConvLSTM(Bidirectional Deformable ConvLSTM),生成融合了过去和未来信息的特征序列{ht}t2n+1\{h_t\}^{2n+1}_t{ht​}t2n+1​。

2.3 帧重建模块

​ 帧重建模块则是使用了一个时间共享的合成网络,输入当个时间步的隐藏状态hth_tht​,然后输出对应的HR frame,具体来说就是使用了k2k_2k2​个残差块提取深度特征信息,然后通过亚像素卷积(sub-pixel)+PixelShuffle重建出HR frames {Itt}t=12n+1\{I^t_t\}^{2n+1}_{t=1}{Itt​}t=12n+1​。重建损失函数如下:
lrec=∣∣IGTt−ItH∣∣2+ϵ2l_{rec}=\sqrt {||I^GT_t-I^H_t||^2+\epsilon^2} lrec​=∣∣IGTt​−ItH​∣∣2+ϵ2​
​ ϵ2\epsilon^2ϵ2是一个经验值,设置为1e-3,为了保证训练的稳定性(我认为:数值稳定---->训练稳定)

3.一些参数设置
  • k1=5,k2=40(5个残差块用于feature extractor,40个残差块用于帧重建部分)

  • 将连续的4个奇数帧,通过随机裁剪成32x32的patches作为输入

  • VSR的倍数设置为x4

  • 数据增强(随机旋转90。,180。,270。90^。,180^。,270^。90。,180。,270。以及水平翻转)

  • Adam optimizer

  • 从4e-4开始到1e-7,对每个batch使用余弦退火(cosine annealing)。

  • batch = 24

实验部分

表1 各算法性能比较

和其他的二阶段方法(由VFI和VSR中的SOTA模型组合完成)比起来,Zooming Slow-Mo在评估集上的表现都更好,并且由于是一阶段模型,模型的参数量比较小,且推理速度比起其他模型都要快得多。(TiTan XP Vid4上测试)

时空超分辨论文阅读笔记(一)---- Zooming Slow-Mo相关推荐

  1. 超分辨论文阅读笔记:Non-local

    Non-local Neural Networks非局部神经网络阅读笔记 非局部神经网络 Non-local Neural Networks非局部神经网络阅读笔记 1introduction 2.Re ...

  2. 超分辨论文阅读笔记:SAN

    SAN;Second-order Attention Network for Single Image Super-Resolution阅读笔记 SAN SAN;Second-order Attent ...

  3. 【CV论文阅读笔记】使用DRN网络(双重回归网络)解决SR问题

    [CV论文阅读笔记]使用DRN网络(双重回归网络)解决SR问题 本篇笔记来自CVPR2020年论文:Closed-loop Matters: Dual Regression Networks for ...

  4. DnCNN论文阅读笔记【MATLAB】

    DnCNN论文阅读笔记 论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...

  5. Gait Part论文阅读笔记

    Gait Part论文阅读笔记 abstract and conclusion method Pipeline Frame-level Part Feature Extractor Temporal ...

  6. 《Segment as Points for Efficient Online Multi-Object Tracking and Segmentation》论文阅读笔记

    <Segment as Points for Efficient Online Multi-Object Tracking and Segmentation>论文阅读笔记 1.介绍 2.相 ...

  7. CenterNet:Objects as Points论文阅读笔记

    CenterNet论文阅读笔记 (一)Title (二)Summary (三)Research Objective (四)Problem Statement (五)Method 5.1 Loss Fu ...

  8. 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation

    论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...

  9. Learning Multiview 3D point Cloud Registration论文阅读笔记

    Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

  10. FCGF论文阅读笔记

    FCGF论文阅读笔记 0. Abstract 从三维点云或者扫描帧中提取出几何特征是许多任务例如配准,场景重建等的第一步.现有的领先的方法都是将low-level的特征作为输入,或者在有限的感受野上提 ...

最新文章

  1. Linux下截取指定时间段日志并输出到指定文件
  2. Linux(CentOS) 如何查看当前占用CPU或内存最多的K个进程
  3. Css3: gradient背景渐变
  4. jakarta ee_Jakarta EE的拟议命名空间
  5. 洛谷1196 银河英雄传说(并查集)
  6. 『计算机视觉』Mask-RCNN_推断网络终篇:使用detect方法进行推断
  7. 电子器件系列二十一:混频器
  8. 无聊开始玩路由器,入门Tomato固件
  9. PHP获取当前域名(判断域名)
  10. html二级页面怎么设置,网页中的二级页面和三级页面是什么啊?怎么做?
  11. PC端微信网页打不开
  12. 一个技术总监迟到的新年开篇
  13. linux怎么把dos改成unix_如何将文本文件在 Unix和DOS格式之间转换
  14. 清朝十二帝记忆顺口溜
  15. 什么是无监督学习?概念、使用场景及常用算法详解
  16. win10计算机属性管理打不开,win10无法打开设置应用的两种解决方法【图文】
  17. 计算机科学导论(5):计算机网络
  18. ITOM(IT运维管理软件)
  19. 内大教务系统教学评估
  20. 网站代理是什么?有什么需要注意的?

热门文章

  1. Chromium浏览器历史版本下载
  2. 学校设备保修维修工单小程序开发制作
  3. ERA5气象数据 :数据中相对湿度、边界层高度、温度、风向、地面气压等参数下载详细教程
  4. CTFmisc图像题(zsteg取zip、压缩包重组、IDAT数据隐写、Markdown编写LaTeX、零宽字节隐写)
  5. mysql relay log_mysql binlog和relay log日志如何清除
  6. HDU 5773 The All-purpose Zero(最长上升子序列)
  7. uni-app ucharts无法显示
  8. 几款款UI在线设计软件,办公必备
  9. Twitter是什么软件?哪个国家的?怎么使用?免费吗?
  10. 根据四个特征点求解相机位姿