视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记

简介

视频超分辨关注的主要问题有两个：一是如何充分利用多帧关联信息，而是如何有效地融合图像细节到高分辨率图像中。
动作补偿方面，深度学习方法用的是backward warping到参考帧，但这个方法其实并不是最优的。多帧融合方面，虽然很多CNN方法可以产生丰富的细节，但不能确定图像细节是来自内部的帧，还是外部的数据。在可缩放性方面，现有的方法对多尺度超分辨都不太灵活，包括ESPCN、VSRnet、VESPCN。
基于现状，作者提出一个sub-pixel motion compensation（SPMC）层，用来有效处理动作补偿和特征图缩放。另外，用一个基于LSTM的框架来处理多帧输入。

方法

作者提出的框架如图2所示。这个网络主要分成三个部分：motion estimation, motion compensation和detail fusion。

Motion Estimation

motion estimation已经相对比较成熟了，方法有Flownet-S和VESPCN中的motion compensation transformer（MCT）。最后作者计划使用MCT。

Motion Compensation

motion compensation用的就是SPMC层。首先记LR、HR图像分别为JLJ^L和JHJ^H。用公式可以表示为：
之前的模块已经得到帧之间的光流估计F=(u,v)F=(u,v)，所以可以用Sampling Grid Generator生成格子（如下公式）。其中有一个α\alpha参数，说明在这一步分辨率就已经提高了（为什么要特地提高分辨率？）。
接着，用同样的方法重建出输出图像JHqJ^H_q：
在本文中，作者选择M(x)=max(0,1−|x|)M(x)=max(0,1-|x|)，代表双线性插值核。
这个网络的好处是，没有额外的参数，并且可微，能够反向传播。

detail fusion net

经过SPMC层后，输出{JHi}\{J^H_i\}已经变成HR的尺寸了，但比较稀疏（大约有15/16的值都是0）。作者把detail fusion net设计成编码-解码风格。前面的卷积层降低了分辨率，也使得特征图不那么稀疏，多帧图片也分别进入了LSTM模块，处理帧内关联信息，之后再通过deconvolution。结构可以这么表示：
看最后输出的符号，这个是多入多出的网络？

训练方法

一口气进行端到端训练会在动作估计部分出现zero flow的问题，导致最后结果和单图像SR差不多，所以做了一个三步训练：
- 只训练motion estimation的参数。鉴于没有label，所以用无监督的warping loss。
- 固定ME的参数，训练后面的网络。
- 联合训练。

实验

作者自己收集了一个数据集，有975个1080p HD视频序列，每个序列有31帧。HR的尺寸为540*960，LR的尺寸为270*480，180*320，135*240。训练集945个，测试集和验证集30个。下面只贴结果

Detail-revealing Deep Video Super-resolution 论文笔记相关推荐

A Comprehensive Study of Deep Video Action Recognition 论文笔记
A Comprehensive Study of Deep Video Action Recognition 论文链接: https://arxiv.org/abs/2012.06567 一. Pro ...
Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记
论文笔记 1 引子在本文中,我们提出了一种新颖的协作时空(CoST)特征学习操作,它与权重共享共同学习时空特征. 给定3D体积视频张量,我们通过从不同角度观看它们,将其展平为三组2D图像. ...
3D Bounding Box Estimation Using Deep Learning and Geometry 论文笔记
3D Bounding Box Estimation Using Deep Learning and Geometry 论文链接: https://arxiv.org/abs/1612.00496 一 ...
[video super resolution] ESPCN论文笔记
ESPCN是twitter2017年提出来的实时视频超分辨率的方法.下面记录下对论文的一些理解. 上面这张图就是整个网络的架构.输入t帧的相邻图像,t-1和t+1,在具体的网络中,有输入连续3张,5张 ...
CVPR 2017 《Deep Feature Flow for Video Recognition》论文笔记
本学弱喜欢在本子上记笔记,但字迹又丑. 望看不懂我的字的大佬不要喷我,看得懂的大佬批评指正.
arXiv 2019 《DCA: Diversified Co-Attention towards Informative Live Video Commenting》论文笔记
目录简介动机贡献方法实验简介北大电子工程与计算机科学学院.华科软件工程学院.北航软件学院合作的一篇文章,算是我看到的第二篇ALVC任务方面的论文,看这个版面和参考文献格式,感觉是投了IC ...
A Strong Baseline and Batch Normalization Neck for Deep Person Re-identification（论文笔记）（2019CVPR）
论文链接:<A Strong Baseline and Batch Normalization Neck for Deep Person Re-identification> Abstra ...
Towards High Performance Video Object Detection论文笔记
这篇文章可以说是很牛逼的又快有准的文章,对比之前的这个团队的deep feature fow(快)和Flow-guided feature aggregation(准),这篇文章可以说是又快又准.但是 ...
《TextBoxes: A Fast Text Detector with a Single Deep Neural Network》论文笔记
参考博文: 日常阅读论文,这是在谷歌学术上搜索其引用CRNN的相关文献中被引数量比较高的一篇OCR方向的文章,这里拿来读一读. 文章目录 make decision step1:读摘要 step2:读 ...
X3D: Expanding Architectures for Efficient Video Recognition个人论文笔记
https://zhuanlan.zhihu.com/p/129279351 这篇X3D的解读写的比我早,写的挺好的,但有些细节没写上,所以由于强迫症写了这篇个人笔记 X3D为一系列的高效视频分类网络 ...

Detail-revealing Deep Video Super-resolution 论文笔记

视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记

简介

方法

Motion Estimation

Motion Compensation

detail fusion net

训练方法

实验

Detail-revealing Deep Video Super-resolution 论文笔记相关推荐

最新文章

热门文章