Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution----视频超分辨

变焦慢动作：快速准确的一级时空视频超分辨率（论文及原理）

论文地址：https://ieeexplore.ieee.org/document/9157519
代码地址：https://github.com/Mukosame/Zooming-Slow-Mo-CVPR-2020

这是CVPR2020年的一篇视频超分辨论文，创新点很多，很有研究意义！

一、摘要

①本文探索时空视频超分辨率任务，旨在从低帧率(LFR)，低分辨率(LR)视频生成高分辨率(HR)慢动作视频。
②为了克服两阶段方法模型尺寸大，耗时大的问题，本文提出了一种单级时空视频超分辨率框架，该框架直接从LFR、LR视频合成了HR慢动作视频。
③我们首先在丢失的LR视频帧中插入LR帧特征，通过所提出的特征时间插值网络捕获局部时间上下文。
④提出了一种可变形ConvLSTM来同时对齐和聚合时间信息，以更好地利用全局时间上下文。
⑤采用深度重建网络来预测HR慢动作视频帧。

二、前人研究

针对低分辨率和高时空分辨率自动生成逼真的视频序列低帧率输入视频困难的问题，以往文献大多数采用手工正则化并作出假设。
①[30]中采用时空方向平滑先验。
②[22]假设静态像素的光照没有显著变化。

深度卷积神经网络在视频帧插值(VFI)[24]、视频超分辨率(VSR)[4]和视频去模糊[32]等各种视频恢复任务中显示出良好的效率和有效性。
③直接的方法是直接结合视频帧插值方法（例如，SepConv[25]、ToFlow[40]、DAIN[1]等）。
④视频超分辨率方法（例如，DUF[11]、RBPN[8]、EDVR）[37]等）。

三、本文创新点

本文提出了一种单级时空超分辨率网络，可以在统一框架中同时解决时间插值和空间SR。
提出了一种帧特征时间插值网络，该网络利用基于中间LR帧的可变形采样的局部时间上下文。引入了一种新的可变形ConvLSTM模型，以有效利用全局上下文同时进行时间对齐和聚合，同时使用深度SR重建网络从聚合的LR特征中重建HR视频帧。
一级网络可以端到端地学习以序列到序列的方式将LR、LFR视频序列映射到其HR、HFR空间。

四、相关技术

（1）视频帧插值（VFT）
视频帧插值的目标是在原始帧之间合成不存在的中间帧。
①基于相位的帧插值方法[21]。
②直接使用编码器-解码器CNN预测中间帧[19]。
③将帧插值视为对两个输入帧的局部卷积，并使用CNN为每个像素学习空间自适应卷积核，以实现高质量的帧合成[24,25]。

技术不足：
这些方法通常具有不准确和光流结果中缺少信息的问题。
本文采用技术优点：
本文的单级STVSR框架中，不是像当前VFI方法那样合成中间LR帧，而是从两个相邻的LR帧中插入特征，直接合成缺失帧的LR特征图，而无需明确监督。

（2）视频超分辨率（VSR）
视频超分辨率旨在从相应的LR帧（参考帧）及其相邻的LR帧（支持帧）重建HR视频帧。
①[4,34,26,36,40]使用用于显式时间对齐的光流，它首先用光流估计参考帧和每个支持帧之间的运动。
②RBPN提议为VSR合并单图像和多帧SR，其中流图直接与LR视频帧连接。

技术不足：
很难获得准确的流量；流变形也会在对齐的帧中引入伪影。
本文技术优点：
我们提出了一种新颖的ConvLSTM结构，该结构嵌入了用于时空视频超分辨率的显式状态更新单元。

（3）时空视频超分辨率（STVSR）
①[29]将在子像素和子帧错位处获得的动态场景的多个视频序列中的信息与定向时空平滑正则化相结合，以约束不适定问题。因为像素在LR帧和即使几个完整的LR帧都不可用，STVSR也是一个高度不适定的逆问题。
②[22]提出STVSR作为使用最大后验马尔可夫随机场[7]和图切割[3]作为求解器的重建问题。
③[33]利用局部方向和局部运动来引导时空回归内核。
④ [28]提议利用自然视频中的时空补丁重复先验来进行STVSR。

技术不足：
这些方法对丰富而复杂的时空视觉模式进行建模的能力有限，并且这些方法的优化通常在计算上是昂贵的。
本文技术优点：
提出了一个单阶段网络来直接学习部分LR观察和HR视频帧之间的映射，并实现快速准确的STVSR。

五、STVSR架构

该框架主要由四部分组成：特征提取器、帧特征时间插值模块、可变形ConvLSTM和HR帧重建器。
直接重建连续的HR视频帧而不合成LR中间帧F_t^l。特征时间插值和双向可变形ConvLSTM用于利用局部和全局时间上下文，以更好地利用时间信息和处理大运动。

①首先使用带有卷积层和k1个残差块的特征提取器从输入视频帧中提取特征图。
②以特征图作为输入，我们使用提出的帧特征插值模块合成LR特征图。
③为了更好地利用时间信息，我们使用可变形ConvLSTM来处理连续的特征图与普通的ConvLSTM不同，所提出的可变形ConvLSTM可以同时执行时间对齐和聚合。
④最后，我们从聚合的特征图重建HR慢动作视频序列。

六、结论

大量的实验表明，我们的一阶段框架比现有的两阶段网络更有效，并且提出的特征时间插值网络和可变形的ConvLSTM能够处理非常具有挑战性的快速运动视频。

PS–此篇论文的代码调试请见：https://blog.csdn.net/BingY_998/article/details/122244962?spm=1001.2014.3001.5501