720P实时超分和强悍的恢复效果：全知视频超分OVSR

论文：https://arxiv.org/pdf/2103.15683.pdf

单位：武汉大学、哈尔滨工业大学、武汉工程大学

译者言：

本文可以看做是PFNL（同一作者）的续作。LOVSR是将PFNL和混合架构的结合，GOVSR是PFNL和双向混合架构的结合。虽然模型在Vid4上最高可以达到28.41dB，但是训练数据集与大众不同，虽然作者最后也在Vimeo-90K中进行了实验，但是并没有给出在Vid4等测试集上的测试结果，具体数据还得等代码开源后进行额外测试。

看点

滑动窗口方法(a)只能通过增加窗口大小来获得更多的相邻LR帧，而忽略了先前估计的SR输出。循环(b)和混合(c)框架只利用了以前的隐藏状态，不能利用后续帧来帮助恢复。

本文提出了一个全知框架（OVSR），不仅可以利用前面的SR输出，还可以利用现在和将来的SR输出。所提出的全知框架可以进一步分为两类：局部全知（LOVSR）(d)和全局全知（GOVSR）(e)。

局部全知框架单向处理视频帧，而全局全知框架双向处理视频帧。全局全知框架允许LR帧从同视频的所有帧中接收信息，但是它不适用于实时超分，而局部全知框架适合。

方法

OVSR overview

如(d)和(e)所示，OVSR框架主要包含两个子网络：前驱网络和后继网络。

首先通过LR帧生成帧和所有时间步长的隐藏状态，然后借助相应的LR帧和估计的隐藏状态重构所有帧。最后将前导和后继产生的SR帧进行细化，重建最终的SR输出。

LOVSR的和在同一个时间方向上处理视频，这意味着它只能利用过去和现在的信息，以及未来有限数量的帧。反转的方向来设计GOVSR，任何LR帧都可以访问同一视频序列中的所有帧。

网络结构

为了将PFRB与全知框架相结合，本文对PFRB进行了改进，使其包含3个通道，如下图所示：

首先采用一个卷积层来融合相应的LR帧和隐藏状态。途中3个特征通道分别包含了过去、现在和未来的信息。

然后，在残差块(作者自定义)中，分别提取这3个通道的特征并将其合并在一起。在网络的末端，来自这3个通道的特征被卷积层处理以获得隐藏状态。最后将放大到，和来自的SR帧相加以重构最终的SR输出。

其中，上采样模块由2个卷积层组成，每个卷积层后跟一个sub-pixel卷积操作。的结构与相差不大，具体如上图。的过程可以描述为：

注意，在GOVSR中为，而LOVSR应为。的过程可以描述为：

由于两个网络结构相似，本文人为的定义主要学习低频结构，主要学习帧内的高频细节。使用Charbonnier损失函数来进行制约：

α用来调整的权重。

实验

消融实验

不同权重α的消融实验：

不同残差块数量的消融实验：

量化评估

作者在MM522数据集上重新实现这些VSR方法，在Vid4上的量化评估：

使用Vimeo-90K数据集进行训练，然后在Vimeo-90K-T上的测试量化评估，低于BasicVSR：

超分速度和参数量等实验如下图，本文提出的最轻量的模型可以在720P的视频中完成实时超分。

备注：超分辨率

超分辨率交流群

图像视频超分辨率，可见光、红外、遥感超分辨率等技术，

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看，让更多人看到