NTIRE2021 视频超分竞赛简要回顾

编辑：Happy
首发：AIWalker

本文对NTIRE2021视频超分竞赛进行了简单的介绍，总而言之一句话：BasicVSR是最大赢家。

Dataset

NTIRE2021的视频超分竞赛仍然延续NTIRE2020以及AIM2019/20采用了REDS数据集，它的训练集、测试集以及验证机分别包含24000，3000，3000高清(1280×7201280\times7201280×720)视频序列，每个序列包含100连续帧(命名为：‘00000000.png’-‘00000099.png’)。

根据上述HR图像，我们合成以下两个数据集用于不同竞赛赛道。

Track1: Video Super-Resolution. 我们采用MATLAB中的imresize(即bicubic)生成x4下采样的LR图像。该赛道的目标在于：从LR序列重建HR图像。
Track2: Video Spatio-Temporal Super-Resolution. 从Track1赛道的LR数据中，我们移除奇数帧，即’00000001.png’, '00000003.png’等。因此，输入序列的帧率更低。该赛道的目标在于：同时进行空域与时域超分以重建24fps的HR序列。

Metric and Evalutation

在评价准则方面，我们采用了标准PSNR、SSIM等客观指标，并按照PSNR指标进行排序决定冠亚军。作为参考，我们还采用LPIPS指标度量生成图像的感知质量。LPIPS是一种在特征空间评估重建图像与GT图像距离的的度量准则，但它并不参与最终的排名。

Challenge Results

NTIRE2021视频超分竞赛每个赛道分别由247、223团队注册，在最后的测试阶段，只有14个团队提交了结果。下表给出了按照PSNR指标排序的结果，为比较不同方案的高效性，我们还评估了不同模型的耗时。

Challenge winners

在Track1赛道，NTU-SLab团队凭借BasicVSR++取得了冠军;在Track2赛道，Imagination团队凭借LCVR+MQVI取得了冠军。关于BasicVSR++更详细的介绍可参考笔者之前的解读：

视频超分新标杆 | BasicVSR&IconVSR
CVPR2021 | NTIRE2021竞赛"三冠一亚"方案BasicVSR++，Vid4新巅峰29.04dB

Visual comparison

下面Figure1与Figure2给出了不同赛道top5方案的视觉效果对比。

Challenge Methods and Teams

NTU-SLab

上图给出了NTU-SLab团队采用的BasicVSR++方案的结构示意图，它是在BasicVSR的基础上改进而来。针对BasicVSR的局限性：特征仅进行一次传播，提出了二阶网格传播机制促进特性的多次提炼。通过多次双向投影，不同时间补偿的特征可以倍访问多次进而在不同传播阶段提取不同的信息。

针对BasicVSR中的光流对齐存在问题，借鉴形变对齐的优势，提出一种光流引导形变对齐模块，见上图。更详细的解读请移步：CVPR2021 | NTIRE2021竞赛"三冠一亚"方案BasicVSR++，Vid4新巅峰29.04dB。

Imageination team

Imageination团队提出LCVR（Local to Context Video Super-Resolution）方案进行视频超分，采用MQVI(Multi-scale Quadratic Video Interpolation)进行视频插针，两者组合构成了空时超分方案。下图给出了不同赛道模型架构示意图。

LCVR包含三个主要模块：Local Net、Context Net以及Upsample。Local Net在EDVR的基础上引入了通道注意力机制，它用于生成局部特征与超分帧特征；Context Net包含反向与前向分支，它的输出将通过上采样模块转换为帧残差。最后的超分结果则是通过Local Net的超分帧与Context Net+上采样模块的帧残差相加得到。除此之外，该团队还采用了self-ensemble策略进一步提升模型性能(~0.2dB)。

在VSTSR赛道，MQVI则接在LCVR模块之后。首先，通过LCVR生成每一帧的HR图像，然后采用MQVI生成奇数帧。考虑QVI能够处理复杂运动的特性，该团队还引入了coarse-to-fine方式提炼特征进而构成了MQVI。

model

model团队采用了光流对齐、双向编码以及自适应上采样模块，基本上就是BasicVSR的方案。类似BasicVSR，它们采用SpyNet进行特征对齐；然后将多帧对齐后的特征送入双向编码模块以从不同时间补偿特征提取有用的上下文信息；最后采用自适应上采样模块进行超分重建。下图A为整体架构图，B+C为自适应上采样模块。注：自适应上采样模块中的Routing模块能起到空域注意力的作用。

Noah-Hisilicon-SR

该团队提出了LGFFN(Local and Global Feature Fusion Network)方案进行视频超分，他们在BasicVSR的基础上从两个角度进行了改进：

组合全局传播特征与局部传播特性；
将无监督学习引入光流估计模块以获得更好的性能。

上图给出了所提方案的特征融合架构示意图，蓝框与红框部分分别表示前向与反向传播过程。这两个模块隐含的包含了全局传播，还采用了局部传播特征提取器估计局部特征。这两种特征通过局部与全局融合模块进行组合以获得更好的重建性能。

之前的视频超分方案中的光流估计模块时通过合成光流数据训练所得，预训练模块往往存在不匹配问题。为缓解该问题，他们采用了无监督学习机制在REDS数据上训练光流估计模块。具体来说，给定两帧图像I1,I2I_1, I_2I1,I2，网络估计的前向与反向流为U12,U21U_{12}, U_{21}U12,U21，所估计的仿射帧通过如下方式得到：I^1(p)=I2(p+U12(p))\hat{I}_1(p) = I_2(p+U_{12}(p))I^1(p)=I2(p+U12(p))。采用原始图像与其他帧的仿射图像的距离进行模型训练。

VUE

VUE团队在两个赛道均采用了两阶段方案(见下图)，每个阶段均采用了BasicVSR模型，第一阶段的输出将作为第二阶段的输入，此外，两个阶段均采用了self-ensemble策略以获得更佳性能。

在Track2赛道，两个阶段采用并行方式处理，但阶段2采用Zooming Slow-mo替换BasicVSR。也就是说：BasicVSR估计偶数帧超分结果，Zooming Slow-mo估计奇数帧超分结果。

Darambit

Darambit团队提出了一种类UNet架构估计目标帧图像，见下图。它采用5个连续帧作为输入，中间三帧用于提取局部特征。

sVSRFI

sVSRFI团队提出了一种VSR+VFI组合方案，VSR部分采用了BasicVSR方案；VFI则采用边缘图、光流以及仿射的上下文特征作为输入并生成插帧结果。

VIDAR

VIDAR团队提出了一个三阶段方案，一个用于联合超分与插帧，两个用于结果的优化与提炼，整体结构见下图。

I1,I3,I5,I7I_1, I_3, I_5, I_7I1,I3,I5,I7表示输入帧，I^is1,I^is2,I^is3,i∈[1,7]\hat{I}_i^{s_1}, \hat{I}_i^{s_2}, \hat{I}_i^{s_3}, i \in [1,7]I^is1,I^is2,I^is3,i∈[1,7]分别表示阶段1、阶段2以及阶段3的输出。该网络的核心成分为TAFE(Temporal-aware Feature Extractor)与TAFF(Temporal-aware Feature Fusion)，见上图b。TAFF与TAFE的区别仅在于输入数量，TAFE的输入数量为4，TAFF的输入数量为7。

DeepBlueAI

DeepBlueAI团队提出了模型集成策略，包含三个模型集成：PCA+上采样、PCA+EDVR、NoFlow+EDVR。PCA(Pyramid Correlation Alignment)起特征对齐作用并用于插帧，见下图。

首先，采用CNN提取多级特征；然后，采用由块相关层与卷积层构成的多块相关层计算offset并用之进行图像仿射(类似STN:Spatial Transformer Network)；最后，完成插帧后再采用EDVR进行视频超分。

MiGMaster-XDU

该团队提出了多阶段形变空时视频超分方案，其主要贡献为TDA(temporal deformable alignment)。他们对采用RNN对EDVR中的PCD、TSA进行了扩展，通过采用双向PCD、TSA，近邻帧特征空域对齐到任意时间不长，而非仅仅局限于中间帧。他们采用两个双向PCD获得了coarse-to-fine时序特征对齐；完成对齐后，TDA模块的输出倍送入CAIN模型，他们采用双向形变ConvLSTM进行特征集成；最后采用MSCU进行视频超分。整体架构见下图。

其他

除了前面所提到的方案外，还有一些团队采用了已有方案在该竞赛数据中进行复现。

NERCMS采用了OVSR方案，可参见笔者的解读：刷新视频超分新记录28.41dB！同时利用过去和未来隐状态的全局视频超分方案OVSR；
Diggers团队采用了基本的BasicVSR方案；
MT.Demacia团队采用了EDVR+non-local注意力机制，也就是Youku-VESR竞赛的冠军方案：VESRNet；
MiG-CLEAR团队采用self-calibrated convolution对EDVR中的PCD模块进行改进；采用Temporal Group Attention改进EDVR的TSA模块；
VCL-super-resolution团队采用了类似RBPN的视频超分方案；
SEU-SR团队采用了RBPN方案用于视频超分；
CNN团队采用了STARNet方案；
TheLastWaltz团队采用了EDVR+QVI方案；
T955团队采用了 FLAVR+BasicVSR的组合方案，奇数帧采用FLAVR估计，然后所有帧采用BasicVSR超分重建；
BOE-IOT-AIBD团队采用EDVR+MSQI的组合方案；
NaiveVSR团队采用了EDVR+EQVI的组合方案；
Team Horiizon团队采用了RSDN+QVI的组合方案；
superbeam团队采用了PWCNet+RCAN的组合方案；
DSST团队采用了EDVR+EQVI的组合方案。

小结

从此次竞赛所采用方案来看，EDVR与BasicVSR是首先视频超分方案；QVI与EQVI是首选视频插帧方案。更有意思的是，这几个首选方案均为X-Pixel团队所提，不得不感慨其在low-level领域的积累之深厚，影响之深远。

从此次竞赛的方案来看，BasicVSR的双向传播思想已得到了业界的充分认可，可谓此次竞赛的最大赢家。