AAAI2021 大运动“视频超分辨”中的对偶子网与多阶通信上采样方案

关注公众号，发现CV技术之美

作者单位：西电、鹏城实验室

论文链接：https://arxiv.org/pdf/2103.11744.pdf

编者言： 视频超分辨率（VSR）任务中第一个设计对偶学习的方案，多阶上采样的方法和添加对偶子网与对偶损失可以参考与学习

看点

本文的主要亮点如下：

1.提出了一种针对大运动VSR的对偶子网和多阶通信上采样(DSMC)网络，该网络旨在最大限度地实现VSR过程中各种决定性信息的通信，并隐式捕获运动信息。所提出的基于三维卷积的U形密集残差网络(U3D-RDN)模块可以从输入的视频帧中学习到从粗到细的时空特征，从而有效地指导大运动的VSR处理。

2.提出了一个对偶子网，可以模拟自然图像退化，减少解空间，增强泛化能力，帮助DSMC更好地训练。

方法

Overview

DSMC包含一个VSR子网(MSCU)和一个对偶子网，如下图所示：

模型首先对输入的2m+1帧进行可变形卷积，进行粗特征提取。然后输出的特征图通过可变形残差网络(DResNet)处理，在考虑时间特征之前提取精细的空间信息。

然后，将特征图输入到三维卷积u形密集残差网络 (U3D-RDN)中，进行时空特征降维和相关分析。接着是另一个DResNet模块，特征图被送到MSCU模块。最后，DSMC利用对偶子网进行训练，得到HR帧。

U3D-RDN

U3D-RDN实现了精细隐式MEMC和粗空间特征提取，降低了计算复杂度，如下图：

利用一个3×3的2D卷积对输入特征进行下采样编码，在编码空间上进行残差学习后，通过亚像素卷积层对残差映射进行上采样解码。其中3D DenseBlock和Transition层的结构如下：

MSCU

MSCU充分利用上采样阶段的先验知识来恢复HR帧，架构如下图：

在MSCU中，为了充分利用先验信息，我们将VSR的上采样过程分解为更小的上采样过程。例X4的上采样任务可以分解为两个连续的上采样任务，这使网络有能力去捕捉每个阶段中相应的不定性去尝试恢复。

上采样后的剩余图由两个分支处理，一个是通过ResNet进行特征修正来生成，另一个是通过1×1卷积进行通道缩减，与双三次上采样的中心帧进行相加，生成的修复帧，随后被1X1卷积虚拟化，虚拟化的结果与在通道上叠加，通过1X1卷积进行融合，生成下阶段的残差图。

对偶子网

设计了一个对偶子网来约束解空间。对偶问题为恢复VSR输出的退化结果使其尽可能接近LR帧。本文提出的对偶子网模拟了真实图像的退化过程，包括模糊、降采样和噪声。

具体来说，模糊和下采样过程分别由两个3×3的2D卷积(C2D)完成，噪声通过下采样C2D的偏置值添加到退化帧中。对偶损失是输入帧和在对偶子网的输出帧之间进行计算的。那么DSMC的总损失由VSR子网的损失和两部分组成，为:

研究表明，更严格的对偶机制可以更好的恢复原任务的反向过程，因此这里的两部分损失使用相同的损失函数(Cb损失和感知损失)来限制和到相同的分布。

实验

消融实验
不同组件的消融实验，表示通信:：

不同的对偶损失的消融实验：

定量评估
不同方法在VID4测试集上的定量评估：

定性评估
不同方法在VID4测试集上的定性评估

END

欢迎加入「三维视觉」交流群