作者单位：中科大
论文链接：https://openaccess.thecvf.com/content/CVPR2021/papers/Xiao_Space-Time_Distillation_for_Video_Super-Resolution_CVPR_2021_paper.pdf
编者言：将知识蒸馏结合时空特征应用到VSR任务上，加强了学生网络的时空建模能力，验证了知识蒸馏方案在VSR任务上的可行性。

看点

紧凑的VSR网络可以很容易地部署在智能手机等设备上，但与复杂VSR网络存在较大的性能差距。为此，本文提出了一种时空蒸馏(STD)方案来利用VSR任务中的时空知识，将知识从复杂的VSR网络转移到紧凑的VSR网络中去提高紧凑VSR网络的性能。空间蒸馏从网络中提取代表高频信息的空间注意图，进一步用于转移空间建模能力。时间蒸馏通过提取时间记忆单元的特征相似度来缩小紧凑模型和复杂模型之间的性能差距。可以在不增加额外运行时间与不改变架构的情况下获得更好的重建效果。

方法

Overview

图（a）表示VSR原理图，（b）和（c）为将知识从复杂的教师网络T转移到紧凑的学生网络S的STD方案。将多帧对齐和时空融合能力从T到S转移，可以使学生在视频重建方面更好地模仿老师。

训练时总损失为TD损失SD损失的加权和加上Charbonnier重建损失，推理时仅使用架构不变的学生网络。

空间蒸馏(SD)

高频细节在重建时是至关重要的。本文的方案受基于激活的注意蒸馏的启发，设计了一个通过从T中提取空间注意图来建模空间表示能力的SD方案，并利用它来训练S。空间注意图的生成等同于寻找一个映射函数M:RC×W×H→RW×H\mathcal{M}: \mathbb{R}^{C \times W \times H} \rightarrow \mathbb{R}^{W \times H}M:RC×W×H→RW×H，定义为下述三种之一：Msum(FtSR)=∑i=1C∣Ft,iSR∣Msum2(FtSR)=∑i=1C∣Ft,iSR∣2Mmax⁡2(FtSR)=max⁡i=1C∣Ft,iSR∣2\begin{aligned} \mathcal{M}_{s u m}\left(F_{t}^{S R}\right) &=\sum_{i=1}^{C}\left|F_{t, i}^{S R}\right| \\ \mathcal{M}_{s u m}^{2}\left(F_{t}^{S R}\right) &=\sum_{i=1}^{C}\left|F_{t, i}^{S R}\right|^{2} \\ \mathcal{M}_{\max }^{2}\left(F_{t}^{S R}\right) &=\max _{i=1}^{C}\left|F_{t, i}^{S R}\right|^{2} \end{aligned} Msum(FtSR)Msum2(FtSR)Mmax2(FtSR)=i=1∑C∣∣Ft,iSR∣∣=i=1∑C∣∣Ft,iSR∣∣2=i=1maxC∣∣Ft,iSR∣∣2这三种映射的可视化如下图：

相比Msum(FtSR)\mathcal{M}_{s u m}\left(F_{t}^{S R}\right)Msum(FtSR)，Msum2(FtSR)\mathcal{M}_{s u m}^{2}\left(F_{t}^{S R}\right)Msum2(FtSR)为高频细节区域分配更多权重。相比Mmax⁡2(FtSR)\mathcal{M}_{\max }^{2}\left(F_{t}^{S R}\right)Mmax2(FtSR)，Msum2(FtSR)\mathcal{M}_{s u m}^{2}\left(F_{t}^{S R}\right)Msum2(FtSR)更清晰和准确地描述场景的细节，因为它在全局机制中计算权重，而不是简单地选择最大值。为此，本实验选取Msum2(FtSR)\mathcal{M}_{s u m}^{2}\left(F_{t}^{S R}\right)Msum2(FtSR)作为映射函数，T和S的空间注意图计算为：
MtT/S=Msum 2(FT/S,tSR)M_{t}^{\mathrm{T} / \mathrm{S}}=\mathcal{M}_{\text {sum }}^{2}\left(F_{\mathrm{T} / \mathrm{S}, t}^{S R}\right) MtT/S=Msum 2(FT/S,tSR)将空间注意图MtS\mathrm M_t^SMtS逼近MtT\mathrm M_t^TMtT来训练S。将空间注意图中所包含的知识从T转移到S，可以使S更好地模仿T学习的高频细节。优化S网络的SD损失为：LSD=1N∑t=1NLd(MtS,MtT)\mathcal{L}_{S D}=\frac{1}{N} \sum_{t=1}^{N} \mathcal{L}_{d}\left(M_{t}^{\mathrm{S}}, M_{t}^{\mathrm{T}}\right) LSD=N1t=1∑NLd(MtS,MtT)其中，Ld\mathcal{L}_dLd定义为L2L_2L2范数。使用滑动窗口方案来创建训练对，边界帧使用复制帧来创建对。

时间蒸馏(TD)

利用多帧间的相关性是VSR的关键步骤。复杂的教师网络由于其精心设计的帧对齐和融合结构，具有较强的处理大运动时间信息的能力。TD方案旨在将教师网络的时间建模能力迁移到学生网络。
将输入通过特征提取和ConvLSTM编码得到隐藏状态hT/S,t+kh_{T/S,t+k}hT/S,t+k：(CT/SSR,hT/s,t+k)=Conv⁡LSTM(FT/s,t+k−1SR,hT/s,t+k−1)\left(C_{\mathrm{T} / \mathrm{S}}^{S R}, h_{\mathrm{T} / \mathrm{s}, t+k}\right)=\operatorname{Conv} L S T M\left(F_{\mathrm{T} / \mathrm{s}, t+k-1}^{S R}, h_{\mathrm{T} / \mathrm{s}, t+k-1}\right) (CT/SSR,hT/s,t+k)=ConvLSTM(FT/s,t+k−1SR,hT/s,t+k−1)TD方案的损失为：LTD=Ld(CTSR,CSSR)\mathcal{L}_{T D}=\mathcal{L}_{d}(C_{\mathrm{T}}^{SR},C_{\mathrm{S}}^{SR})LTD=Ld(CTSR,CSSR)ConvLSTM单元的网络参数与学生网络一起优化。为了提取多帧时间信息，S和T网络共享ConvLSTM的权值。值得注意的是，当ConvLSTM单元中的权值和偏差都为零时，可能存在一个模型崩溃点。为此，为了防止模型崩溃，当TD损失小于1e−81e^{−8}1e−8时对ConvLSTM的参数进行修正。

实验

采用EDVR作为复杂的教师网络T，使用几个更简单和浅层的网络作为学生来验证我们的STD方案的有效性。首先将FastDVDnet作为一个基本的学生网络，并对其进行消融研究。训练时采用BD下采样。

消融实验

STD方案的有效性研究：

蒸馏不同分辨率的特征的分析，实验发现使用高分辨率特征进行蒸馏比使用低分辨率特征更有效：

不同教师模型的进行蒸馏的分析，实验结论表明STD方案适用于不同的教师和学生并且教师的表现越好，蒸馏的提高就越大：

定量评估

在VID4和Vimeo90K-T上的定量评估，⋆为添加了STD的方案，♣为其他蒸馏方案：

定性评估

CVPR2021 | 视频超分辨率中时空蒸馏方案相关推荐

CVPR2021 视频超分辨率中的时空蒸馏方案
关注公众号,发现CV技术之美论文链接:https://openaccess.thecvf.com/content/CVPR2021/papers/Xiao_Space-Time_Distillati ...
业内视频超分辨率新标杆！快手大连理工研究登上CVPR 2022
来源:量子位 [导读]本文从一种新的视角统一了视频超分辨中的低分辨率和高分辨率的时序建模思路,提出了一种新的视频超分辨框架,以较小的计算代价,充分利用了低分辨和高分辨率下的时序互补信息.已在多个公开数 ...
慢镜头变焦：视频超分辨率：CVPR2020论文解析
慢镜头变焦:视频超分辨率:CVPR2020论文解析 Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolu ...
AAAI 2021 | 视频超分中的可变形对齐解读
摘要 · 看点在 AAAI 2021,南洋理工大学 S-Lab.香港中文大学-商汤科技联合实验室和中科院深圳先进技术研究院等对视频超分辨率中的可变形对齐作出分析.可变形卷积最初是为适应对象的几何变化 ...
[翻译]2020年综述：基于深度学习的视频超分辨率
综述:基于深度学习的视频超分辨率 Video Super Resolution Based on Deep Learning: A Comprehensive Survey 论文链接:https:// ...
即插即用！视频超分中的涨点神器：iSeeBetter
CNN让超分结果更真实,GAN让超分结果更丰满,所以CNN+GAN=GOOD! 添加一个鉴别器组件就能使结果增加0.32dB,即插即用,涨点神器!是否在其他的CNN架构上也可行,还需实验验证. 题目: ...
论文笔记：Revisiting Temporal Modeling for Video Super-resolution（重新审视视频超分辨率的时间建模） Part1 系咁嘅啦
** 摘要: 视频超分辨率在监控视频分析和超高清视频显示中起着重要的作用,在研究界和工业界都引起了广泛的关注.尽管已经提出了许多基于深度学习的VSR方法,但是由于不同的损失函数和训练数据集对超分辨率结 ...
【CVPR2020视频超分辨率】Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution 阅读笔记
paper:Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution code:Zooming-Sl ...
综述丨视频超分辨率研究方法
看点近年来,深度学习在很多领域取得了进展,其中包括视频超分辨率任务.本文是第一个也是唯一一个视频超分方向的综述,主要看点如下: 1)回顾了基于深度学习的视频超分技术的研究进展: 2)提出了一种基于深 ...
总奖金近9万！视频超分辨率大赛等你来战！
还记得第一次配眼镜时的感受吗?那种世界突然高清的体验相信大家多少都记忆犹新,即便知道其中的原理,也会忍不住感叹技术给生活带来的神奇体验. 类似的事情也发生在当前AI研究的前沿领域--视频超分辨率.试想 ...

CVPR2021 | 视频超分辨率中时空蒸馏方案

看点

方法