NTIRE2021 视频超分竞赛简要回顾
编辑:Happy
首发:AIWalker
本文对NTIRE2021视频超分竞赛进行了简单的介绍,总而言之一句话:BasicVSR是最大赢家。
Dataset
NTIRE2021的视频超分竞赛仍然延续NTIRE2020以及AIM2019/20采用了REDS数据集,它的训练集、测试集以及验证机分别包含24000,3000,3000高清(1280×7201280\times7201280×720)视频序列,每个序列包含100连续帧(命名为:‘00000000.png’-‘00000099.png’)。
根据上述HR图像,我们合成以下两个数据集用于不同竞赛赛道。
- Track1: Video Super-Resolution. 我们采用MATLAB中的
imresize
(即bicubic)生成x4下采样的LR图像。该赛道的目标在于:从LR序列重建HR图像。 - Track2: Video Spatio-Temporal Super-Resolution. 从Track1赛道的LR数据中,我们移除奇数帧,即’00000001.png’, '00000003.png’等。因此,输入序列的帧率更低。该赛道的目标在于:同时进行空域与时域超分以重建24fps的HR序列。
Metric and Evalutation
在评价准则方面,我们采用了标准PSNR、SSIM等客观指标,并按照PSNR指标进行排序决定冠亚军。作为参考,我们还采用LPIPS指标度量生成图像的感知质量。LPIPS是一种在特征空间评估重建图像与GT图像距离的的度量准则,但它并不参与最终的排名。
Challenge Results
NTIRE2021视频超分竞赛每个赛道分别由247、223团队注册,在最后的测试阶段,只有14个团队提交了结果。下表给出了按照PSNR指标排序的结果,为比较不同方案的高效性,我们还评估了不同模型的耗时。
Challenge winners
在Track1赛道,NTU-SLab团队凭借BasicVSR++
取得了冠军;在Track2赛道,Imagination团队凭借LCVR+MQVI
取得了冠军。关于BasicVSR++更详细的介绍可参考笔者之前的解读:
视频超分新标杆 | BasicVSR&IconVSR
CVPR2021 | NTIRE2021竞赛"三冠一亚"方案BasicVSR++,Vid4新巅峰29.04dB
Visual comparison
下面Figure1与Figure2给出了不同赛道top5方案的视觉效果对比。
Challenge Methods and Teams
NTU-SLab
上图给出了NTU-SLab团队采用的BasicVSR++
方案的结构示意图,它是在BasicVSR
的基础上改进而来。针对BasicVSR
的局限性:特征仅进行一次传播,提出了二阶网格传播机制促进特性的多次提炼。通过多次双向投影,不同时间补偿的特征可以倍访问多次进而在不同传播阶段提取不同的信息。
针对BasicVSR
中的光流对齐存在问题,借鉴形变对齐的优势,提出一种光流引导形变对齐模块,见上图。更详细的解读请移步:CVPR2021 | NTIRE2021竞赛"三冠一亚"方案BasicVSR++,Vid4新巅峰29.04dB。
Imageination team
Imageination团队提出LCVR
(Local to Context Video Super-Resolution)方案进行视频超分,采用MQVI(Multi-scale Quadratic Video Interpolation)进行视频插针,两者组合构成了空时超分方案。下图给出了不同赛道模型架构示意图。
LCVR
包含三个主要模块:Local Net、Context Net以及Upsample。Local Net在EDVR的基础上引入了通道注意力机制,它用于生成局部特征与超分帧特征;Context Net包含反向与前向分支,它的输出将通过上采样模块转换为帧残差。最后的超分结果则是通过Local Net的超分帧与Context Net+上采样模块的帧残差相加得到。除此之外,该团队还采用了self-ensemble
策略进一步提升模型性能(~0.2dB)。
在VSTSR赛道,MQVI
则接在LCVR
模块之后。首先,通过LCVR
生成每一帧的HR图像,然后采用MQVI
生成奇数帧。考虑QVI
能够处理复杂运动的特性,该团队还引入了coarse-to-fine
方式提炼特征进而构成了MQVI
。
model
model团队采用了光流对齐、双向编码以及自适应上采样模块,基本上就是BasicVSR
的方案。类似BasicVSR
,它们采用SpyNet进行特征对齐;然后将多帧对齐后的特征送入双向编码模块以从不同时间补偿特征提取有用的上下文信息;最后采用自适应上采样模块进行超分重建。下图A为整体架构图,B+C为自适应上采样模块。注:自适应上采样模块中的Routing
模块能起到空域注意力的作用。
Noah-Hisilicon-SR
该团队提出了LGFFN
(Local and Global Feature Fusion Network)方案进行视频超分,他们在BasicVSR
的基础上从两个角度进行了改进:
- 组合全局传播特征与局部传播特性;
- 将无监督学习引入光流估计模块以获得更好的性能。
上图给出了所提方案的特征融合架构示意图,蓝框与红框部分分别表示前向与反向传播过程。这两个模块隐含的包含了全局传播,还采用了局部传播特征提取器估计局部特征。这两种特征通过局部与全局融合模块进行组合以获得更好的重建性能。
之前的视频超分方案中的光流估计模块时通过合成光流数据训练所得,预训练模块往往存在不匹配问题。为缓解该问题,他们采用了无监督学习机制在REDS数据上训练光流估计模块。具体来说,给定两帧图像I1,I2I_1, I_2I1,I2,网络估计的前向与反向流为U12,U21U_{12}, U_{21}U12,U21,所估计的仿射帧通过如下方式得到:I^1(p)=I2(p+U12(p))\hat{I}_1(p) = I_2(p+U_{12}(p))I^1(p)=I2(p+U12(p))。采用原始图像与其他帧的仿射图像的距离进行模型训练。
VUE
VUE团队在两个赛道均采用了两阶段方案(见下图),每个阶段均采用了BasicVSR
模型,第一阶段的输出将作为第二阶段的输入,此外,两个阶段均采用了self-ensemble
策略以获得更佳性能。
在Track2赛道,两个阶段采用并行方式处理,但阶段2采用Zooming Slow-mo
替换BasicVSR
。也就是说:BasicVSR
估计偶数帧超分结果,Zooming Slow-mo
估计奇数帧超分结果。
Darambit
Darambit团队提出了一种类UNet
架构估计目标帧图像,见下图。它采用5个连续帧作为输入,中间三帧用于提取局部特征。
sVSRFI
sVSRFI团队提出了一种VSR+VFI组合方案,VSR部分采用了BasicVSR
方案;VFI则采用边缘图、光流以及仿射的上下文特征作为输入并生成插帧结果。
VIDAR
VIDAR团队提出了一个三阶段方案,一个用于联合超分与插帧,两个用于结果的优化与提炼,整体结构见下图。
I1,I3,I5,I7I_1, I_3, I_5, I_7I1,I3,I5,I7表示输入帧,I^is1,I^is2,I^is3,i∈[1,7]\hat{I}_i^{s_1}, \hat{I}_i^{s_2}, \hat{I}_i^{s_3}, i \in [1,7]I^is1,I^is2,I^is3,i∈[1,7]分别表示阶段1、阶段2以及阶段3的输出。该网络的核心成分为TAFE
(Temporal-aware Feature Extractor)与TAFF
(Temporal-aware Feature Fusion),见上图b。TAFF与TAFE的区别仅在于输入数量,TAFE的输入数量为4,TAFF的输入数量为7。
DeepBlueAI
DeepBlueAI团队提出了模型集成策略,包含三个模型集成:PCA+上采样、PCA+EDVR、NoFlow+EDVR。PCA(Pyramid Correlation Alignment)起特征对齐作用并用于插帧,见下图。
首先,采用CNN提取多级特征;然后,采用由块相关层与卷积层构成的多块相关层计算offset并用之进行图像仿射(类似STN
:Spatial Transformer Network);最后,完成插帧后再采用EDVR进行视频超分。
MiGMaster-XDU
该团队提出了多阶段形变空时视频超分方案,其主要贡献为TDA(temporal deformable alignment)。他们对采用RNN对EDVR中的PCD、TSA进行了扩展,通过采用双向PCD、TSA,近邻帧特征空域对齐到任意时间不长,而非仅仅局限于中间帧。他们采用两个双向PCD获得了coarse-to-fine
时序特征对齐;完成对齐后,TDA模块的输出倍送入CAIN模型,他们采用双向形变ConvLSTM进行特征集成;最后采用MSCU进行视频超分。整体架构见下图。
其他
除了前面所提到的方案外,还有一些团队采用了已有方案在该竞赛数据中进行复现。
NERCMS采用了
OVSR
方案,可参见笔者的解读:刷新视频超分新记录28.41dB!同时利用过去和未来隐状态的全局视频超分方案OVSR;Diggers团队采用了基本的
BasicVSR
方案;MT.Demacia团队采用了
EDVR
+non-local注意力机制,也就是Youku-VESR竞赛的冠军方案:VESRNet
;MiG-CLEAR团队采用
self-calibrated convolution
对EDVR
中的PCD模块进行改进;采用Temporal Group Attention
改进EDVR
的TSA模块;VCL-super-resolution团队采用了类似
RBPN
的视频超分方案;SEU-SR团队采用了
RBPN
方案用于视频超分;CNN团队采用了
STARNet
方案;TheLastWaltz团队采用了
EDVR
+QVI
方案;T955团队采用了
FLAVR+BasicVSR
的组合方案,奇数帧采用FLAVR
估计,然后所有帧采用BasicVSR
超分重建;BOE-IOT-AIBD团队采用
EDVR
+MSQI
的组合方案;NaiveVSR团队采用了
EDVR
+EQVI
的组合方案;Team Horiizon团队采用了
RSDN
+QVI
的组合方案;superbeam团队采用了PWCNet+RCAN的组合方案;
DSST团队采用了
EDVR
+EQVI
的组合方案。
小结
从此次竞赛所采用方案来看,EDVR与BasicVSR是首先视频超分方案;QVI与EQVI是首选视频插帧方案。更有意思的是,这几个首选方案均为X-Pixel团队所提,不得不感慨其在low-level领域的积累之深厚,影响之深远。
从此次竞赛的方案来看,BasicVSR
的双向传播思想已得到了业界的充分认可,可谓此次竞赛的最大赢家。
推荐阅读
- CVPR2021 | NTIRE2021竞赛"三冠一亚"方案BasicVSR++,Vid4新巅峰29.04dB
- 刷新视频超分新记录28.41dB!同时利用过去和未来隐状态的全局视频超分方案OVSR
- 视频超分新标杆 | BasicVSR&IconVSR
- 深入理解视频超分中的形变对齐
- 计算高效,时序一致,超清还原!清华&NYU 提出 RRN:视频超分新型递归网络
- 传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分
- RSDN|性能&速度双超EDVR
- 视频超分|SOF-VSR
- CVPR2020|时序分组注意力视频超分
NTIRE2021 视频超分竞赛简要回顾相关推荐
- 传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:AI算法与图像处理 导读 本文将传统图像处理中的自相似性 ...
- 【论文解读】传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分...
作者丨Happy 编辑丨极市平台 导读 本文将传统图像处理中的自相似性.金字塔等思路与深度学习相结合进行视频超分,得到了SOTA指标,并为传统图像处理思路与深度学习提供了一个新的结合点.>> ...
- 揭开“视频超分”黑科技的神秘面纱
在看电影时,有一幕大家应该都非常熟悉,警察从证据图片中选取一块区域放大,再放大,直到一个很小的目标变得清晰可见,从而发现重要的线索.现实中是不是真的有这样的技术,可以把模糊的小图变得清晰?答案是,一定 ...
- 一种用于360度全景视频超分的单帧多帧联合网络
一种用于360度全景视频超分的单帧多帧联合网络 论文.代码地址:在公众号「3D视觉工坊」,后台回复「全景视频超分」,即可直接下载. 摘要和简介 球形视频,也称360度(全景)视频,它的捕获.存储和传输 ...
- 入选CVPR 2022!一举打败16个同类模型,视频超分比赛冠军算法!
来源:量子位 如何让模糊的老片变高清? AI的答案是超分辨率算法: 现在,在视频超分领域,有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩,登上了CVPR 2022. 它的名字叫做 ...
- 刷新视频超分新记录28.41dB!一种全局视频超分方案OVSR
导读 本文是武汉大学&哈尔滨工业大学&武汉理工在视频超分领域的一次突破性的成果.在深入分析多帧超分.递归超分以及混合框架超分存在的问题之后,本文创造性的提出了同时利用过去和未来隐状态的 ...
- 一举打败16个同类模型,视频超分比赛冠军算法入选CVPR 2022,来自商汤南洋理工大学...
丰色 发自 凹非寺 量子位 | 公众号 QbitAI 如何让模糊的老片变高清? AI的答案是超分辨率算法: 现在,在视频超分领域,有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩, ...
- 计算高效,时序一致,超清还原!清华NYU 提出 RRN:视频超分新型递归网络
原文链接:https://bbs.cvmart.net/articles/3158 专注计算机视觉前沿资讯和技术干货 微信公众号:极市平台 官网:https://www.cvmart.net/ 本文为 ...
- 视频超分中的自监督适应方案
关注公众号,发现CV技术之美 本文分享论文『Self-Supervised Adaptation for Video Super-Resolution』,通过采样半监督的方式训练VSR网络,并为知识蒸 ...
最新文章
- celery源码分析-wroker初始化分析(上)
- 优化网站设计(七):避免在CSS中使用表达式
- DWZ+Uploadify +JSON 多文件上传
- 日记 [2007年02月03日]邮件退信问题的解决
- SPI初始化C语言编程,SD卡spi模式读写,初始化和复位都成功了
- standford lessons
- 【练习】c++删除链表倒数第K个结点和 插入排序算法将单链表递增排序
- 注解_案例_简单的测试框架
- 文本分类中的特征词选择算法系列科普(前言AND 一)
- VS2017/2019 F12无法导航到定义
- 如何在Ubuntu下安装 monodevelop
- Windows 环境下adb.exe无法启动的解决办法之一
- 在Zuul中设置服务访问限流
- VS2010-MFC(MFC常用类:MFC异常处理)
- js Math对象属性和方法
- 解决多线程编程中大并发数等待唤醒的问题
- ViewPager圆形指示器
- 【自监督论文阅读笔记】Green Hierarchical Vision Transformer for Masked Image Modeling
- html怎么引用网页链接,浅谈网页中各种链接引用方法
- 分享视频剪辑必备的三个素材软件(配音/文案/图片)
热门文章
- linux 命令查询主机名,主机名命令,linux查看主机名命令
- 如何使用win7自带的测试工具测试电脑性能?
- 点评:洞悉2020年AI产业新趋势,青年科学家们如是说道翰天琼认知智能机器人大脑API接口平台。
- 图片浏览器功能的实现(一)——图片放大与缩小功能实现
- 天使跟我走,世界我都有
- 自研还是采购BI系统?后悔知道得太晚!
- oracle ebs和java_Oracle EBS Form Builder使用Java beans创建窗体
- 计算机房设备搬迁协议,设备搬迁协议.docx
- Xcode 下载加速及安装指南
- 虚幻4和Unity3D应该学哪个? 1