原文链接:https://bbs.cvmart.net/articles/3158
专注计算机视觉前沿资讯和技术干货
微信公众号:极市平台
官网:https://www.cvmart.net/


本文为大家介绍一个视频超分方向的最新工作:新颖的递归网络RRN。文章将残差学习思想引入到RNN中,在帮助保持长周期纹理信息的同时降低了训练过程中的梯度消失的风险。该工作在Vid4数据集上超越了EDVR的PSNR指标。同时,文章还对常用的三种时序建模方案进行了系统的对比分析。

paper: https://arxiv.org/2008.05765

code: https://github.com/junpan19/RRN

Abstract

​ 视频超分在监控视频分析与超高清视频显示中扮演着非常重要的作用,它在工业界与学术界获得了非常多的关注。尽管有许多基于深度学习的视频超分方法已被提出,但是往往难以直接对这些方法进行对比,这是因为(1) 不同的损失函数;(2) 不同的训练数据等因素对于超分结果影响非常大。

​ 该文仔细研究并对了视频超分中的三种时序建模方案(2D-CNN, 3D-CNN, RNN),同时还提出了一种新颖的递归残差模块用于高效视频充分,其中残差学习用于稳定训练并提升超分性能。

​ 作者通过充分的实验表明:所提RRN计算高效同时可以生成时序一致的超分结果且具有更好的纹理细节。除此之外,所提方法在公开基准数据集取得了SOTA性能。

​ 该文的贡献主要包含两方面:

  • 精心研究并对比了视频超分中常用的三种时序建模方法;
  • 提出了一种新颖的隐状态用于递归网络,它在所有时序建模方法中取得最佳性能,并在三个公开数据集取得了SOTA性能。

Method

​ 接下来,我们将重点介绍一下该文所提整理系统方案以及时序建模方法的细节。整个视频嘲讽呢系统包含两个部分:(1) 时序建模网络;(2) 图像/视频重建网络;(3) 损失函数。该文的重点是1与3两个部分。在时序建模网络方面,作者重点研究了2DCNN快融合(见下图A)、3DCNN慢融合(见下图B)以及RNN(见下图C)三种时序建模方案。基于不同建模方案的分析而提出了该文的RRN建模方案(见下图D)。

​ 如前所述,该文考虑了三种形式的时序建模方案。接下来,我们就针对这三种方案进行介绍与分析。

2DCNN快融合

​ 该方案以多帧作为输入,直接通过concat方式进行融合,然后采用堆叠2D卷积提取特征。受EDSR启发,作者了采用改进2D残差模块设计了2DCNN快融合模块。该融合过程可以描述为:
Rt=W_net2D{W_fusion2D[I_t−T,⋯,I_t+T]}R_t = W\_{net2D}\{W\_{fusion2D}[I\_{t-T}, \cdots, I\_{t+T}]\} Rt​=W_net2D{W_fusion2D[I_t−T,⋯,I_t+T]}
W_fusion2DW\_{fusion2D}W_fusion2D的输入维度为NC×H×WNC \times H \times WNC×H×W,其中N=2T+1N = 2T + 1N=2T+1。W_fusion2D,W_net2DW\_{fusion2D}, W\_{net2D}W_fusion2D,W_net2D表示2D卷积的权值。该2DCNN的输出残差特征的维度为Cr2×H×WCr^2 \times H \times WCr2×H×W,然后通过depth-to-space方式进行上采样,最后将所得残差图与原始输入中间帧的bicubic结果相加得到最终的超分结果。

3DCNN慢融合

​ 该方案以视频序列作为输入,然后采用堆叠3D卷积提取空-时信息。类似2DCNN,作者采用了相似的方式进行空-时信息提取,区别在于卷积由2D编程了3D。相比2DCNN,3DCNN中的时序信息融合更慢,该过程可以描述为:
Rt=W_fusion3D{W_net3D(I_t−T:t+T)}R_t = W\_{fusion3D}\{W\_{net3D}(I\_{t-T:t+T})\} Rt​=W_fusion3D{W_net3D(I_t−T:t+T)}
​ 其他的处理过程与2DCNN的过程基本相似,这里滤过不计。

RNN融合

​ 相比CNN时序建模方法,RNN采用更少的帧与隐状态作为输入,并采用递归方式处理长视频序列。一般而言,时序t的隐状态包含三部分:(1) 前一帧的超分结果o_t−1o\_{t-1}o_t−1;(2) 前一帧的隐状态特征h_t−1h\_{t-1}h_t−1;(3) 两个相邻帧I_t−1:tI\_{t-1:t}I_t−1:t。直观上讲,前后帧的像素往往具有非常强的相似性,t时刻的高频纹理可以通过前一帧的补充信息进行进一步精炼调整。类似其他视频处理任务,VSR中的RNN往往存在梯度消失问题。

​ 为解决上述问题,作者提出了一种新颖的递归网络RRN(Residual Recurrent Network),它将残差学习思想引入到RNN中。这种设计确保了流畅的信息流,有助于保持长周期的纹理信息,进而使得RNN可以处理更长序列,同时降低了训练过程中的梯度消失风险。在t时刻,RNN采用如下方式生成隐状态与输出:

其中σ(⋅)\sigma(\cdot)σ(⋅)表示ReLU激活函数,g(x~k−1)g(\tilde{x}_{k-1})g(x~k−1​)表示恒等映射,即g(x~k−1)=x~k−1g(\tilde{x}_{k-1})=\tilde{x}_{k-1}g(x~k−1​)=x~k−1​,而F(x~k−1)\mathcal{F}(\tilde{x}_{k-1})F(x~k−1​)表示学习到的残差特征图。

Experiments

​ 之前的方法往往采用不同的训练数据集(比如有的采用Vimeo90K,有的采用REDS,有的采用自己制作的数据)、不同的下采样核(有的采用bicubic,有的采用blur-down),这就导致了不同方法无法公平对比。在该文中,作者采用Vimeo90K作为训练数据集,其中的LR采用blur-down方式制作。作者选用的测试数据集为Vid4、SPMCS以及UDM10三个公开数据集。

​ 对于2DCNN时序建模方案,作者设计了2DCNN-S与2DCNN-L两种,分别采用5和10个2D残差模块,通道数为128;对于3DCNN时序建模方案,作者的设计类似2DCNN,故略过;为公平对比,对于RNN时序建模,作者也分别采用5和10个残差模块作为隐状态,即RNN-S与RNN-L,通道数同样为128,t0t_0t0​时刻的隐状态初始化为0。

​ 在训练过程中,2DCNN的学习率为0.0001,3DCNN的学习率为0.001,每10epoch衰减0.1,总计训练30epoch;RNN的学习率为0.0001,每60epoch衰减0.1,总计训练70epoch。所有模型均采用L1L1L1损失函数、Adam优化器。CNN建模方案的Batch=64,RNN建模方案的Batch=4

​ 下表给出了不同建模方案在公开数据集上的性能以及耗时对比。很明显,(1) 3DCNN时序建模方案以极大优势优于2DCNN,然而它非常耗时。(2) 想必你3DCNN时序建模方案,RNN计算高效,参数量更少,同时具有更好的性能指标。(3)RRN-S能够以33fps生成720p视频,RRN-L能够以22fps生成720p视频。


作者同时还对比了不同建模方案的时序一致性,见下图。RRN方案可以生成时序一致的结果同时具有更少的伪影问题。

​ 为更好说明RRN的有效性,作者还对比了不带残差学习时的性能对比,见下表。可以看到不添加残差学习存在严重的梯度消失问题。

​最后,作者给出了所提方法与其他视频超分方案的性能与效果对比。


​全文到此结束,对该文感兴趣的同学可以去看一下原文。最后,期待作者能尽快开源TGA、RSDN以及RRN的代码以及预训练模型,期待ing!


关注极市平台公众号(ID:extrememart),获取计算机视觉前沿资讯/技术干货/招聘面经等

计算高效,时序一致,超清还原!清华NYU 提出 RRN:视频超分新型递归网络相关推荐

  1. NTIRE2021 视频超分竞赛简要回顾

    编辑:Happy 首发:AIWalker 本文对NTIRE2021视频超分竞赛进行了简单的介绍,总而言之一句话:BasicVSR是最大赢家. Dataset NTIRE2021的视频超分竞赛仍然延续N ...

  2. 传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:AI算法与图像处理 导读 本文将传统图像处理中的自相似性 ...

  3. 【论文解读】传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分...

    作者丨Happy 编辑丨极市平台 导读 本文将传统图像处理中的自相似性.金字塔等思路与深度学习相结合进行视频超分,得到了SOTA指标,并为传统图像处理思路与深度学习提供了一个新的结合点.>> ...

  4. 论文笔记:Revisiting Temporal Modeling for Video Super-resolution(重新审视视频超分辨率的时间建模) Part1 系咁嘅啦

    ** 摘要: 视频超分辨率在监控视频分析和超高清视频显示中起着重要的作用,在研究界和工业界都引起了广泛的关注.尽管已经提出了许多基于深度学习的VSR方法,但是由于不同的损失函数和训练数据集对超分辨率结 ...

  5. [翻译]2020年综述:基于深度学习的视频超分辨率

    综述:基于深度学习的视频超分辨率 Video Super Resolution Based on Deep Learning: A Comprehensive Survey 论文链接:https:// ...

  6. 业内视频超分辨率新标杆!快手大连理工研究登上CVPR 2022

    来源:量子位 [导读]本文从一种新的视角统一了视频超分辨中的低分辨率和高分辨率的时序建模思路,提出了一种新的视频超分辨框架,以较小的计算代价,充分利用了低分辨和高分辨率下的时序互补信息.已在多个公开数 ...

  7. 入选CVPR 2022!一举打败16个同类模型,视频超分比赛冠军算法!

    来源:量子位 如何让模糊的老片变高清? AI的答案是超分辨率算法: 现在,在视频超分领域,有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩,登上了CVPR 2022. 它的名字叫做 ...

  8. 一举打败16个同类模型,视频超分比赛冠军算法入选CVPR 2022,来自商汤南洋理工大学...

    丰色 发自 凹非寺 量子位 | 公众号 QbitAI 如何让模糊的老片变高清? AI的答案是超分辨率算法: 现在,在视频超分领域,有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩, ...

  9. word2vec相似度计算_AAAI-2016 | 使用孪生递归网络的句子语义相似度计算方法

    本文<Siamese Recurrent Architectures for Learning Sentence Similarity>提出了一种使用孪生递归网络来计算句子语义相似度的方法 ...

最新文章

  1. Android入门教程 (二) 第一个App HelloWorld
  2. 饶毅:中国脑计划是我见过的最差科学经费管理,中国猴计划应该缓行
  3. 整理下java六种单例模式
  4. win7查看隐藏文件_隐藏在电脑里の秘密,放在你眼前,你也发现不了,就是这么奥给力...
  5. @RequestMapping 和 @GetMapping @PostMapping 区别
  6. 中国癌症大数据出来了!每年126万例癌症死亡本可避免
  7. 微信上让人反感的5种行为 敢不敢看看你是否也犯过
  8. leetcode刷题日记-1995. 统计特殊四元组
  9. ubuntu卸载vmware player
  10. 掘金小册爬虫,将小册转成pdf
  11. 还在为满意的渐变色发愁吗?10+个网站帮你轻松实现
  12. 为什么说“懒”是程序员应有的美德?
  13. android 越来越慢,为什么安卓手机总是越用越慢?怎么...
  14. B站网页下载视频(flv格式)
  15. 【洛谷】P1419 寻找段落
  16. vosk实时语音识别
  17. .net 5+ 知新:【2】 .Net Framework 、.Net 、 .NET Standard的概念与区别
  18. 什么是SystemUI
  19. 一条 Select 语句 在 Postgresql 中的执行链路
  20. 机器人学习笔记——机器人概述

热门文章

  1. Java VisualVM插件地址
  2. SQLServer转义问题
  3. pojo java,什么是java pojo类,java bean,普通类?
  4. python sorted下标_全!Python基础之原生数据类型、判断和循环、函数和文件操作合集...
  5. 2021-11-09类作为成员变量类型
  6. JavaWeb(七)——Cookie、Session
  7. windows下利用sox批量将PCM转为WAV
  8. SVM 实现与代码(转)
  9. Java基础day10
  10. 112页数学知识整理!机器学习-数学基础回顾.pptx