关注公众号,发现CV技术之美

论文链接:https://arxiv.org/abs/2103.14858

代码链接:https://github.com/ding3820/MIMO-VRN

编者言: 本文以视频缩放任务为切入点,将IRN视频超分话化。与normal的VSR不同点在于将降采样也加入学习任务,这或许是后VSR时代一个不错的研究方向。

01

看点

最近的大多数研究都集中在基于图像的上下采样联合优化方案上,这些方案不考虑时间信息,为此,本文提出了基于耦合层可逆神经网络的两种联合优化方案。

长短期记忆视频缩放网络(LSTM-VRN)利用低分辨率视频中的时间信息,对缺失的高频信息进行预测;多输入输出视频缩放网络(MIMO-VRN)是一种同时对一组视频帧进行缩放的策略。

它们不仅在定量和定性结果上都优于基于图像的可逆模型,并在视觉质量方面提供可与双三次缩小视频相媲美的LR视频,而且比没有联合优化的视频缩放方法有很大的提升。这项工作是第一次尝试联合优化视频的缩放任务

02

方法

IRN

在介绍本文的方法前,先了解一下在SISR中的相似方法。视频缩放任务将固定的降采样方法转化为可学习的模型,以使LR图像适应联合学习的上采样过程。训练目标通常要求LR图像也适合人类的感知。

最近,IRN在这个联合优化任务中引入了一个可逆模型。它能够通过相同的神经网络配置来实现图像的上下采样,它提供了一种方法来明确地建模高斯噪声降采样而丢失的高频信息。IRN的前向模型包括一个二维Haar变换和8个耦合层,如下图所示。

通过二维Haar变换,首先将输入的HR帧分解为一个低频分量和三个高频分量。这两个分量随后通过耦合层进行处理,输出视觉上悦目的LR图像和HR图像中固有的互补高频信息。

从理论上讲,由于模型是可逆的,反向耦合层可以从y和z无损失地恢复。但在实践中,在推断时unavailable。IRN的训练要求遵循高斯分布,以便在推断时,可以得到一个高斯样本来代替缺失的高频分量。

本质上IRN是一种基于图像的方法,所以虽然IRN在图像缩放任务上取得了较好的效果,但对于视频缩放并不是最优的。

Overview

LSTM-VRN和MIMO-VRN的结构如下图所示

LSTM-VRN

与大多数视频超分辨率技术一样,LSTM-VRN(上图(a))采用SISO策略通过可逆网络的正向模型进行降采样操作,之后采用MISO的上采样方法。

具体的说,首先通过一个基于LSTM的预测模块融合当前LR帧其相邻帧,,形成对缺失高频成分的估计,将与一起输入进可逆模块重建SR帧。

其中需要从多个LR帧中推算以去决定LR视频中应该保留哪些信息以提升预测效果。在推理时间t时,预测模块前项模式为:

其中为sigmoid函数,为标准卷积,为矩阵乘法。随后,正向传播的与反向传播的通过一个1X1的卷积输出预测。注意到LSTM-VRN仅利用LR视频帧的时间信息进行缩放,而其降采样仍然是基于SISO的方案,没有利用到HR视频帧的时间信息。

MIMO-VRN

在这里,本文提出了一种新的基本处理单元,称为帧组(Group of Frames, GoF)。首先,将HR视频分解为非重叠的帧组,...,每个帧组包含g个帧,每个帧组都独立的进行降采样。

在一个GoF中,每个视频帧首先使用二维Haar小波单独变换,得到低频分量和高频分量。然后将整个组输入到耦合层中,通过两个降尺度模块,得到一组量化的LR帧和一组高频分量。

值得注意的是,由于组耦合的性质,与之间不存在一一对应关系。上采样的过程也是在帧组基础上进行的。如上图(b)所示,本文采用基于残差块的预测模块对对应的LR帧组中缺失的高频分量进行预测。

与降采样的帧组输入的概念类似,LR帧组和估计的高频分量组输入进可逆网络以逆模式运行。这种基于MIMO的上采样方法可以同时重构一组HR帧。

损失

LSTM-VRN的训练包含两个损失函数。首先,为了确保LR视频具有视觉上的美观性,将LR损失定义为:

其次,为了使HR重构质量最大化,使用Charbonnier来定义HR损失。总的损失为λ,其中λ为超参数。

MIMO-VRN的训练与LSTM-VRN具有相同的和损失,因为它们有共同的优化目标。然而,我们注意到MIMO-VRN往往在GoF的视频帧上具有不均匀的HR重建质量(见消融实验)。为了缓解GoF中的质量波动,在MIMO-VRN中引入了以下中心损失:

其中g是组的大小,表示一个GoF中平均HR重构误差,M表示一个序列中GoF的个数。这个损失鼓励GoF中每个视频帧的HR重构误差近似于平均水平。

03

实验

中心损失的消融实验

预测模块的消融实验

Vid4上的定量评估

包含中心损失的MIMO-VRN方法成为MIMO-VRN-C,†表示采用联合优化的缩放模型。

END

欢迎加入「超分辨率交流群

CVPR2021 | MIMO-VRN 用于视频缩放任务的联合训练策略相关推荐

  1. 深度学习用于视频检测_视频如何用于检测您的个性?

    深度学习用于视频检测 视频是新的第一印象! (Videos are the New First Impressions!) Think about the approximate number of ...

  2. ICCV2021 |上交、北理、百度联合研究视频缩放任务中的自条件概率学习

    关注公众号,发现CV技术之美 今日分享论文『Self-Conditioned Probabilistic Learning of Video Rescaling 』, 本文将视频缩放任务与视频压缩任务 ...

  3. Transformer如何用于视频?最新「视频Transformer」2022综述

    视频Transformer最新综述论文 Transformer模型在建模长范围交互方面取得了巨大的成功.然而,他们的规模与输入长度的平方和缺乏归纳偏差.在处理高维视频时,这些限制可能会进一步加剧.正确 ...

  4. (ICCV-2019)用于视频识别的 SlowFast 网络

    用于视频识别的 SlowFast 网络 paper题目:SlowFast Networks for Video Recognition paper是FAIR发表在ICCV 2019的工作 论文地址:链 ...

  5. 【北大微软】用于视频目标检测的记忆增强的全局-局部聚合

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 北大&MSRA,入选 CVPR 2020,ImageNet VID SOT ...

  6. 什么是故事板?(故事图、Storyboard)(软件显示效果的视觉草图,用于视频创作和广告设计,表达作者的创意)

    故事板是软件显示效果的视觉草图,用于视频创作和广告设计,表达作者的创意.20世纪90年代以来,电脑绘制软件渐渐取代了过去的手绘故事板,许多大制作的商业影片,都在拍摄之前用电脑动画模拟的方式创建故事板, ...

  7. 北大FAIR自动化所快手提出基于动量对比学习的层次Transformer—HiT,用于视频文本检索!代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 随着互联网上多媒体数据的增长,视频文本检索已经成为一个热门的研究课题.用于视频文本学习的Transformer因其良好的性能而受到越来越多的关注.然而,现有 ...

  8. ACM MM2021 HANet:从局部到整体的检索!阿里提出用于视频文本检索的分层对齐网络HANet!代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 视频-文本检索是视觉语言理解中一项重要但具有挑战性的任务,它旨在学习一个相关的视频和文本实例相互接近的联合嵌入空间.目前的大多数工作都只是基于视频级和文本级 ...

  9. ICCV2021 |优胜劣汰,MIT团队提出自适应多模态选取框架用于视频理解

    关注公众号,发现CV技术之美 AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition 项目主页:https://rp ...

最新文章

  1. 用Matplotlib轻松复刻分析图,看看哪个城市买房最自由
  2. Java 24岁!Google加持的Kotlin真能取代它?
  3. 网站出现service unavailable的解决方法
  4. CSAPP实验二进制炸弹
  5. 在WinCE5.0和WinCE6.0下,编译选项介绍
  6. project设置6天工作制日历
  7. [深度学习-优化]梯度消失与梯度爆炸的原因以及解决方案
  8. Ubuntu下构建gstreamer开发环境
  9. 如何在WPF 表格中嵌套按钮
  10. Python实现中文文档的简体与繁体互相转换
  11. ASP.NET MVC框架(第一部分)
  12. Fragstats景观多样性
  13. Mac版本Jmeter下载安装教程
  14. html5 3d 签到墙,签到小程序/微信签到/扫码签到/3D签到墙
  15. 坚持一件事比决定一件事难多了
  16. 对待二手车过户要理性
  17. Golang 等比例调整图片分辨率且用黑色补齐多余部分
  18. 【Java】JUC(java.util.concurrent)工具包中的并发相关
  19. Qmail系统完整篇
  20. 第四天 hadoop HDFS上传下载原理

热门文章

  1. mysql中in的使用
  2. Matlab--三种工具绘制errorbar图
  3. Matlab--获取300dpi或600dpi图形插入word2010中
  4. make、make clean、make uninstall的使用
  5. NLP - 新闻文本分类-baseline
  6. java锁对象的区别吗_Java中对象级别锁和类级别锁之间的区别
  7. python输入姓名 性别身高_python简单实现学生管理系统
  8. python获取列表长度方法_python - 在Pandas df列中获取有关列表长度(平均长度,最大长度等)的统计信息的大多数pandas-onic方法 - 堆栈内存溢出...
  9. 电脑编程学习_零基础到底是否可以学习电脑编程?答案扎心了!
  10. php shell exec 阻塞,php shell_exec()vs exec()