关注公众号,发现CV技术之美

作者单位:快手、大连理工、港理工、北大、鹏城实验室

论文:https://arxiv.org/pdf/2204.07114.pdf

笔者言: 之前的循环VSR方法大多将相邻帧参考帧以及前一时刻的SR输出作为输入,本文将未来的SR输出也参与进参考帧的重建,通过伪相邻SR的方式精进细节,这让笔者眼前一亮。

 看点

大多数VSR都采用光流或可变形卷积进行运动补偿。然而,这种时间建模技术增加了模型的复杂性,并且在遮挡或复杂运动的情况下可能会失败。本文旨在探索显式时间差分建模在LR和HR空间中的作用,通过计算帧之间的时间差异,并根据差异程度将这些像素划分为两个子集,而不是直接将连续帧作为输入。

这两个子集分别由不同感受野的两个分支处理,以便更好地提取补充信息。此外,为了提高重建效果,不仅提取了空间残差特征,还计算了高频域中连续帧之间的差异。它允许模型利用未来和过去的中间SR结果来优化当前SR输出。不同时间步的差异被存储,以便将来自更远时间的信息传播到当前帧进行细化。

 方法

Overview

显式时间差分建模(ETDM)以单向循环的方式进行。对于每一个时间步,ETDM获取参考帧、相邻帧和之前估计的SR结果作为输入,框架如下图所示:

在LR空间中,提出的区域分解模块计算参考帧和相邻帧之间的差异。此外,它根据差异程度将相邻帧分解为低方差(LV)和高方差(HV)区域。然后,它们分别由两个具有不同感受野的CNN分支处理,以便更好地提取补充信息。

该模型预测HR空间中相邻时间步的SR输出之间的时间差异,这使得当前步骤的超分辨率能够受益于过去和未来时间步的初始SR结果。此外,通过缓存两个指定时间步之间的所有时间差,可以自然地将前向和后向传播从一个时间步扩展到任意时间顺序。

显式时间差分建模

时间差分VSR的目标是利用相邻帧的互补信息为参考帧重建更丰富的细节。下图显示了两个连续帧之间像素级的差分图。这张图motivate作者根据时间差分将相邻帧的区域划分为低方差(LV)和高方差(HV)。LV区域的整体外观变化较少。因此,帧之间的主要区别在于精细的细节。至于HV区域,帧之间的整体外观差异很大,可能会从不同角度提供粗略的补充信息。

对二值化的时间差分图应用3×3大小的中值滤波器,并通过一组形态学操作对结果进行进一步处理,以获得LV区域的差分掩模,HV区域的差分掩膜被计算为,相邻帧的LV与HV区域被计算为:

由于自然图像的平滑度,LV区域更可能对应于帧间小运动的区域,而HV区域可能对应于大运动的区域。因此,它们应该由具有不同感受野的不同模型处理。LR空间中的时间建模这里以t时刻的LV区域分支为例。LV区域分支的输入为掩膜帧和前一步长的隐藏状态,叠加起来由一个卷积层和几个残差块进一步处理。

通过这种方式,循环单元能够从随时间变化和运动较小的区域中收集补充信息。HV区域的分支以类似的方式设计,但所有卷积层都配备了参数为2的扩张率,以处理具有更大感受野的大运动。LV和HV分支的输出分别表示为和。

HR空间中的时间建模HR空间中的时间差分在相邻时间步之间建立了一座桥梁,这样信息就能够传播到当前时间步进行细化。每个分支的输出和被合并并送至三个残差头,即空间残差头(Spatial-Residual Head)、过去残差头(Spatial-Residual Head)和未来残差头(Future-Residual Head)。

空间残差头用于计算双三次上采样参考帧和GT之间的空间残差,表示为。未来残差头计算相应的高分辨率时间差()和双三次上采样时间差(),这也相当于不同时间步的空间残差之间的时间差,表示为:

402 Payment Required

类似地,过去残差头计算时间差分的空间残差

通过利用HR空间中相邻时间步之间的时间差,可以将过去和未来时间步的初始SR估计传播到当前时刻,以细化SR结果。

前后细化

本节将详细介绍HR空间的时间差分和其他时间步的估计如何有助于优化当前时刻的SR结果。基于双向的VSR结果较好,这归功于其双向传播,这使得模型能够从整个序列中聚合信息。

然而,它必须缓存所有中间隐藏状态,这限制了它在许多场景中的应用。本文提出的方法允许传播双向信息以增强当前帧,但它只使用单向循环网络,不需要大量缓存。具体来说,根据HR空间中的预测时间差,相邻时间步长可以传播到当前时刻,如下所示:

402 Payment Required

其中和分别表示从过去和未来到当前时间步长t的传播空间残差。对于上标表示过去使用的信息的时间步长,下标表示它转发到的目标时间。为了使用从其他时间步传播的信息进一步细化当前SR输出,将和和叠加起来作为卷积层的输入,然后是几个残差块,以获得细化的空间残差。

最终的SR图像是通过pixel-shuffled的添加到双三次上采样参考帧生成的。扩展到任意时序细化通过在多个时间步之间累积时间差,可以自然地将向前和向后传播从一个时间步扩展到任意时间。例如从到的正向传播公式如下:

402 Payment Required

为了充分利用从不同时间步传播到当前时间步的信息,本文保持了N个过去缓冲区和N个未来缓冲区来缓存所需的中间结果,空间剩余将使用N个过去和N个未来缓冲区中的所有元素,以进一步细化。缓冲区更新一旦获得时间步长t处的最终SR结果,循环模型将对下一帧执行相同的超分操作。

在这种情况下,模型不仅需要更新隐藏状态,还需要更新缓冲区来缓存来自不同时间步的所有中间空间残差。缓冲区更新遵循先进先出原则,对于缓冲区中剩余的元素,它们的更新过程如下:

402 Payment Required

损失函数

监督来自空间重建和时间重建。对于每个时间步计算初始估计和细化的空间残差与GT之间的差异,作为空间重建损失:

402 Payment Required

其中,是GT空间残差。由于空间细化是基于过去和未来多个时间步长的空间残差估计来计算的,因此间接对模型的参数施加了更严格的监督。此外,时间残差也由相应的GT进行监督:

总损失为

 实验

消融实验

针对区域分解模块、正向和反向细化的消融实验:

将所提出的前后传播与其他类型的单向传播和双向传播方法进行了比较。为了进行公平比较,删除了所提出模型的LV和HV分解步骤,并尝试保持其参数数量与其他两种方法相同,如下图所示:

中间SR和细化SR结果的可视化如下图,可见前后细化产生更锐利的边缘和更精细的纹理。

定量评估

与BasicVSR++的29.04dB相差0.23dB,此处不展示基于transformer的方法了,毕竟参数量不是一个量级(吐槽:DAP都参与定量评估了,为什么不添加BasicVSR++呢)

定性评估


文末言

论文中还是有很多细节是值得考虑与深挖的,对下图表述感觉有疑问的可以详见原文

END

欢迎加入「超分辨率交流群

ETDM:基于显式时间差分建模的视频超分辨率(CVPR 2022)相关推荐

  1. CVPR2022 | 基于显式时间差分建模的视频超分辨率

    (如需转载等事宜请联系"我爱计算机视觉") 作者单位:快手.大连理工.港理工.北大等 论文链接:https://arxiv.org/pdf/2204.07114.pdf 笔者言: ...

  2. CVPR 2021 Oral | GLEAN: 基于隐式生成库的高倍率图像超分辨率

    摘要 · 看点 在 CVPR 2021 上, 南洋理工大学 S-Lab 和商汤科技等提出的隐式生成库(Generative Latent Bank), 针对高倍率图像超分辨中的质量和保真度问题提出了一 ...

  3. AI:2020年6月22日北京智源大会演讲分享之09:40-10:10Mari 教授《基于显式上下文表征的语言处理》、10:10-10:40周明教授《多语言及多模态任务中的预训练模型》

    AI:2020年6月22日北京智源大会演讲分享之09:40-10:10Mari 教授<基于显式上下文表征的语言处理>.10:10-10:40周明教授<多语言及多模态任务中的预训练模型 ...

  4. CAE 分析中 隐式和显式时间积分算法的python程序实现

    前两天,同事研究Dyna的显/隐式时间积分的差异和基本原理.想来自己也有三.四年没做这方面的编程了,对同事问的一些问题也一时犯迷瞪,索性就又看了一遍书,网上找了些资料,写了点代码,理了理思路,以备不时 ...

  5. 周明教授《多语言及多模态任务中的预训练模型》Mari 教授《基于显式上下文表征的语言处理》

    AI:2020年6月22日北京智源大会演讲分享之09:40-10:10Mari 教授<基于显式上下文表征的语言处理>. 10:10-10:40周明教授<多语言及多模态任务中的预训练模 ...

  6. 论文笔记:Revisiting Temporal Modeling for Video Super-resolution(重新审视视频超分辨率的时间建模) Part1 系咁嘅啦

    ** 摘要: 视频超分辨率在监控视频分析和超高清视频显示中起着重要的作用,在研究界和工业界都引起了广泛的关注.尽管已经提出了许多基于深度学习的VSR方法,但是由于不同的损失函数和训练数据集对超分辨率结 ...

  7. Unsupervised Degradation Representation Learning for Blind Super-Resolution(基于无监督退化表示学习的盲超分辨率处理)

    文章目录 Abstract(摘要) 1. Introduction 2. Related Work 2.1. Single Image Super-Resolution 2.2. Contrastiv ...

  8. [翻译]2020年综述:基于深度学习的视频超分辨率

    综述:基于深度学习的视频超分辨率 Video Super Resolution Based on Deep Learning: A Comprehensive Survey 论文链接:https:// ...

  9. 【图像重建】基于matlab L1范数自适应双边总变分超分辨率图像序列重建【含Matlab源码 2209期】

    一.正则化图像超分辨重建简介 1 超分辨率重建数学模型 设有N帧低分辨率观测图像yk(k=1,2,-,N),图像大小为M×M,将每帧低分辨率(LR)图像yk按列方向排成向量的形式,记作Yk,大小为[M ...

最新文章

  1. LTE-怎么获取上行资源
  2. KMP----next数组 最长相同前后缀 递归求法解释
  3. TensorFlow:Object_Detection_API在Windows10上的配置
  4. 【IdentityServer4文档】- 欢迎来到 IdentityServer4
  5. 使用ffmpeg进行图像格式转换以及图像缩放/sws_scale/linux/c++/c/rgb-yuv420
  6. 强制删除页面上出错的WebParts
  7. 真的凉了!熊猫直播宣布停服:主站流浪计划第一阶段开启
  8. 点击调试时提示MFC不包含调试信息
  9. PCL之积分图法线估计
  10. mybatis查询mysql数据库很慢_mybatis查询大量数据库
  11. atitit 技术选型之道. attilax著 艾龙著 1. 标准 2 1.1. 符合趋势度 2 1.2. 简单易用 2 1.3. 文档丰富度 2 1.4. 下载便利性 2 1.5. 性能 2 1.
  12. java设计模式之组合设计模式
  13. 如何恢复误删的注册表
  14. Tivoli Storage Manager[转]
  15. [项目过程中所遇到的各种问题记录]工具篇——.NET开发时常用的工具类库
  16. [Java]Spring Ioc讲解,不怕你不懂
  17. c语言getch常见错误,getch()出错
  18. 制图综合,制图综合的影响因素?
  19. 域名过期后还能续费域名吗?
  20. 浙江电信网速测试皮肤软件,浙江电信网速测试(进入中国电信官方测速网站)

热门文章

  1. tensorflows十五 再探Momentum和Nesterov's accelerated gradient descent 利用自动控制PID概念引入误差微分控制超参数改进NAGD,速度快波动小
  2. 张正友标定法公式详细推导
  3. Hibernate框架 一对多,多对多映射
  4. SpringMVC 运行原理及主要组件
  5. python loc iloc_【python】python vs Excel ( loc与iloc的使用)
  6. git管理工具_使用包管理工具
  7. ax3000 梅林_梅林甘蔗下种忙 古法红糖“熬”成致富新产业
  8. python copy函数用法_python shutil模块函数copyfile和copy的区别
  9. 计算机一级举报单位,2018年9月计算机一级Photoshop考试巩固练习题(三)
  10. mysql cst_一次 JDBC 与 MySQL 因 “CST” 时区协商误解导致时间差了 14 或 13 小时的排错经历...