点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

作者:披星戴月的奔波  |  已授权转载(源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/563455469

本文介绍我们 ICML 2022 关于 Video Deblurring的工作:《Flow-Guided Sparse Transformer for Video Deblurring》。我们的文章于2022年1月份上传至Arxiv,是第一个用于视频去模糊任务的Transformer模型。

文章:https://arxiv.org/abs/2201.01893

代码:https://github.com/linjing7/VR-Baseline

单位:清华、华为诺亚、ETH

1. 简介

视频去模糊是底层视觉和图形学领域一个重要的任务,用于从模糊视频序列中恢复出清晰的视频,在手持相机、目标跟踪、自动驾驶等任务上具有广泛的应用。近年来,由于手持相机的普及,其拍摄过程中由于相机抖动、目标高速运动导致的运动模糊问题越来越引起人们的重视。

图2 视频去模糊效果

为了去除运动模糊,研究者付出了很多的努力,主要可以分为以下两类:

(1) 传统方法:主要基于人工设计的先验和假设,这极大的限制模型的表示能力。此外,为了估计运动模糊,需要求解一个复杂的能量函数,一旦运动模糊核估计不准确,将带来大量的伪影。

(2) 基于卷积神经网络的方法:随着深度学习的发展,基于卷积神经网络的方法在视频去模糊领域取得了令人振奋的发展。然而,对于视频去模糊任务来说,捕获长距离的依赖关系以及自相似性时非常重要的,这使得模型能够从相似且清晰的区域获得信息补充,来对模糊区域进行重建。而这些能力显然是卷积神经网络所欠缺的。

我们注意到,Transformer模型的自注意力机制,正好可以用于捕获空间的长距离依赖关系以及自相似性。因此,我们首次尝试使用Transformer模型到视频去模糊这一任务。然而,直接使用原始的Transformer模型,会存在以下的问题:

(1) 如果直接使用global Transformer,那么计算复杂度与时空维度成二次方的关系,这容易带来不可承担的计算量。此外,global transformer由于参考所有key tokens,这将增大收敛难度,也可能带来过度平滑问题。

(2) 如果直接使用window-based local Transformer,那么可以减少计算量,但这又存在感受野过小的问题。在运动模糊情景中,视频帧间往往会存在较大的相对运动,而空间感受野过小将导致模型无法参考到相邻帧上一些相似、清晰的key tokens,从而限制了模型的表示能力。

我们将这一问题总结为:目前的Transformer在计算自注意力机制时,缺少运动信息的指引。而我们注意到,运动信息往往可以通过光流进行估计。因此,我们提出用光流来引导注意力机制的计算,在计算注意力机制的时候,每一个query token只参考光流指定的key tokens,而不是参考所有的tokens。此外,为了增大Transformer模型的时域感受野,受启发于循环神经网络,我们提出了循环嵌入机制。我们的主要贡献点可以概括为如下:

  • 我们提出了FGST,第一次将Transformer模型用于视频去模糊任务。

  • 我们提出了一种新的光流引导的注意力机制,称为FGS-MSA,及其改进版本,FGSW-MSA

  • 我们设计了一种新的嵌入机制,称为Recurrent Embedding,用于传递帧间信息,建立长距离的时域依赖关系。

  • FGST在两个常见的视频去模糊数据集(DVD和GOPRO)上超过了SOTA方法,并且在真实数据集上有着更好的视觉效果。

2. 方法

2.1 网络的整体结构

2.2 光流引导注意力

前面我们已经分析,原始的全局Transformer由于会参考所有的key elements,因此容易导致计算量过大以及难以收敛的问题;而基于窗口的局部Transformer则由于感受野过小,当帧间存在较大的相对运动时,容易错过相邻帧上一些相似的key tokens,而无法获得有效的信息补充。为了解决以上问题,我们提出光流引导的注意力机制FGS-MSA。如图4 (a) 所示,我们首先通过光流网络估计出帧间相对运动矢量,再根据帧间相对运动矢量,从相邻帧索引对应的key elements:

接着,对于每一个query elements,在计算注意力时,只参考这些高度相关的key elements即可:

图4 光流引导注意力及光流引导窗口注意力

在FGS-MSA中,每一个query element在参考相邻帧时,只索引一个光流指定的key elements,当光流估计不准确时,效果将显著降低。为了提高鲁棒性,如图4 (b) 所示, 我们提出光流引导的窗口注意力机制。我们首先对query feature map切成窗口:

对于每一个query element,不仅参考本身对应的key elements,也参考位于同一窗口内部的其他queries对应的key elements:

在这种情况下,即使某个query element对应的光流矢量不准确,也能参考到窗口内部其他queries对应的内容相关的key elements,提高了模型的鲁棒性。

2.3 循环嵌入机制

在计算注意力时,为了节省计算量,我们只参考相邻帧,因此,虽然空间维度有了较大的感受野,但时间维度上的感受野较小,这限制了模型的表示能力。为了扩大时域感受野,受启发于循环神经网络,我们提出了循环嵌入机制 (Recurrent Embedding). 如图3 (c) 所示, 我们将RE嵌入到FGST的每一层中,通过将上一帧的输出连接到当前帧的输入,融合成query,再输入FGAB,从而实现序列化地将信息从第一帧传递到最后一帧,扩大了FGST的时域感受野:

3. 实验

3.1 定量实验对比

在DVD数据集的定量对比结果如下表所示:

在GOPRO数据集上的定量对比结果如下表所示:

可以看出,我们的FGST显著超过了之前的方法。

3.2 定性对比实验

在DVD数据集上的定性对比结果如下图所示:

在GOPRO数据集上的定性对比结果如下图所示:

在真实数据集上与其他方法的定性对比结果如下:

可以看出,我们的方法有着更好的视觉效果,特别是在有着剧烈运动的区域。

4. 总结

FGST是将Transformer模型用于视频去模糊领域的首个工作,通过光流对注意力机制进行引导,克服了全局Transformer和局部Transformer的缺陷,实现线性复杂度和全局空间感受野。此外,受启发于RNN,提出了循环嵌入机制,扩大了Transformer模型的时域感受野。

由于该工作是在实习期间做的,受限于公司规定,原始的预训练模型无法开源,但我们已经提供了训练代码,并且也重新训练了部分预训练模型,已经开源,在后续算力充裕时,我们将会训练更多的预训练模型,将开源做的更好,促进视频去模糊领域的发展。

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

ICML 2022 | 清华提出FGST:首个视频去模糊的Transformer相关推荐

  1. NeurIPS 2022 | 清华提出P2P:基于预训练图像模型的点到像素提示学习方法

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 在这里和大家分享一下我们被NeurIPS 2022录用的点云理解工 ...

  2. CVPR 2022 | 清华提出Point-BERT: 基于掩码建模的点云自注意力模型预训练

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:于旭敏   |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhihu. ...

  3. X-Pool:多伦多大学提出基于文本的视频聚合方式,在视频文本检索上达到SOTA性能!(CVPR 2022)...

    关注公众号,发现CV技术之美 本文分享 CVPR 2022 论文『X-Pool: Cross-Modal Language-Video Attention for Text-Video Retriev ...

  4. #今日论文推荐#ECCV 2022 | 清华字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏

    #今日论文推荐#ECCV 2022 | 清华&字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏 知识蒸馏主要可以分为logit蒸馏和feature蒸馏.其中feature蒸馏具有更好的拓 ...

  5. ICML 2022|达摩院多模态模型OFA,实现模态、任务和架构三个统一

    作者:霜清.钟煌.鸿侠 通用统一的预训练大模型逐渐成为AI研究的一大趋势,本文将介绍达摩院提出的多模态模型OFA,是如何实现架构.模态.任务的三个统一. 近年来,基于大规模无监督数据的预训练逐渐成为深 ...

  6. ​一文梳理ICML 2022中图机器学习热点和趋势

    ©作者 | Mikhail Galkin,Zhaocheng Zhu 译者 | Zhaocheng Zhu 单位 | Mila研究所/麦吉尔大学/蒙特利尔大学 研究方向 | 图机器学习,知识图谱 每年 ...

  7. 直播预告 | ICML 2022 11位论文一作带你走进机器学习领域顶级会议

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 8月18日10:00,本期我们邀请到ICML 2022的十一位讲者给大家带来精彩的分享! 哔哩哔哩直播通道 扫码关注AI TIME哔哩哔 ...

  8. G-Research:ICML 2022论文推荐

    量化投资与机器学习微信公众号,是业内垂直于量化投资.对冲基金.Fintech.人工智能.大数据等领域的主流自媒体.公众号拥有来自公募.私募.券商.期货.银行.保险.高校等行业30W+关注者,荣获202 ...

  9. M2TR: 复旦提出首个多模态多尺度Transformer

    M2TR: 首个多模态多尺度Transformer CNN?是模仿也是超越 文章地址: https://arxiv.org/pdf/2104.09770.pdf 写在前面 这篇文章的文字里会更多浸润和 ...

最新文章

  1. IDEA 引入传统 j2ee spring mvc
  2. 2020最新Java面试题(java,JavaWeb,数据库,框架),常见面试题及答案汇总
  3. php语言 电商网站,电商网站如何做多语言架构
  4. caffe基础(7): 命令行解析
  5. OSChina 周三乱弹 —— 爸爸说,这个是从他硬盘里掉出来的
  6. 评估一个垃圾收集(GC)
  7. 使用docker搭建FastDFS文件系统
  8. 【java】JMH微基准测试,报错Unable to find the resource: /META-INF/BenchmarkList
  9. java程序设计_Java程序设计--final(笔记)
  10. 中国AI人才仅美国1/17,网易要填这个坑?
  11. 树莓派添加RTC时钟模块的方法
  12. 数据中心存储改造方案
  13. 用c语言写一个文件加密程序,用C语言设计程序进行文件的加密
  14. 免费https ssl证书freessl.org的申请及配置
  15. 程序员是做什么的?怎么成为程序员?
  16. jwt怎么获取当前登录用户_获取jwt(json web token)中存储的用户信息
  17. Infer静态分析-内存泄漏分析
  18. C# 之 概率随机数
  19. 输入身份证判断性别python最后一位是英文怎么写_身份证号码最后一位,是表示性别用的吗?...
  20. 使用Python获取股市北向资金和南向资金信息

热门文章

  1. Java 将文本内容、网址 ;生成二维码 解析二维码
  2. ZooKeeper 可视化工具
  3. 第三章、C#简单界面在线聊天室C#一对多聊天(使用TCP转发实现的在线聊天室,文章末尾附免费项目资源)
  4. win7安装ubuntu后无法启动的解决方法
  5. 酷点0.95发布,矩形框换肤、设置、独立开启……更酷啦
  6. 使用Quartus将用户模块封装成网表文件:Quartus17.0及之前版本.qxp文件、Quartus17.1及之后版本.qdb文件(下)
  7. 一键提取,将视频中的音频提取
  8. 【查找域名】根据ip反向查找域名方法
  9. QMediaPlayer视频播放器
  10. ref和reactive的区别