视频超分,Transformer再下一城之VSR-Transformer
论文:https://arxiv.org/pdf/2106.06847.pdf
代码:https://github.com/caojiezhang/VSR-Transformer
编者言:ETHz(苏黎世联邦理工大学)出品,第一篇在VSR中使用的Transformer模型,方法与思想值得学习。模型与实验没有文章中大批量的数学公式那样惊艳,有数学推理癖好的读者建议直接阅读原文。
看点
Transformer应用在VSR中有两大问题:
全连接的自注意层由于依赖线性层来计算注意图而忽略了对局部信息的利用。
由于词前馈层独立的处理每个输入,导致其缺乏特征对齐的能力。
为了解决第一个问题,本文提出了一个时空卷积自注意层以利用局部信息。对于第二个问题,本文设计了一个双向光流的前馈层来挖掘不同帧之间的相关性并对齐特征。本文是第一个在VSR中应用Transformer的模型。
方法
overview
本文提出的VSR-Transformer由特征提取器、Transformer编码器和重建网络组成。其中特征提取器由堆叠的残差块组成。
时空卷积自注意层
由于全连接的自注意层不能使用每个帧的空间信息,本文提出了一个新的时空卷积自注意层(STCSA)。给定特征图X,使用三个独立的CNN来捕捉每一帧的空间信息。Q,K,V的生成通过如下公式:
其中,是展开操作,然后计算相似度矩阵σ并与值V聚合以获得特征图。最后,采用折叠操作将这些滑动局部patches组合起来,并使用输出层来输出最终特征图,公式如下:
其中,τ◦是reshape操作τ和展开操作的组合。本文中使用单头(h=1)获得了良好的性能。
时空位置编码
VSR-Transformer的结构是置换不变的,而VSR任务需要精确的时空位置信息。为了解决这个问题,本文使用3D固定位置编码将其添加到注意层的输入中。具体地,位置编码包含两个空间位置信息(水平和垂直)和一个时间位置信息,表述如下:
其中,,k是[0,d/6)中的一个整数,‘pos’表示维度位置,d是通道维度。### 双向光流前馈层 传统Transformer中的全连接前馈层忽略了利用不同帧的相关性,为了解决这个问题,本文通过使用光流进行空间对齐,提出了双向光流前馈层,如下图左所示。
具体地说,给定时空卷积自注意层输出的特征映射X,首先学习相邻帧之间的双向光流
然后通过翘曲得到后向特征
和前向特征
在本文的实验中使用SPyNet来进行光流估计。然后将视频帧和扭曲的特征图进行聚合。作者修改了全连接的前馈层为:
其中,是一个融合模块。在实验中将两层网络的情形推广到由残差ReLU网络组成的多层神经网络和,公式如下:
与ViT相比,本文能够捕获不同帧之间的相关性。相比BasicVSR,本文避免了对光流和特征的递归,因此允许并行计算。
实验
REDS上的测试 在都用5帧来训练的模型上,VSR-Transformer拥有较好的性能,这是因为BasicVSR和IconVSR更加适应长期的视频序列,但是VSR-Transformer的参数量缺惊人的高,这是一大待处理的弊端。
Vid4上的测试
在Vid4上的BI降采样的定量结果,作者分析不如BasicVSR的原因可能是BasicVSR和IconVSR在Vid4的所有帧上测试,而VSR-Transformer只在7帧上测试,亦或是Vimeo-90K-T和Vid4之间可能存在分布偏差。
在只有7帧的Vid4上进行测试。(这个实验有点牵强,自己模型处理长期视频效果不好就得把测试集剪切来证明自己的优越性,建议作者直接改成一帧的然后和单图超分去比)
消融实验
使用定性的方式来进行光流的消融实验。
在REDS上进行其他组件的消融实验。
备注:SR
超分辨率交流群
扫码备注拉你入群。
在看,让更多人看到
视频超分,Transformer再下一城之VSR-Transformer相关推荐
- 不用卷积,也能生成清晰图像!Transformer再下一城
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 「attention is really becoming『all you need』.」 最 ...
- Transformer再下一城!low-level多个任务榜首被占领,北大华为等联合提出预训练模型IPT
来自Transformer的降维打击!北京大学等最新发布论文,联合提出图像处理Transformer.通过对low-level计算机视觉任务,如降噪.超分.去雨等进行研究,提出了一种新的预训练模型IP ...
- Transformer再下一城!DeepMind新模型自动生成CAD草图,网友:建筑设计要起飞了
本文转载自:机器之心 | 作者:力元 深度学习的灵活性恰好适合于复杂的 CAD 设计,DeepMind 的研究者基于 CAD 草图与自然语言建模的相似性,提出了自动生成 CAD 草图的机器学习模型 ...
- ICCV 2021 Oral | Transformer再下一城!百度南大提出神经绘画网络:Paint Transformer
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 杨净 发自 凹非寺 转载自:量子位(QbitAI) AI已经能教你画油画了. 随便给一张图,笔画序列秒秒钟呈 ...
- 28.41dB,视频超分最新力作:PFNL+双向信息传播=OVSR
paper:https://arxiv.org/abs/2103.15683 本文是武汉大学&哈尔滨工业大学&武汉理工在视频超分领域的一次突破性的成果.在深入分析多帧超分.递归超分以及 ...
- 刷新视频超分新记录28.41dB!一种全局视频超分方案OVSR
导读 本文是武汉大学&哈尔滨工业大学&武汉理工在视频超分领域的一次突破性的成果.在深入分析多帧超分.递归超分以及混合框架超分存在的问题之后,本文创造性的提出了同时利用过去和未来隐状态的 ...
- NTIRE2021 视频超分竞赛简要回顾
编辑:Happy 首发:AIWalker 本文对NTIRE2021视频超分竞赛进行了简单的介绍,总而言之一句话:BasicVSR是最大赢家. Dataset NTIRE2021的视频超分竞赛仍然延续N ...
- 传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:AI算法与图像处理 导读 本文将传统图像处理中的自相似性 ...
- 入选CVPR 2022!一举打败16个同类模型,视频超分比赛冠军算法!
来源:量子位 如何让模糊的老片变高清? AI的答案是超分辨率算法: 现在,在视频超分领域,有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩,登上了CVPR 2022. 它的名字叫做 ...
最新文章
- MyBatis包含这9种设计模式,你知道几个?
- 微软.net一些类的源码
- [转]开发者需要了解的WebKit(mark)
- Python--一些重要的小tips【持续更新】
- QT自定义控件(生成和使用)
- 360移动技术开放日 聚焦移动前沿技术(有福利)
- python视频帧提取并保存_如何用python实现视频关键帧提取并保存为图片?
- angular1.x todolist 实现
- Python Apex YOLO V5 6.2 目标检测 全过程记录
- 计算机从加电到启动系统时主板的工作流程,企业网络管理员面试题
- visual studio code Python终端运行_深入比较kaldi和python_speech_features提取的fbank特征之间的区别...
- springcloud5-服务网关zuul及gateway
- readyState的5种状态含义
- c语言内部函数与,内函数和外函数关系 有关C语言的内部函数和外部函数的定义说明...
- MATLAB强化学习入门——四、用DQN实现网格迷宫算例
- java 下拉复选框_JAVA个人小程序GUI篇-收银(标签、按钮、复选框、下拉标、文本域、表格······)...
- 股票-每日复盘-5-24
- flex 解析 html5,Flex布局详解
- 【SQL Server】数据库开发指南(二)MSSQL数据库开发对于库、表、数据类型、约束等相关操作
- 分享制作系统启动U盘的方法
热门文章
- OpenCV--Mat类相关操作
- 数字图像处理--图像二阶导数的推导
- RANSAC估计——以直线拟合为例
- Spring Boot的启动器Starter详解
- android intent-filter category,android intent-filter category.DEFAULT
- webbrowser中localhost和发布的地址_004、Spring Boot中的项目属性配置
- 大数据人工智能物联网论文_物联网学报“大数据”相关论文汇总
- php识别字符编码,PHP自动识别字符集编码并完成转码_PHP教程
- 远端WWW服务支持TRACE请求漏洞修复(linux)
- 多个字符合并成一个数组_一个excel多个sheet,需要合并为一个sheet