Efficient Long-Range Attention Network for Image Super-resolution

Date: 2022/04/09
File Type: paper

Abstract

transformer性能好,但是计算力较高

SA(swlf-attention)计算的限制导致SR(super-resolution)性能不佳

提出ELAN(efficient long-range attention network)做图像SR

  • 使用shift-conv提取图像局部结构信息,其复杂性等同于1*1卷积
  • GMSA模块(group-wise multi-scale self-attention)——在非重叠的一组特征图上使用不同大小尺寸的窗口计算SA,用以建立长距离依赖关系
  • ELAB(efficient long-range attention block)= 2*shift-conv + GMSA,使用共享注意力机制进一步加速计算过程

Without bells and whistles, our ELAN follows a fairly simple design by sequentially
cascading the ELABs.

1 Introduction

CNN缺点

基于CNN的方法卷积核大小一成不变,对建立像素之间的关系不够灵活

为扩大感受野,不断增加深度和复杂度去恢复细节,直接导致计算量增加

传统transformer缺点

SR的输入图片尺寸较大,而ViT计算量和图片大小成平方倍数,不方便使用ViT模型

SwinIR代表的方法中,用1*1 卷积提取的特征感受野很小,进而影响后面SA的计算,且小窗口内计算SA会限制远距离建模的能力

SwinIR有很多冗余和零散的组件,比如相对位置编码,掩码机制,LayerNorm以及一些子分支neat

Restormer提出的通道空间上计算SA,但是在通道空间上计算SA会牺牲一些有用的空间信息,例如纹理和结构信息,这些信息对下游任务很重要

本论文

We therefore aim to build a highly neat and efficient SR model, where the LR to HR image mapping is simply built by stacking local feature extraction operations and SA sequentially.

两个shift-conv来提取局部特征(shift-conv感受野大复杂度低),GMSA 模块将特征图划分为不同窗口尺寸的组计算SA

共享注意力机制去加速计算

Arming with the shift-conv and GMSA with shared attention, an efficient long-range attention network, namely ELAN, is readily obtained for SR.

贡献

  1. We propose an efficient long-range attention block to model image long-range
    dependency, which is important for improving the SR performance.
  2. We present a fairly simple yet powerful network, namely ELAN, which
    records new state-of-the arts for image SR with significantly less complexity
    than existing vision transformer based SR methods.

2 相关工作

3 方法

3.1 ELAN概述

3.2 ELAB模块

局部特征提取

之前都是多层感知机和两个级联的11卷积提取局部特征,这样感受野只有11

我们使用两个shift-conv 和 ReLU激活函数扩大感受野

shift-conv:输入图划分为5组,沿着不同的空间维度移动前四组,包括上下左右,最后一组不动。然后紧接着1*1卷积,这样可以利用邻近像素的信息。

不用引入额外的参数和计算量,shift-conv能带来很大的感受野同时保持1*1卷积相当的复杂度

GMSA

一个 C×H×WC \times H \times WC×H×W 的特征图,划分非重叠窗口大小 M∗MM*MM∗M ,则基于窗口的自注意力计算复杂度为 2M2HWC2M^2HWC2M2HWC

窗口大小MMM决定SA计算的距离,MMM越大,提取的自相似性信息就越多

但是直接增加MMM会带来计算量平方倍的增长

我们提出解决方案是GMSA ,首先把特征图划分为KKK组,然后在第KKK组特征图上使用MkM_kMk​大小的窗口,然后不同组通过1*1卷积堆叠合并。

通过这个方法,我们设置不同大小的窗口大小来灵活控制计算量,

该方法计算量:(其中通道数为CK\frac{C}{K}KC​)

ASA(Accelerated self-attention)

放弃LN ,因为它将SA计算分割成很多元素操作,对高效推理不友好,而采用BN来稳定训练过程

其次,SwinIR[28]中的SA是在嵌入式高斯空间上计算的,其中采用了三个独立的1×1卷积,分别用θ、j和g表示,将输入特征X映射到三个不同的特征图。我们设定θ=j,在对称的嵌入式高斯空间[30,5]中计算SA,这样可以节省一个1×1的卷积在每一个SA中。这一修改进一步减轻了SA的计算和内存成本,而不影响SR的性能。我们的ASA如图1(e)所示。

Shared attention

在相邻的SA模块之间共享注意力分数,如图2,第 iii 个SA模块计算出的注意力分数直接被后面的n个SA模块以相同的规模重新使用。

通过这种方式,我们可以在接下来的n个SA中避免2n个重塑和n个1×1卷积操作。我们发现,所提出的共享注意力机制在使用少量的n(如1或2)时,只导致SR性能的轻微下降,而在推理过程中却节省了很多计算资源。

Shifted window

窗口与窗口之间并没有联系,于是引入shifting scheme

我们首先沿对角线方向对特征进行圆周移位,并对移位后的特征进行GMSA计算

然后,我们通过反循环移位将结果移回。

窗口大小为一半的循环移位导致了新的特征图分区,并在之前的GMSA模块中引入了相邻非重叠窗口之间的联系。

边界像素对性能影响忽略不计,因为他们只占整个特征图的一小部分

这样实现的移动机制不需要相对位置编码和掩码操作,网络更高效简洁

4. 实验

5. 结论

广泛的实验表明,在轻量级和面向性能的设置上,ELAN可以获得比以前最先进的SR模型更具竞争力的性能,同时比以前基于transformer的SR方法要经济得多。

尽管我们的ELAN比SwinIR实现了明显的加速,但与那些基于CNN的轻量级模型相比,SA的计算仍然是计算和内存密集型的。在未来,我们将进一步探索更有效的实现或近似的SA,以完成更多的低层次视觉任务。

Efficient Long-Range Attention Network for Image Super-resolution相关推荐

  1. (MACN小米AI 轻量化SISR)A Matrix-in-matrix Neural Network for Image Super Resolution

    代码:https://github.com/macn3388/MCAN 1.简介 现存的SISR方法难以 用在手机等移动设备上面. However, these GAN-based methods i ...

  2. 注意力机制——ECANet(Efficient Channel Attention Network)

    ECANet(Efficient Channel Attention Network)是一种新颖的注意力机制,用于深度神经网络中的特征提取,它可以有效地减少模型参数量和计算量,提高模型的性能. ECA ...

  3. 图注意力网络(Graph Attention Network, GAT) 模型解读与代码实现(tensorflow2.0)

    前面的文章,我们讲解了图神经网络三剑客GCN.GraphSAGE.GAT中的两个: 图卷积神经网络(GCN)理解与tensorflow2.0代码实现 GraphSAGE 模型解读与tensorflow ...

  4. 论文Pyramid Attention Network for Semantic Segmentation笔记

    该论文发表于2017CVPR,由北理工+旷视科技+北大共同完成 论文传送门 本人主要借鉴其中的思想在目标检测中的可行性,故不考虑语义分割相关的内容 初次实现,如有不足之处,还请指出,谢谢! 名词解释 ...

  5. VAN:Visual Attention Network

    Visual Attention Network [Submitted on 20 Feb 2022 (v1), last revised 11 Jul 2022 (this version, v5) ...

  6. 文本分类模型第二弹:HAN(Hierarchy Attention Network)

    一.前言 本文是文本分类的第二篇,来介绍一下微软在2016年发表的论文<Hierarchical Attention Networks for Document Classification&g ...

  7. 《Hierarchical Attention Network for Document Classification》—— 用于文本分类的层次注意力网络

    目录 <Hierarchical Attention Network for Document Classification>-- 用于文本分类的层次注意力网络 1.文本分类 1.1 文本 ...

  8. 【论文笔记】DR-TANet: Dynamic Receptive Temporal Attention Network for Street Scene Change Detection

    论文 论文题目:DR-TANet: Dynamic Receptive Temporal Attention Network for Street Scene Change Detection 收录: ...

  9. Graph Attention Network (GAT) 的Tensorflow版代码解析

    文章目录 代码结构 参数设置 数据加载 特征预处理 模型定义 GAT核心定义:layers.py gat.py base_gattn.py 关于GAT的基本原理解析可查看另一篇博客: Graph At ...

最新文章

  1. jQuery的祖先遍历
  2. 机器人学习--F1TENTH弗吉尼亚大学无人驾驶课程
  3. 用Android自带的signapk.jar + .x509.pem + .pk8签名应用程序
  4. 如何使用 SSH 控制连接 Windows 服务器
  5. android studio炸包怎么导入,请问android studio如何引入包
  6. SQL无所不能:DBA宝妈宝爸系列分享
  7. Python+django网页设计入门(4):用户登录与登录验证
  8. 从 MySQL 5.6 升级到 MySQL 8.0,Facebook 付出了什么代价?
  9. L2-026 小字辈-PAT团体程序设计天梯赛GPLT
  10. 灵云智能语音识别平台 促进人工智能
  11. 潘正磊: 做最好、最美的你
  12. 模版,自定义按钮背景xml
  13. python无法定位到table_selenium3 + python - table定位
  14. 千层浪软件下载_千层浪app聚合
  15. linux百度云下载脚本,百度网盘Linux版下载
  16. usb-OTG-ADP-HNP-SRP
  17. 分析称诺基亚仅押宝WP成自救牵绊
  18. 基于51单片机的智能汽车雨刷控制系统方案原理图程序设计
  19. 三菱触摸屏通讯错误_三菱触摸屏插上通讯线直接黑屏,老司机手把手教你解决触摸屏黑屏...
  20. 将系统从机械盘重刷到固态盘“

热门文章

  1. 通用岗位晋升报告PPT模板
  2. 计算机信息管理专业 英文,计算机信息管理专业英文简历范文.doc
  3. 卡友们留意:广发信用卡分期手续费标准修改
  4. Canvas动画彩色小球下落
  5. html判断按键按下,javascript如何判断鼠标左键是否被按下?
  6. 卡诺图在化简逻辑布尔代数上的运用
  7. 如何带领一个项目团队并做好项目总结
  8. macOS 版微信小助手,支持微信多开、防撤回、远程控制mac、自动回复等等
  9. 信息安全入门必备认证-Security+
  10. 关于如何从服务器上下载excel、word等一系列的东西