前言

该算法将Swin Transformer应用于图像复原的领域,主要网络结构分为三个部分:①浅层特征提取 ②深层特征提取 ③高质量图像重建。主要应用于图像复原的三个方向,图像超分辨、图像降噪、由于JPEG压缩造成的伪影减少。主要是借鉴了Swin Transformer即有局部特征又可以全局特征的特点,而且可以使用更少的参数来达到更好的效果。

网络框架

下图是SwinIR的整体框架图,主要包括三个部分,第一个部分是浅层特征提取网络,主要提取图像里面的低频信息;第二个部分是深层特征提取网络,主要提取高频信息,这也是最重要的一环,因为图像复原主要是恢复图像的高频信息;最后一个是根据前面提取到的信息进行图像重建。

图1 SwinIR框架图

1. 浅层特征提取

文章里面直接使用了一个3×3的卷积核对大小为H×W×C的输入图像进行特征提取,给出的解释是卷积层有利于Transformer的早期图像处理,可以带来更好的结果。引用的论文为:Early Convolutions Help Transformers See Better,感兴趣可以自己去了解下。

2.深层特征提取

深层特征提取为重点,主要也是参考了Swin Transformer来进行设计的,是一个叫RSTB模块,如下图左,整个模块的为串联结构,主要由STL的子模块和一个3×3的卷积层组成(我也不知道为什么要用一个3×3的卷积核,一般来说卷积核的维度应该和channel数相同),并且在头部和尾部加入了进行残差融合。

STL子模块就是Swin Transformer层,其实就是Swin Transformer的模块,基本结构差不多,具体实现MSA可以看霹导的这篇文章,非常详细,这也是Swin Transformer的精华所在。

Swin-Transformer网络结构详解_太阳花的小绿豆的博客-CSDN博客_swin网络

图1 RSTB和STL的模块图

3. 重建网络

SwinIR将浅层的低频信息转入重建模块帮助重建高频信息和更稳定地训练,主要实现是使用了亚像素卷积层去对特征进行上采样最后得到高分辨率的图像。文章中没有详细说明实现过程,主要参考这篇引文:Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network

4. 损失函数

文章中针对不同的任务用的损失函数也不一样。

超分辨问题:用的是像素的L1范数计算损失,主要是重建后的图像和原来的高质量图像的对应像素计算L1范数损失。

真实世界的超分辨问题:使用的是GAN损失和感知损失,参考了ESRGAN网络的损失函数。

图像降噪和压缩伪影减少问题:Charbonnier损失

实验

超参数对比

本部分的实验主要是寻找网络的最优结构,(a)(b)(c)图分别对通道数(这个通道数是什么我不太理解)、RSTB模块的数量以及RSTB里面STL的层数进行试验;(d)(e)(f)图是在训练过程中对比RCAN网络的优势,基本可以认为各方面的效果都比RCAN要好。

在RSTB模块的对比实验中,得出结论:

①在3×3网络中加入残差比不加效果要好0.16dB。

②虽然增加卷积核的通道数也有一定的提升,但是也会增大参数数量,所以综合考量下,单通道效果最好。

超分辨实验

在传统超分辨实验中的对比如下图,有➕代表大模型,没有则是小模型,确实取得了不错的结果,但是提升其实并不多,至少可以认为是有效果的。

轻量模型之间的对比如下图:

JPEG压缩残影实验

降噪模型实验

分别是灰度图降噪模型和彩色图降噪模型:

总结

SwinIR总体来说取得了非常不错的效果对比以往的模型,但是其实提升没有那么惊艳,但是对于参数数量来说减少了很多,这个方向还可以继续探究。

SwinIR: Image Restoration Using Swin Transformer论文笔记相关推荐

  1. Swin Transformer论文解读

    文章目录 创新点 算法 Patch Merging W-MSA SW-MSA 位置偏置 结构变体 实验 ImageNet分类 COCO目标检测 ADE20K语义分割 消融实验 结论 论文: <S ...

  2. Swin Transformer 论文精读,并解析其模型结构

    计算机视觉的建模从AlexNet在ImageNet分类挑战的良好表现开始,然后到目标检测的SSD.RCNN.YOLO等模型,一直由CNN主导.直到NLP领域中Transformer的崛起,并经ViT应 ...

  3. Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer阅读笔记

    Abstract 研究如何在高密度人群场景中实现精准的实例定位,以及如何缓解传统模型由于目标遮挡.图像模糊等而降低特征提取能力的问题.为此,我们提出了一 Dilated Convolutional S ...

  4. 【时序】Reformer:局部敏感哈希(LSH)实现高效 Transformer 论文笔记

    论文名称:Reformer: The Efficient Transformer 论文下载:https://arxiv.org/abs/2001.04451 论文年份:ICLR2020 论文被引:70 ...

  5. 【CV Transformer 论文笔记】Intriguing Properties of Vision Transformers

    论文地址:https://arxiv.org/abs/2105.10497 项目地址:https://git.io/Js15X 这篇论文主要介绍并验证了ViT的一些有趣的特性,而且文章的组织结构是通过 ...

  6. 【时序】卷积自注意力 LogSparse Transformer 论文笔记

    论文名称:Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecas ...

  7. 【时序】Informer:用于长序列预测的高效 Transformer 论文笔记

    论文名称:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 论文下载:https://a ...

  8. Pre-Trained Image Processing Transformer论文笔记

    前言 为了针对图像处理任务中各种各样的需求,比如说超分辨.去模糊.去雨等,参照了类似于目标检测.语义分割那边的模型,例如Vit.GPT等,它们用一个大数据训练出模型主框架,再配上不同的特定任务需要的头 ...

  9. 【CV】SwinIR:使用 Swin Transformer 进行图像恢复

    论文名称:SwinIR: Image Restoration Using Swin Transformer 论文下载:https://arxiv.org/abs/2108.10257 论文年份:ICC ...

最新文章

  1. 申请硕士学位不必发表论文,清华大学新规登上热搜:不把学术权力交给期刊审稿人...
  2. spark 源码分析之七--Spark RPC剖析之RpcEndPoint和RpcEndPointRef剖析
  3. gsoap中的数据结构中不允许有野指针
  4. 修改开发环境、工程、文件的字符集
  5. Linux下which、whereis、locate、find 命令的区别
  6. ArrayList笔记
  7. JavaScript实现多项式哈希算法(附完整源码)
  8. python数据类型有哪些、分别有什么用途_python中的数据类型有哪些
  9. sap sdi mysql_SAP HANA 实时数据模型与导入数据模型之间基于 SDI 的混合
  10. 【Linux】远程连接Linux系统及故障排查
  11. C++表白代码---一颗心
  12. Android系统层次结构及分析
  13. 程序员,小红书王牌生活记录家。这是一篇记录程序员生涯的笔记。
  14. 推荐程序员收藏的几个技术社区以及工具网站
  15. HTML中的input type=reset标签失效(不起作用)的可能原因
  16. Collecting Coins
  17. c语言如何使用floor函数,floor函数 Excel中floor函数怎么使用
  18. r语言library什么意思_汽车自动挡上的P、R、N、D、S、L和M,都表示什么意思?
  19. Python:代码覆盖率工具coverage
  20. 实验 5 递归与列表

热门文章

  1. 初涉职场必看的十部电影
  2. 推荐一款 macOS 终端下自动配置系统代理的神器 ZSH-OSX-AutoProxy
  3. 服务器分发系统如何做性能测试,如何针对音视频流媒体服务器分发的RTSP视频流进行并发压力测试?...
  4. Linux防火墙增加例外
  5. Windows10 如何自动在开机时进行拨号连接?
  6. 新经济业态下的搬家物流服务要完善信用体系建设
  7. 将中国标准时间转换为年月日时分秒格式
  8. Redis--优化详解
  9. 灵飞经4 西城八部 第十八章 暗通款曲(二)
  10. mysql使用sum保留小数或者保留整数