点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨happy

编辑丨极市平台

导读

鲜少有工作将transformer用于图像复原方向,而ETH的学者近日提出基于Swin Transformer的一种强基线模型SwinIR用于图像复原,该工作在经典图像超分、真实场景图像超分、图像降噪与JPEG压缩伪影移除都取得了显著优于已有方案的性能。

原文链接:https://arxiv.org/abs/2108.10257

code:https://github.com/JingyunLiang/SwinIR(未开源)

期待已久的SwinIR终于刊出来了,它是ETH团队在Transformer+low-level方面的最新力作,大幅超越了之前华为诺亚提出的IPT。从某种程度上来看,这篇文章没有什么创新点,只是将微软的Swin Transformer在low-level任务上进行了应用。Whatever,无论是经典图像超分(即退化方式为bicubic),还是真实场景图像超分,亦或图像降噪与JPEG压缩伪影移除,所提SwinIR均取得了显著优于已有方案的性能。笔者这里尤其期待SwinIR在真实场景图像超分方面的应用与效果,期待作者尽快开源。

摘要

图像复原(存在已久的low-level视觉问题)旨在根据低质图像(比如,下采样的、带噪的、压缩的图像)复原高质量图像。现有优异图像复原方案往往采用CNN,鲜少有Transformer(已在high-level视觉任务中取得骄人成绩)类方案在该类问题中进行探索尝试。

本文基于Swin Transformer提出一种强基线模型SwinIR用于图像复原。SwinIR包含三部分:浅层特征提取深层特征提取以及高质量图像重建。具体而言,深层特征提取由多个RSTB(Residual Swin Transformer Blocks)构成,每个RSTB由多个Swin Transformer层与残差连接构成。

相比CNN方案,Swin具有以下几个优势:

  • 基于内容交互的图像内容与注意力权值可以视作空域可变卷积;

  • RSTB中的移位窗口机制可以进行长距离依赖建模;

  • 更优的性能、更少的参数(可参见下图:SwinIR具有更少的参数量、更优的性能)。

我们在三个极具代表性的任务(图像超分、图像降噪以及JPEG压缩伪影移除)上进行了实验。实验结果表明:所提SwinIR能够以0.14~0.45dB优于其他SOTA方案,同时参数量降低高达67%

方法简介

网络结构

上图给出了本文所提SwinIR网络架构示意图,很明显,它由三个部分构成:浅层特征提取、深层特征提取以及高质量图像重建模块。对于不同任务而言,所提方案的区别主要在于重建模块。

浅层及深层特征提取

给定低质输入,我们采用卷积提取浅层特征:

已有研究[ConvStem]表明: 卷积善于进行早期视觉处理,同时有助于稳化训练并取得更优结果。此外,卷积还提供了一种将输入图像映射到更高维特征空间的简单方案。然后,我们对提取深层特征:

注:表示深层特征提取模块,它由K个RSTB与一个卷积构成。更具体来说,中间特征以及深层特征的计算可以描述如下:

注:这里的卷积操作可以将卷积操作的归纳偏置引入到SwinIR中,同时为浅层特征与深层特征的聚合奠定更好的基础。

图像重建

以图像超分为例,我们通过聚合浅层与深层特征进行高质量图像重建:

注:表示重建模块。由于浅层特征主要包含低频信息,而深层特征聚焦于重建遗失的高频信息,SwinIR采用了长距离跳过连接将两者聚合进行最终的重建。

对于超分而言,重建模块由卷积与PixelShuffle构成;对于不需要上采样的任务(如降噪、JPEG压缩伪影移除),重建模块仅由卷积构成。此外,我们采用残差学习机制重建LQ与HR之间的残差,即:

损失函数

对于图像超分,我们采用损失进行优化:

对于经典与轻量图像超分,我们近采用上述损失;对于真实世界图像超分,我们采用损失、GAN损失以及感知损失的组合以提升视觉质量。对于图像降噪与JPEG压缩伪影任务,我们采用Charbonnier损失:

残差Swin Transformer模块

上图a给出了RSTB的结构示意图,它包含多个STL、一个卷积以及残差连接。对于第个RSTB,输入特征表示为,我们首先通过L个Swin Transformer层提取中间特征:

然后,我们在残差连接之前添加一个卷积层。RSTB的输出可以描述如下:

这种设计思路有这样两个优势:

1) 尽管Transformer可以视作空间可变卷积的变种,但空间不变卷积有助于提升SwinIR的平移不变形;

2) 残差连接为不同模块到重建模块提供了等效连接,促进了不同层级特征的聚合。

Swin Transformer层

Swin Transformer Layer(STL)基于原始Transformer中的标准多头自注意力演变而来,主要区别体现在于局部注意力移位窗口机制。前述图b给出了STL结构示意图。假设输入尺寸为,首先,将输入拆分为局部窗口并reshape为;然后,在每个窗口计算标准自注意力。对于局部窗口特征,query、key以及value计算如下:

基于上述信息,注意力矩阵的计算公式如下:

其中,B表示可学习相对位置编码。接下来,我们采用包含两个全连接层与GELU激活的MLP进行特征变换。因此,整个过程可以描述如下:

然而,当不同层的窗口划分固定时,不同局部窗口之间不存在新交互。因此,窗口划分与窗口移位用于进行跨窗口信息交互。更多关于SwinTransformer的介绍

可参见:zzk:图解Swin Transformer,https://zhuanlan.zhihu.com/p/367111046

实验

主要结果

经典图像超分

上表给出了经典图像超分方面的性能对比,从中可以看到:

1) 当在DIV2K数据集上训练时,在五个基准数据集上,Swin取得了所有尺度最佳性能;PSNR增益最高甚至可达0.26dB。

2) 当在DIV2K+Flickr2K数据集上训练时,SwinIR的性能得到了进一步提升,超越了ImageNet数据集上训练的IPT;

3) 值得注意的是,SwinIR的参数量远小于IPT(11.8M vs 115.5M),甚至比CNN方案的参数量(15.4~44.3M)还少

4) 在推理速度方面,当输入为时,RCAN、IPT以及SwinIR速度分别为0.2s、4.5s以及1.1s;

上图给出了SwinIR与其他超分方案的视觉效果对比,可以看到:SwinIR可以复原高频细节,具有更锐利而自然的边缘;相反,CNN方案生成结果往往具有模糊结果,甚至不正确的纹理

轻量图像超分

上图对比了不同轻量型方案的性能对比,从中可以看到:SwinIR显著优于其他方案(PSNR指标最高超出0.53dB),同时具有相近的参数量与计算量

真实世界图像超分

图像超分的终极目标是真实场景实用。我们以BSRGAN为基础进行SwinIR训练,视觉效果对比见上图。从图示效果可以看到:SwinIR生成了视觉效果更佳(更清晰、边缘更锐利)的图像,而其他方案则存在伪影问题。对标的模型包含:

  • ESRGAN;更详细信息可参见【科技猛兽:ESRGAN原理分析和代码解读】(https://zhuanlan.zhihu.com/p/156505590);

  • BSRGAN:更详细信息可参见【真正实用的退化模型,ETH开源业界首个广义盲图像超分退化模型】;

  • RealSR:更细信息可参见【显著提升真实数据超分性能,南大&腾讯开源图像超分新方案RealSR】;

  • Real-ESRGAN:更详细可参见【Real-ESRGAN:走出温室,迈向实用!】

JPEG压缩伪影移除

上表给出了JPEG压缩伪影移除任务上的性能对比,从中可以看到:

  • 在两个数据集上,所提SwinIR分别取得了平均0.11dB、0.07dB指标提升;

  • 相比此前最佳DRUNet(参数量为32.7M),SwinIR参数量仅为11.5M参数。

图像降噪

上面两个表给出了灰度/彩色图像降噪方面的性能对比,从中可以看到:

  • 相比其他方案,所提SwinIR在图像降噪任务上同样具有更优异的性能;在Urban100数据上,SwinIR超出DRUNet0.3dB;

  • 在参数量方面,SwinIR仅需12M,而DRUNet则具有32.7M;这说明:SwinIR在学习用于复原的特征表达上非常高效

上面两个图给出了灰度/彩色图像降噪方面的视觉效果对比,从中可以看到:SwinIR可以有效移除重度噪声干扰,同时保留高频图像细节,进而生成更锐利的边缘、更自然的纹理;而其他方案要么过于平滑,要么过度锐化,难以重建丰富纹理。

消融实验

对通道数量、RSTB 模块数和 STL 数的影响

上图a、b、c对通道数、模块数以及STL数进行消融分析对比,从中可以看到:

  • PSNR指标与上述三个超参成正相关关系;

  • 对于通道数而言,尽管通道数越多性能越好,但总参数成二次方关系增长。为平衡性能与模型大小,我们设置通道数180;

  • 随RSTB模块数与STL数增加,模型性能很快饱和。我们将两者数量设为6以得到一个相对小的模型。

上图d、e、f对训练过程中的超参进行了消融分析对比,从中可以看到:

  • 在不同patch尺寸下,SwinIR均取得了比RCAN更佳的性能,见上图d;

  • SwinIR性能会随训练数据量提升而提升且均比RCAN更优,见上图e;

  • SwinIR的收敛速度要比RCAN更快、更好,见上图f。

上表对RSTB的各成分进行了消融对比,从中可以看到:

  • 残差连接非常重要,它可以提升的性能高达0.16dB;

  • 卷积带来的性能增强非常有限,这是因为它不会像卷积一样提取局部近邻信息;

  • 尽管采用三个卷积(减少中间卷积通道数)可以降低参数量,但性能同样轻微下降。

本文亮点总结

1.SwinIR包含三部分:浅层特征提取、深层特征提取以及高质量图像重建。具体而言,深层特征提取由多个RSTB(Residual Swin Transformer Blocks)构成,每个RSTB由多个Swin Transformer层与残差连接构成。

2.相比CNN方案,Swin具有以下几个优势:

  • 基于内容交互的图像内容与注意力权值可以视作空域可变卷积;

  • RSTB中的移位窗口机制可以进行长距离依赖建模;

  • 更优的性能、更少的参数

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

Transformer在图像复原领域的降维打击!ETH提出SwinIR:各项任务全面领先相关推荐

  1. Transformer在图像复原领域的降维打击,ETH提出SwinIR:各项任务全面领先

    作者丨happy 编辑丨极市平台 本文原创首发于极市平台,转载请获得授权并标明出处. 原文链接:https://arxiv.org/abs/2108.10257 code:https://github ...

  2. 站在CNN肩膀上的巨大腾飞,Swin Transformer:实现对各类SOTA的降维打击

    作者丨陀飞轮@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/360513527 导读 本文介绍了一种称为Swin Transformer的新型transformer, ...

  3. ChatGPT类工具如何实现「降维打击」| 聊天机器人闭门研讨观点总结

    导读 随着ChatGPT出现,语言大模型的进步与对话交互方式相结合,正在搅动科研.产业,以及普通人的想象力.我们对智能的探索是正在步入决胜之局,还是仍在中场酣战:是需要精巧完备的一致系统,还是可以遵循 ...

  4. 不想被AI降维打击?美国“四院院士”写的DL科普书了解一下

    在人工智能『AI』如此火爆的当前,媒体铺天盖地的报道,好像每个人不了解一下 AI 的知识,就会被 AI 替代一样.不管是媒体的背书,亦或者知识更新的必要性,每个人的确有必要去了解一下当前这个最火爆的这 ...

  5. 一汽奔腾b7o价位_全新第三代奔腾B70有何资格对合资品牌降维打击?

    一直以来自主品牌在人们心中的形象都远低于合资品牌,不外乎"产品可靠性差"."没有核心技术"."缺乏原创设计"等负面印象.但是随着全新第三代奔 ...

  6. 从「降维打击」谈「降维」

    生活中常常听到一个词:降维打击. 如何理解? "王健林的小目标和我的小目标"就是最好的诠释. 对于数据来说,虽然不存在「打击」之说,但先对其降一波维,利用可视化的方式从整体上对数据 ...

  7. 如何完成点、线、面的发展,实现降维打击

    本来这篇文章是参加24届"光亚展"之后部门的发展路线规划,写着写着就超纲了.但是这篇文章是表述了自己对于企业在"群雄逐鹿"的市场中站稳.显露头角的发展方向和发力 ...

  8. Web3+品牌的大杀器:DAO如何实现对传统品牌彻底的降维打击

    01 DAO是品牌的大杀器 在我之前的文章就有预测过,Web3与品牌的结合只有两条路径,一个是Web3会自生长原生品牌发起向现实中的品牌扩大共识,另外一个是Web3是只属于现实中具有某些特性的品牌的沃 ...

  9. 科技公司逐鹿手机配件赛道,“降维打击”会出现吗?

    文|智能相对论(aixdlun) 作者|佘凯文 从去年开始,大宗原材料价格不断上扬,不少材料价格在今年纷纷到达历史巅峰,这深刻地影响着中国制造业,在家电产品外,手机配件也成为"受害者&quo ...

  10. 特斯拉降维打击 国产电动车怎么“盘”?

    [TechWeb]特斯拉近日在国内的售价跳水,引起不小风波.事情发生的有点快,我们先来回顾下近期特斯拉在中国的"小动作". 马斯克:建厂.降价.发新车 今年1月7日.特斯拉在上海的 ...

最新文章

  1. sea.js学习网址和书籍
  2. 手机应用开发的方式不能完全套用到iPad上
  3. 前端学习(2870):Vue路由权限『前后端全解析』1
  4. 网页底部的版权信息_Shopify底部的版权信息(Powered by Shopify )如何删除
  5. org.springframework.http.converter.HttpMessageNotWritableException:
  6. php 中间表示语言,[转载]php 底层 探究之php编译过程及中间语言 opcode
  7. java document to xml_Java Document.asXML方法代碼示例
  8. SAP License:SAP顾问的可持续性发展
  9. 2、启动Spring Boot 容器
  10. JAVA垃圾回收机制勘误
  11. 深入分析Android (build/core/*.mk脚本)
  12. matlab dot函数
  13. 管理感悟:深入理解软件
  14. (转载)C/C++:sizeof('a')的值为什么不一样?
  15. Atitit 跨平台异常处理(2)--------异常转换 -----java c# js异常对象结构比较and转换
  16. 阿里出品的最新版 Java 开发手册,嵩山版,扫地僧
  17. 我的世界基java版刷怪机制_我的世界为什么自己的刷怪塔效率低下原因分析
  18. 小米盒子显示连不上服务器,小米盒子连不上WiFi?这七个技巧绝对管用
  19. 中点和中值滤波的区别_【传感器融合】扩展卡尔曼滤波的逐步理解与实现(上)...
  20. Openbravo开发手册

热门文章

  1. Linux下解决无法远程连接数据库问题
  2. 判断当前是什么版本浏览器
  3. Oracle分页查询与RowNum
  4. EXCEL怎样完整显示身份证号码
  5. SQL Server 字符串拆分
  6. ASP.NET MVC . Controller
  7. 2008R2Win7管理八DNS新功能及常规管理
  8. 序列化和反序列化(二)——Serializable 接口
  9. java终止程序语句总结 System.exit(1)、System.exit(0)、return;break;continue;
  10. SpringBoot 添加junit单元测试+Spring Boot 的测试类库