来源:新智元

【导读】参数量和模型的性能有绝对关系吗?苏黎世华人博士提出SwinIR模型,实验结果告诉你,越小的模型还可能更强!SwinIR使用Transformer力压CNN,又在图像修复领域屠榜,模型参数量降低67%,再也不要唯参数量论英雄了!

图像修复(image restoration)是一个受到长期关注和研究的最基础的CV问题,它能够从低质量的图像,例如缩略图、有噪音的图或是压缩图像中恢复为原始高质量图像。

但目前图像修复领域的sota方法都是基于卷积神经网络CNN的,但是很少有人尝试使用Transformer,尽管ViT在高级视觉任务中早已占据排行榜多年。

来自苏黎世联邦理工学院的华人博士提出一个适用于图像修复的模型SwinIR,主要包括浅层特征提取、深层特征提取和高质量图像重建三部分。

实验结果证明SwinIR的性能比目前sota方法提高了0.14-0.45dB,并且参数量还降低了67%。

论文地址:https://arxiv.org/abs/2108.10257

项目地址:https://github.com/JingyunLiang/SwinIR

大多数基于CNN的方法侧重于精细的架构设计,如residual learning和dense learning,通过巧妙的模型设计来提升性能,增大模型容量。

虽然与传统的基于模型的方法相比CNN的性能有了显著的提高,但通常会遇到两个源于卷积层的基本问题:

1)图像和卷积核之间的交互与内容无关。使用相同的卷积核来恢复不同的图像区域可能不是最佳选择;

2)由于CNN更关注局部特征,所以卷积对于长依赖性、全局的特征建模是效果不好。

在这种情况下,很容易想到Transformer来替代CNN。Transformer的自注意力机制能够很好地捕获上下文之间的全局交互,并在多个视觉任务上具有出了良好的表现。

然而,用于图像修复的ViT需要将输入图像分割为具有固定大小(例如48×48)的patch,并对每个部分进行单独处理。

这种策略不可避免地会产生两个缺点:

1)边界像素不能利用块外的相邻像素进行图像恢复;

2)恢复的图像可能会在每个图像块周围引入边界伪影。

虽然这个问题可以通过patch重叠来缓解,但它会带来额外的计算负担。

模型设计

SwinIR的设计基于Swin Transformer,包括三个部分:

1)浅层特征抽取shallow feature extraction

浅层特征提取模块采用卷积层提取浅层特征,并将浅层特征直接传输到重构模块,以保留低频信息。

2)深层特征抽取deep feature extraction

深层特征提取模块主要由residual Swin Transformer Block(RSTB)组成组成,每个块利用多个Swin Transformer layer(STL)进行局部注意力和交叉窗口的交互。此外,还在块的末尾添加一个卷积层以增强特征,并使用残差连接为特征聚合提供快捷方式,也就是说RSTB由多个STL和一个卷积层共同构成残差块,

3)高质量图像重建high-quality(HQ) image reconstructi

重建模块是最后一步,融合了浅层和深层特征用了恢复高质量的图像。

在实验方面,作者首先研究了通道数,RSTB数目和STL数目对结果的影响。可以观察到PSNR与这三个超参数正相关。对于信道数,虽然性能不断提高,但参数量呈二次增长。为了平衡性能和模型尺寸,在剩下的实验中选择180作为通道数。对于RSTB数和层数,性能增益逐渐饱和,所以后续实验设置为6以获得一个相对较小的模型。

和经典的图像超分辨率(super-resolution, SR)模型对,包括DBPN、RCAN、RRDB、SAN、IGNN、HAN、NLSA和IPT。可以看出,当在DIV2K数据上进行训练时,SwinIR在几乎所有五个基准数据集的所有比例因子上都取得了最佳性能,在Manga109在4倍缩放上的最大PSNR增益达到0.26dB。

不过需要注意的是,RCAN和HAN引入了通道和空间注意力,IGNN提出了自适应patch特征聚合,NLSA基于非局部注意机制。所有这些基于CNN的注意机制的表现都不如所提出的基于Transformer的SwinIR,这也表明了文中所提出模型的有效性。

当在更大的数据集(DIV2K+Flickr2K)上训练SwinIR时,性能进一步大幅度提高,也实现了比基于Transformer的模型IPT更好的精度,达到0.47dB。即使IPT在训练中使用ImageNet(超过一百三十万图像),并且具有超过一亿的参数。相比之下,即使与基于CNN的sota模型相比,SwinIR的参数也很少(1500万-4430万)。

在运行时方面,与基于CNN的代表性的模型RCAN相比,IPT和SwinIR在1024×1024分别需要约0.2、4.5和1.1秒。

实验结果

从可视化结果来看,SwinIR可以恢复高频细节并减轻模糊瑕疵,并产生锐利且自然的边缘。

相比之下,大多数基于CNN的方法会产生模糊的图像,甚至是不正确的纹理。与基于CNN的方法相比,IPT生成的图像更好,但它存在图像失真和边界伪影。

在图像降噪任务上,比较的方法包括传统模型BM3D和WNNM,基于CNN的模型DnCNN,IR-CNN,FFDNet,N3Net,NLRN,FOC-Net,RNAN,MWCNN和DRUNet。可以看到SwinIR模型比所有方法都强。

特别是它在具有100个高分辨率测试图像的大型Urban100数据集上通过最先进的DRUNet模型,最高可达0.3dB,并且SwinIR只有1200万的参数,而DRUNet有三亿参数,也就能侧面证明SwinIR的架构在学习用于图像恢复的特征表示方面是高效的。

SwinIR模型可以去除严重的噪声干扰并保留高频图像细节,从而获得更清晰的边缘和更自然的纹理。相比之下,其他方法要么过于平滑,要么过于锐利,无法恢复丰富的纹理。

参考资料:

https://arxiv.org/abs/2108.10257

推荐阅读

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • MLP进军下游视觉任务!目标检测与分割领域最新MLP架构研究进展!

  • 北京大学智能计算与感知实验室招收博士、硕士、本科实习生

  • 博士申请 | 香港中文大学LaVi实验室招收2022年秋季入学博士生、硕士生

  • 周志华教授:如何做研究与写论文?(附完整的PPT全文)

  • 都2021 年了,AI大牛纷纷离职!各家大厂的 AI Lab 现状如何?

  • 常用 Normalization 方法的总结与思考:BN、LN、IN、GN

  • 注意力可以使MLP完全替代CNN吗? 未来有哪些研究方向?

重磅!DLer-计算机视觉&Transformer群已成立!

大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明)

???? 长按识别,邀请您进群!

苏黎世华人博士提出模型SwinIR,只用33%的参数量就碾压图像修复领域sota相关推荐

  1. 不用亲手搭建型了!华人博士提出few-shot NAS,效率提升10倍

    [导读]你能找到最优的深度学习模型吗?还是说你会「堆积木」?最近,伍斯特理工学院华人博士在ICML 2021上发表了一篇文章,提出一个新模型few-shot NAS,效率提升10倍,准确率提升20%! ...

  2. 模型的显存和参数量计算

    写在前面:以此记录关于模型显存和参数量的一些理解和计算. 首先是"运算量"和"参数量"两个概念: 参数量:这个比较好理解,例如卷积层中的卷积核c_i*k*k*n ...

  3. 华人博士提出原型对比学习,非监督学习效果远超MoCo和SimCLR

    点上方蓝字视学算法获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作分享,不代表本公众号立场,侵权联系删除 转载于:新智元 继MoCo和SimCLR之后非监督学习的又一里程碑!Sales ...

  4. 加州理工华人博士提出傅里叶神经算子,偏微分方程提速1000倍,告别超算!

    视学算法报道   编辑:LRS [新智元导读]偏微分方程存在于生活中的方方面面,但这个方程通常需要借助超算才能求解.最近加州理工的一个博士生提出了一种傅里叶神经算子,能让求解速度提升1000倍,从此让 ...

  5. 中国军团称霸KDD:华人博士斩获最佳论文,清华北大中科大华为等榜上有名

    乾明 鱼羊 栗子 安妮 一璞 边策 发自 凹非寺  量子位 报道 | 公众号 QbitAI 又一全球AI顶会,尽是中国力量举杯相庆. KDD,数据挖掘领域国际最高级别会议,今年在美国阿拉斯加州举行,最 ...

  6. 华人博士发127页长文:自然语言处理中图神经网络从入门到精通

    图不但包含数据,也包含数据之间的依赖关系,因而图神经网络(GNN)在自然语言处理(NLP)方面的表现有着非常大的潜力.近期,一位华人博士团队便针对这些研究发表了一篇非常详尽的综述. 图是一种可用来描述 ...

  7. ChatGPT怎么突然变得这么强?华人博士万字长文深度拆解GPT-3.5能力起源

    文章目录 一.2020 版初代 GPT-3 与大规模预训练 二.从 2020 版 GPT-3 到 2022 版 ChatGPT 三.Code-Davinci-002和 Text-Davinci-002 ...

  8. MIT华人博士研究新冠遭学术霸凌!斯坦福诺奖得主:“你论文少,别说话!”...

    月石一 发自 凹非寺 量子位 报道 | 公众号 QbitAI 一则消息在Twitter上引起了热议. MIT华人博士遭学术霸凌,而且施暴者还是诺奖得主.斯坦福教授. 只因一篇「新冠数据使用和传播」的论 ...

  9. 13亿参数,无标注预训练实现SOTA:Facebook提出自监督CV新模型

    作者|陈萍 来源|机器之心 Facebook AI 用 10 亿张来自Instagram的随机.未标注图像预训练了一个参数量达 13 亿的自监督模型 SEER,该模型取得了自监督视觉模型的新 SOTA ...

最新文章

  1. Activity管理(三):activity内核管理方案详细讲解
  2. 每日一皮:我们最要避开的山寨产品...
  3. Handler消息处理机制
  4. Isomorphic Strings
  5. 使用DDD、事件风暴和Actor来设计反应式系统
  6. php负载均衡原理_负载均衡的原理(通俗理解)
  7. netframework 4.0内置处理JSON对象
  8. Web 开发中 20 个很有用的 CSS 库
  9. Web前端框架(JavaScript,CSS)、html组件、CSS规范与第三方库
  10. tp5第三方支付-支付宝
  11. ADT下载地址,完整版
  12. 剑指Offer——完美+今日头条笔试题+知识点总结
  13. 计算机组成原理中动态RAM与静态RAM的比较
  14. java审批流创建及代码流程
  15. 计算机网络教室财产登记表,固定资产清查登记表-资产管理.DOC
  16. be idle sometimes to_一生中不该错过的经典语录,深刻有道理,看了让人爱不释手!...
  17. 阿里云虚拟机多域名配置
  18. 产品设计杂谈--微信篇
  19. 我是一个flag 侠
  20. sketch插件开发_适用于Web开发人员的10个免费Sketch插件

热门文章

  1. centos6.5下系统编译定制iptables防火墙扩展layer7应用层访问控制功能及应用限制QQ2016上网...
  2. 如何查看和停止Linux启动的服务
  3. __block的初步用法
  4. (转)Spring中ThreadLocal的认识
  5. 从assemblyer Instructure deepth understander C principle
  6. 使用sendfile()让数据传输得到最优化,TCP_CORK、TCP_DEFER_ACCEPT和TCP_QUICKACK优化网络...
  7. 分段线性学习率extend_with_piecewise_linear_lr
  8. 贝叶斯定理核心在后验概率是对先验概率的修正,即后验概率是描述来自先验概率的概率
  9. c++数学库 方法库 向量库等用法
  10. String字符串编码解码格式