前言

为了针对图像处理任务中各种各样的需求,比如说超分辨、去模糊、去雨等,参照了类似于目标检测、语义分割那边的模型,例如Vit、GPT等,它们用一个大数据训练出模型主框架,再配上不同的特定任务需要的头和尾(这里头和尾的意思是根据任务不同,最后出来的目标也是不一样,比如目标检测出来的是几维的特征,而在语义分割出来的是一整张的图,所以需要针对不同需求的任务改变网络输入和输出,但是主框架是不变的),再在特定需求的数据上进行迁移学习就可以达到很好的效果,这也是当今比较流行的思路。总体上来说就是,用大数据训练主框架之后,根据任务需求在特定的小数据上进行迁移学习。基于此,提出了IPT预训练模型,训练使用的数据超过了一千万张图片,主要框架也是基于Transformer实现的,并且在实验验证后这个模型确实在很多图像处理的任务上达到了非常好的效果。

网络框架

整个网络框架大致由一个多头结构(根据任务需求)、Transformer编码器、Transformer解码器和尾部组成。

Heads

一幅图像输入为3×H×W,针对每个任务的Head都是由三层卷积层组成,经过卷积层之后转换成C×H×W的特征图。

Transformer编码器

将每个通道的特征图按每行每列先分成P×P个patches,然后每个patch加上自己的位置偏置,然后经过LN之后的多头注意力机制MSA计算,最后经过一个全连接层输出。

Transformer解码器

在解码器方面,先经过第一层的LN,然后多头注意力机制,然后第二层的LN,多头注意力机制,再是全连接层。

Tails

最后根据任务需求进行tail的设计和输出,比如对于降噪、去雨的任务,输出大小就是3×H×W;对于超分辨任务来说,×2的超分辨任务输出大小为3×H'×W',H'=2H,以此类推。

实验

超分辨

去雨

降噪

消融实验

除此之外,论文还对传统的CNN模型和IPT预训练模型进行了对比,可以看到IPT模型对比其他传统的CNN模型来说,也就是说在对transformer模型进行了大量的预训练之后,结果是要好于CNN的,即验证了transformer更适合大数据模型。

总结

IPT模型的提出总体来说重点不在于模型的结构,模型的结构其实还是比较简单的,就是类似于vit的基础模型,一个head,编码器和解码器的body和一个tail。重点在于整篇文章说明了一件事,就是通过大数据喂出来的大的预训练transformer模型来进行各类的图像处理是可行的,而且效果也是非常不错的。如果要涨点,提升数据量是非常直接的方法。

Pre-Trained Image Processing Transformer论文笔记相关推荐

  1. 【时序】Reformer:局部敏感哈希(LSH)实现高效 Transformer 论文笔记

    论文名称:Reformer: The Efficient Transformer 论文下载:https://arxiv.org/abs/2001.04451 论文年份:ICLR2020 论文被引:70 ...

  2. 【时序】Informer:用于长序列预测的高效 Transformer 论文笔记

    论文名称:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 论文下载:https://a ...

  3. 【CV Transformer 论文笔记】Intriguing Properties of Vision Transformers

    论文地址:https://arxiv.org/abs/2105.10497 项目地址:https://git.io/Js15X 这篇论文主要介绍并验证了ViT的一些有趣的特性,而且文章的组织结构是通过 ...

  4. 【时序】卷积自注意力 LogSparse Transformer 论文笔记

    论文名称:Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecas ...

  5. SwinIR: Image Restoration Using Swin Transformer论文笔记

    前言 该算法将Swin Transformer应用于图像复原的领域,主要网络结构分为三个部分:①浅层特征提取 ②深层特征提取 ③高质量图像重建.主要应用于图像复原的三个方向,图像超分辨.图像降噪.由于 ...

  6. 【时序】应用于时间序列的 Transformer 综述论文笔记

    论文名称:Transformers in Time Series: A Survey 论文下载:https://arxiv.org/abs/2202.07125 论文源码:https://github ...

  7. 论文笔记-Vanilla Transformer:Character-Level Language Modeling with Deeper Self-Attention

    论文笔记-Vanilla Transformer:Character-Level Language Modeling with Deeper Self-Attention 1. 介绍 2. Chara ...

  8. 【time series】时间序列领域的Transformer综述论文笔记

    论文名称:Transformers in Time Series: A Survey 论文年份:2022/5/7 论文作者:阿里巴巴达摩院 论文下载:https://arxiv.org/abs/220 ...

  9. 论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

    论文笔记 | [CVPR-2023]Activating More Pixels in Image Super-Resolution Transformer 抛砖引玉了,如有不同意见欢迎讨论. 目录 ...

最新文章

  1. 项目管理如何有效进行
  2. 人工智能70年:科幻和现实的交融
  3. DSP学习初阶的一些笔记
  4. 谭浩强C程序设计第四版答案
  5. TP 框架没有考虑完善的功能点:1、表达式查询不支持INSTR形式的查询
  6. linux打包文件命令行,Linux 命令行 | 打包和解包命令
  7. caj文件浏览器_解决CAJ阅读器读取学位论文卡到爆炸的问题
  8. 初级Java开发与架构之间的差距不仅仅是开发时间
  9. 人工智能和分布式账本如何帮助我们解决假新闻
  10. Qt creator 中文显示问题(常量中有换行符或中文显示乱码)
  11. BP算法:原理推导数据演示项目实战1(转)
  12. 计算机审计 报告哦,计算机审计实训报告
  13. windows PC电脑必备3个实用软件
  14. unity天空盒渐变_unity如何制作绚丽的太空天空盒?
  15. 天气 android 源码,android 天气预报app源码
  16. 两个三维向量叉积_三维向量叉乘推导
  17. 机器人——人类的终极进化
  18. 数据工具sqoop用法之mysql与hive数据导入导出
  19. 刷脸支付:5G时代下的新型支付模式
  20. Office For Mac 中的 Excel 表格怎样换行

热门文章

  1. Required request body is missing: public cn.com
  2. 苏州中级职称 取消计算机,2019年中级报名,取消这一项流程!报名、考试……6个问题今天统一回复!...
  3. 6月15到8月5日工作总结
  4. 投资超2800亿元北京“3个100”重点工程开工率创新高
  5. IEnumerator/ IEnumerable/ yield return/ StartCoroutine 详解
  6. Android应用程序------精算达人
  7. 行业报告 | AIGC发展研究
  8. 想从事人工智能AI相关的工作,大学可以学什么专业?
  9. 学习闲谈:玩王者之感悟人生
  10. 神经机器翻译的Subword技术