前言

为了针对图像处理任务中各种各样的需求，比如说超分辨、去模糊、去雨等，参照了类似于目标检测、语义分割那边的模型，例如Vit、GPT等，它们用一个大数据训练出模型主框架，再配上不同的特定任务需要的头和尾（这里头和尾的意思是根据任务不同，最后出来的目标也是不一样，比如目标检测出来的是几维的特征，而在语义分割出来的是一整张的图，所以需要针对不同需求的任务改变网络输入和输出，但是主框架是不变的），再在特定需求的数据上进行迁移学习就可以达到很好的效果，这也是当今比较流行的思路。总体上来说就是，用大数据训练主框架之后，根据任务需求在特定的小数据上进行迁移学习。基于此，提出了IPT预训练模型，训练使用的数据超过了一千万张图片，主要框架也是基于Transformer实现的，并且在实验验证后这个模型确实在很多图像处理的任务上达到了非常好的效果。

网络框架

整个网络框架大致由一个多头结构（根据任务需求）、Transformer编码器、Transformer解码器和尾部组成。

Heads

一幅图像输入为3×H×W，针对每个任务的Head都是由三层卷积层组成，经过卷积层之后转换成C×H×W的特征图。

Transformer编码器

将每个通道的特征图按每行每列先分成P×P个patches，然后每个patch加上自己的位置偏置，然后经过LN之后的多头注意力机制MSA计算，最后经过一个全连接层输出。

Transformer解码器

在解码器方面，先经过第一层的LN，然后多头注意力机制，然后第二层的LN，多头注意力机制，再是全连接层。

Tails

最后根据任务需求进行tail的设计和输出，比如对于降噪、去雨的任务，输出大小就是3×H×W；对于超分辨任务来说，×2的超分辨任务输出大小为3×H'×W'，H'=2H，以此类推。

实验

超分辨

去雨

降噪

消融实验

除此之外，论文还对传统的CNN模型和IPT预训练模型进行了对比，可以看到IPT模型对比其他传统的CNN模型来说，也就是说在对transformer模型进行了大量的预训练之后，结果是要好于CNN的，即验证了transformer更适合大数据模型。

总结

IPT模型的提出总体来说重点不在于模型的结构，模型的结构其实还是比较简单的，就是类似于vit的基础模型，一个head，编码器和解码器的body和一个tail。重点在于整篇文章说明了一件事，就是通过大数据喂出来的大的预训练transformer模型来进行各类的图像处理是可行的，而且效果也是非常不错的。如果要涨点，提升数据量是非常直接的方法。

Pre-Trained Image Processing Transformer论文笔记相关推荐

【时序】Reformer：局部敏感哈希（LSH）实现高效 Transformer 论文笔记
论文名称:Reformer: The Efficient Transformer 论文下载:https://arxiv.org/abs/2001.04451 论文年份:ICLR2020 论文被引:70 ...
【时序】Informer：用于长序列预测的高效 Transformer 论文笔记
论文名称:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 论文下载:https://a ...
【CV Transformer 论文笔记】Intriguing Properties of Vision Transformers
论文地址:https://arxiv.org/abs/2105.10497 项目地址:https://git.io/Js15X 这篇论文主要介绍并验证了ViT的一些有趣的特性,而且文章的组织结构是通过 ...
【时序】卷积自注意力 LogSparse Transformer 论文笔记
论文名称:Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecas ...
SwinIR: Image Restoration Using Swin Transformer论文笔记
前言该算法将Swin Transformer应用于图像复原的领域,主要网络结构分为三个部分:①浅层特征提取 ②深层特征提取 ③高质量图像重建.主要应用于图像复原的三个方向,图像超分辨.图像降噪.由于 ...
【时序】应用于时间序列的 Transformer 综述论文笔记
论文名称:Transformers in Time Series: A Survey 论文下载:https://arxiv.org/abs/2202.07125 论文源码:https://github ...
论文笔记-Vanilla Transformer：Character-Level Language Modeling with Deeper Self-Attention
论文笔记-Vanilla Transformer:Character-Level Language Modeling with Deeper Self-Attention 1. 介绍 2. Chara ...
【time series】时间序列领域的Transformer综述论文笔记
论文名称:Transformers in Time Series: A Survey 论文年份:2022/5/7 论文作者:阿里巴巴达摩院论文下载:https://arxiv.org/abs/220 ...
论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer
论文笔记 | [CVPR-2023]Activating More Pixels in Image Super-Resolution Transformer 抛砖引玉了,如有不同意见欢迎讨论. 目录 ...

Pre-Trained Image Processing Transformer论文笔记

前言