论文:

Mao, Xiaofeng, et al. "Towards robust vision transformer." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

论文链接

1.abstract

Vision Transformer (ViT) 及其改进变体的最新进展表明，基于自注意力的网络在大多数视觉任务中都超过了传统的卷积神经网络 (CNN)。然而，现有的 ViT 专注于标准精度和计算成本，缺乏对模型鲁棒性和泛化性的内在影响的研究。在这项工作中，对 ViT 的组件进行系统评估，以评估它们对对抗性示例、常见损坏和分布变化的鲁棒性的影响。发现一些组件可能对鲁棒性有害。通过利用稳健的组件作为 ViT 的构建块，提出了稳健的视觉转换器 (RVT)，这是一种新的视觉转换器，具有卓越的性能和强大的稳健性。受评估期间发现的启发，进一步提出了两种新的即插即用技术，称为位置感知注意力缩放和补丁增强来增强RVT，将其缩写为 RVT*。 RVT 在 ImageNet 和六个鲁棒性基准上的实验结果表明，与之前的 ViT 和最先进的 CNN 相比，它具有先进的鲁棒性和泛化能力。此外，RVT-S∗ 在包括 ImageNet-C、ImageNet-Sketch 和 ImageNet-R 在内的多个鲁棒性排行榜上均获得 Top-1 排名。

2.Contributions

1.我们对 ViT 进行了系统的稳健性分析，并揭示了有害成分。受此启发，作者将强大的组件作为构建块进行了改造，作为新的变压器，命名为 Robust Vision Transformer (RVT)。

2.为了进一步改进 RVT，我们提出了两种新的即插即用技术，称为位置感知注意力缩放和补丁增强。它们都可以应用于其他 ViT 模型，并显着提高鲁棒性和标准准确性。

3.ImageNet 和六个鲁棒性基准的实验结果表明，与以前的 ViT 和 CNN 相比，RVT 在标准精度和鲁棒性之间表现出最佳权衡。具体来说，RVT-S∗ 在 ImageNet-C、ImageNet-Sketch 和 ImageNet-R 上达到 Top-1 排名。

3. 鲁棒性分析

论证正文比较多，这里只放作者的结论，有兴趣的可以参考论文该章节。

Patch Embedding：补丁的低级特性有助于提高鲁棒性。

Position Embedding：位置编码对于学习对纹理变化具有鲁棒性的基于形状偏差的语义特征至关重要。此外，现有的位置编码方法对鲁棒性影响不大。

Transformer Blocks：1.构建强大的视觉转换器需要精心设计的多级设计。 2.通过选择适当的头数，鲁棒性可以从注意力头之间的完整性和紧凑性中受益。 3.自注意力层的局部性约束可能会损害鲁棒性。 4.分类令牌 (CLS) 对 ViT 重要吗？答案是否定的，用输出令牌的全局平均池替换 CLS 甚至可以提高鲁棒性。

4.RVT和RVT-S∗

在上面，作者分别分析了ViT中每个设计组件的效果。为了利用这些发现，然后他们结合选定的有用组件，如下所列：1）使用卷积茎提取补丁的低级特征； 2）采用ViTs的多级设计，避开空间分辨率较大的block； 3）选择合适的头数； 4）在FFN中使用卷积； 5) 将 CLS 令牌替换为令牌特征池。由于我们发现上述修改的效果是叠加的，我们将所有这些强大的组件都采用到 ViT 中，得到的模型称为鲁棒视觉转换器 (RVT)。与其他 ViT 变体相比，RVT 实现了新的最先进的稳健性。为了进一步提高性能，作者又提出了两种新技术，位置感知注意力缩放和补丁数据增强，来训练 RVT。它们都适用于其他 ViT 模型。

Position-Aware Attention Scaling

在这项工作中，提出了一种更有效的位置感知注意力缩放方法。为了使点积注意力位置感知的原始重新缩放过程具有感知能力，作者定义了一个可学习的位置重要性矩阵 Wp ∈ RN×N，它表示了每对 q-k 的重要性。原始缩放的点积注意力修改如下：

其中⊙是元素乘积。由于 Wp 是独立于输入的，并且仅由序列中每个 q、k 的位置确定，因此位置感知注意力缩放也可以用作位置表示。因此，在 RVT 中用 PAAS 替换了传统的位置嵌入。之后，整体自注意力可以解耦为两部分：QKT 项表示基于内容的注意力，Wp/√d 项作为基于位置的注意力。这种无约束的设计通过消除混合和嘈杂的相关性提供了更多的表现力。

上图：位置感知注意力缩放前后自我注意力的可视化。底部：通过 PAAS 对学习的比例因子进行可视化。

Patch-Wise Augmentation

图像增强对于 ViT 来说是一种特别重要的策略，因为 ViT 的最大缺点是在相对较小的数据集上训练时泛化能力较差，而这个缺点可以通过足够的数据增强来弥补。另一方面，丰富的数据增强也有助于提高鲁棒性和泛化性，这已在以前的工作中得到验证。为了提高增强训练数据的多样性，作者提出了 ViTs 的补丁数据增强策略，该策略在训练时对每个输入图像补丁施加不同的增强。动机来自 ViTs 和 CNNs 的差异，即 ViTs 不仅提取块内特征，而且关注块间关系。作者认为随机变换整个图像的传统增强可以提供足够的块内增强。然而，它缺乏补丁间增强的多样性，因为所有补丁一次都具有相同的转换。为了施加更多的补丁间多样性，保留原始图像级增强，然后在每个图像补丁上添加以下补丁级增强。为简单起见，仅考虑三种基本图像变换用于块级增强：随机调整大小裁剪、随机水平翻转和随机高斯噪声。

Towards Robust Vision Transformer论文学习（CVPR2022）相关推荐

Vision Transformer论文精读（1/2）
目录一.大致概况二.论文精读 (1)前述 (2)摘要.引言 (3)结论 (4)相关工作三.参考链接精读论文 <AN IMAGE IS WORTH 16X16 WORDS: TRANSFO ...
Vision Transformer 论文
https://openreview.net/pdf?id=YicbFdNTTy AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOG ...
Vision Transformer 论文解读
原文链接:https://blog.csdn.net/qq_16236875/article/details/108964948 扩展阅读:吸取CNN优点!LeViT:用于快速推理的视觉Transfo ...
Transformer论文学习笔记
<Attention Is All You Need>一文中所提出的Transformer模型,与传统的CNN架构完全不同.Transformer中的注意力机制(attention mec ...
【深度学习】（ICCV-2021）PVT-金字塔 Vision Transformer及PVT_V2
目录 0. 详情 1. 简述 2.主要工作 2.1 ViT遗留的问题 2.2 引入金字塔结构 3.PVT的设计方案 3.1 Patch embedding 代码 3.2position embeddi ...
AggPose: Deep Aggregation Vision Transformer for Infant Pose Estimation 论文笔记
IJCAI 2022- AggPose:用于婴儿姿态估计的深度聚合 vision transformer 论文链接 To appear in the 31th International Joint ...
Vision Transformer（ViT）PyTorch代码全解析（附图解）
Vision Transformer(ViT)PyTorch代码全解析最近CV领域的Vision Transformer将在NLP领域的Transormer结果借鉴过来,屠杀了各大CV榜单.本文将根 ...
Vision Transformer 必读系列之图像分类综述(二): Attention-based
文 @ 000007 号外号外:awesome-vit 上新啦,欢迎大家 Star Star Star ~ https://github.com/open-mmlab/awesome-vitgith ...
BOAT: Bilateral Local Attention Vision Transformer
BOAT Attention 论文标题:BOAT: Bilateral Local Attention Vision Transformer 论文地址:http://arxiv.org/pdf/220 ...

Towards Robust Vision Transformer论文学习（CVPR2022）