麻省理工Hadi Salman新作：ViT架构可以有效抵御图像补丁攻击

©PaperWeekly 原创 · 作者 | 张一帆

学校 | 中科院自动化所博士生

研究方向 | 计算机视觉

本文是 MIT 大牛 Hadi Salman 于 10 月 11 放在 arXiv 的文章。

论文标题：

Certified Patch Robustness via Smoothed Vision Transformers

论文链接：

https://arxiv.org/pdf/2110.07719.pdf

代码链接：

https://github.com/MadryLab/smoothed-vit

首先介绍一下本文的背景知识。

Preliminaries

1.1 Patch Robustness

Patch Robustness 是目前被广泛研究的一种鲁棒性范式，即使用一小块图像 patch 对图像进行攻击，研究人员使用对抗补丁欺骗图像分类器，操纵物体探测器以及还可以中断光流估计。

1.2 Derandomized smoothing

目前最流行的方法即 Derandomized smoothing，这种方法维护一堆被宽度为的 patch 攻击的 ablations ，对于一个的图像，为了更好的说明这个问题，这里使用列补丁为例，对一个宽度为的列补丁，它可以从图像的任意位置开始，因此。

Derandomized smoothing 的方法维护一个 smoothed classifier ，由两部分组成，一个传统的基本分类器和一个 ablations 集合，它通过如下模式进行分类：

这里的表示将中被分类为的样本总数。

被平滑分类器分类成功的准确率被称为标准准确度。

这里又引入一个概念 certifiably robust：如果正确分类的数目超过第二个类非常多，那么这个分类器显然更难被外界的 patch 所干扰，此时称之为 certifiably robust。准确来说，令表示 ablation set 中一个对抗补丁最多可以同时相交的对抗补丁的数目，对于宽度为的列补丁来说，的 patch 最多可以和，此时一个分类器被称为 certifiably robust 当且仅当：

如果达到了这个阈值，那么最频繁的类将被保证不会改变，即使对抗补丁破坏了它所相交的每一个 ablation。平滑分类器依然做出的既正确又可靠的预测。

虽然 certifiably robust 像许多其他认证防御一样可以提供对抗攻击的保证，但它们面临几个限制其实用性的主要挑战：

1. 只对相对较小的对抗补丁适用。

2. 存在 tradeoff，鲁棒性的增强以准确性的降低为代价。一个标准的 ResNet-50 在 ImageNet 基准上可以达到 76% 的准确率，并且在一个典型的 GPU 上花费不到 1 秒的时间进行预测。相反，表现最好的认证防御模型，如标准准确率为 44%，在类似的硬件上进行预测需要 150 秒。

3. 推理时间往往比标准的、非健壮的模型大几个数量级，这使得经过认证的防御很难在实时设置中部署。

1.3 Vision transformers

ViT 区别于传统 CNN 网络主要在 2 个方面：

1. Tokenization：ViT 使用 patch 的方式对图像特征进行组织，将整个图像分成个 patch，每个 patch 被转化为 embedding + 一个位置编码。

2. Self-Attention：大名鼎鼎的 multi-headed self-attention layers。

1.4 Smoothed vision transformers

ViT 之所以适合本任务主要有两个原因：

1. ViT 将图像作为 token 集合处理。因此，ViT 具有简单地从输入中删除不必要的 token 并忽略图像的更大区域的自然能力，这可以大大加快 ablations 的处理速度。

2. CNN 要得到全局的感受野需要一层层的传播到后面的层才能拿到全局信息，但是 self-attention 在每一层都共享全局信息。因此 ViT 更有希望去处理小的，没有被 mask 的区域。

本文首先显示了 ViT 可以大幅度提升鲁棒性，同时分类准确度不会减少。然后本文对 ViT 的结构进行了一定的改进，大幅度提高了 smoothing procedure 的预测速度。改进也很 intuitive，就是将 ablation 中完全 mask 的 token 全部删掉，留下的 token 就不会很多，预测速度大幅提升。

Faster inference with ViTs

Derandomized smoothing 往往是非常昂贵的操作，特别是对于比较大的图像。一个的图像，有个列 ablation，因此比起传统模型，前向传递所用时间是传统模型的倍。为了解决这个问题，本文首先修改 ViT 架构，以避免在 mask 像素上进行不必要的计算。然后演示了通过大步减少 ablation 的数量可以提供进一步的加速。这两个互补的修改极大地提高了平滑分类器的推断时间，使它们在速度上与标准（非鲁棒的）卷积架构相当。

2.1 Dropping masked tokens

这一部分主要分为三步：

1. 将整个图像编码为一组 token 和相应的位置编码。

2. 丢弃完全被 mask 的 token。

3. 将剩余的 token 作为输入。

因为位置编码保留了剩余 token 的空间信息，丢弃完全被 mask 的 token 后在 ablation 上的分类准确度不会受到影响。

2.2 Strided ablations

另一个问题就是平滑分类器大量的 ablations，这对实时性的设备而言也不可取。本文提出了 Strided ablations，相比于之前工作在每个位置都取一个 ablation，本文给一个步长，每隔采样出一个 ablation，实验证明这种方式不会严重损害标准准确率和验证准确率。

一张表总结本文的主要结果，在 imagenet 上， pixel 表示有这么多的像素作为对抗补丁。可以看到 ViT 本身作为 pipeline 就已经比 resnet50 好很多了。加上本文的改进之后，在最大的模型 ViT-B 上以步长的实验设置下，预测时间减小了两个数量级，鲁棒性还有所提升。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

麻省理工Hadi Salman新作：ViT架构可以有效抵御图像补丁攻击相关推荐

何恺明大神新作：一种用于目标检测的主流ViT架构，效果SOTA
链接:https://arxiv.org/abs/2203.16527 作者单位:Facebook AI Research 1导读 3月30日,何恺明大神团队在ArXiv上发布了最新研究工作,该工作主 ...
为什么清华、北大、麻省理工硕博士，都要逐步推导机器学习算法？
你认为,学人工智能最难的是什么? 没有资料?没有方法?没有答疑?还是无法坚持? 研究表明,80%放弃了的人,是因为在学习的路上碰到太多阻碍. 看看下面的6条,哪一条戳中了你 1.不知道从何学起,没人能 ...
【RPA之家转载】智能RPA平台Ikigai获1300万美元种子轮融资，初创团队来自麻省理工
RPA之家(RPA之家|RPA|RPA新闻|RPA案例|RPA应用|RPA咨询|RPA培训|RPA认证|RPA教程)是中国具有影响力的RPA垂直交流社区,社区汇聚了RPA领域的各类从业人员.其中包括R ...
麻省理工研究发现，商业人工智能存在严重的性别和肤色歧视
内容来源:ATYUN AI平台根据来自麻省理工学院和斯坦福大学将在公正,责任和透明的会议上(Fairness, Accountability, and Transparency)上发布的新论文显示, ...
麻省理工MIT大神解说数学体系；2012年计算机博士港中大林达华简历(公号回复“MIT林达华”下载彩标PDF论文)
麻省理工MIT大神解说数学体系:2012年计算机博士港中大林达华简历(公号回复"MIT林达华"下载彩标PDF论文) 原创: 林达华数据简化DataSimp 今天数据简化Data ...
戴尔科技×“欧洲麻省理工”| 将智能洞察推向工业边缘
工业4.0以来一出出"变形金刚"大戏在全球范围内上演工厂车间发力智能制造信息技术渗透到各个生产环节笨重机械的老古董摇身一变成了智慧.自动化的化身传统制造业搭上智能数 ...
玻色量子荣登《麻省理工科技评论》2021“50家聪明公司”榜单
7月29日,新一届 EmTech China 全球新兴科技峰会暨50家聪明公司发布仪式在无锡太湖饭店盛大开幕.玻色量子应邀出席该会议,并荣登2021年度"50家聪明公司"(TR5 ...
科大讯飞——麻省理工科技评论
16位北京青年上榜<麻省理工科技评论>中国科技青年英雄榜据中关村(6.470, 0.16, 2.54%)管委会网站消息, 近日,<麻省理工科技评论>推出 2017年" ...
清微智能入选《麻省理工科技评论》50家聪明公司（TR50）核心技术就是硬实力...
可重构计算,一种全新的芯片底层架构技术,即时重构.高能效.低功耗.通用,被美国列为未来在电子行业保持领导地位的核心关键技术,被中国科技部放在未来10-15年国家战略支持微电子发展的重要技术第一位.今天 ...

麻省理工Hadi Salman新作：ViT架构可以有效抵御图像补丁攻击

1.4 Smoothed vision transformers

麻省理工Hadi Salman新作：ViT架构可以有效抵御图像补丁攻击相关推荐

最新文章

热门文章