点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:来自 | 知乎   作者 | Greene

链接 | https://zhuanlan.zhihu.com/p/361105702

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

最近 Transformer 在计算机视觉遍地开花,从纯 Transformer 到 Transformer 和 CNN 的显式隐式杂交,各个任务仿佛嗷嗷待哺的婴儿,等着 Transformer 奶一口,这自然让人好奇 Transformer 的稳健性(Robustness)如何。

然而,Transformer 训练起来算力要求大,对抗训练加 Transformer 训练起来算力要求就是大上加大,好在我们不用亲自花费精力去实验,或者实验到一半的你也可以先休息一下,因为在 arXiv 上已经出现了研究 Transformer 的稳健性的论文。

第一篇映入眼帘的便是 2021年3月26日 公开的 Transformer 的老家谷歌做的这篇:

Srinadh Bhojanapalli, Ayan Chakrabarti, Daniel Glasner, Daliang Li, Thomas Unterthiner, Andreas Veit. Understanding Robustness of Transformers for Image Classification. arXiv:2103.14586

首先,Transformer 也存在对抗样本(Adversarial Example),这依然是一个问题,不过,针对 Transformer 的对抗扰动和针对 CNN 的对抗扰动看起来确实不太一样:

说明 Transformer 和 CNN 摔跤的地方不太一样。Transformer 的对抗扰动有明显的块(Patch)间差异,看起来似乎是每一块单独生成的对抗样本拼接而成的。他们使用 PGD 和 FGSM 测得的稳健性如下:

原文中对威胁模型(Threat Model)的描述是 one gray level,应该对应  。可以看到,Transformer 相对 CNN 并没有显著地更加稳健(Robust),在 FGSM 下的稳健性和应对输入变换(旋转、平移)的稳健性都不如 CNN;在 PGD 攻击下的稳健性比 CNN 要好一些,个人猜测有可能是因为 Transformer 让 PGD 更难优化。

老实说,这个结果让人有点失望,本来以为 Transformer 有从根本上杜绝对抗攻击的可能,但这些结果表明,并没有 o(╥﹏╥)o

不过令人欣慰的是,对抗样本在 Transformer 和 CNN 之间的迁移性不好:

这看起来似乎佐证了 Transformer 和 CNN 确实跌倒在不同的地方[1]。这篇文章处处透露着谷歌的豪气,只能说,不愧是谷歌。

就在这篇文章出现的三天后,arXiv上便再次出现了一篇研究 Transformer 的稳健性的论文:

Rulin Shao, Zhouxing Shi, Jinfeng Yi, Pin-Yu Chen, Cho-Jui Hsieh. On the Adversarial Robustness of Visual Transformers. arXiv:2103.15670

这篇论文最吸引人的地方是开篇的第一幅图:

这个 Transformer 看起来非常稳健啊,难道谷歌这次翻车了?按照这张图,Transformer 的稳健性似乎直接达到了对抗训练之后的CNN基准[2],而且他的结论是越加 CNN,就越不稳健......

然而看到后面却发现,好像结论跟谷歌没差,他们给出的PGD 攻击的结果如下:

在同样的威胁模型下(  ),ViT-B/16 的稳健精确度为 11.05% ~ 4.54%,与谷歌那篇论文的结论基本一致。图 1 目测绘制的是威胁模型为  的结果,这个威胁模型比一个灰度阶梯(1/255)还小,实际意义有限[3]

他们做了更加完善的迁移攻击的研究,结果如下:

颜色更深表示迁移性更强,对角线是自己跟自己的迁移攻击成功率,可以看到,结论与谷歌那篇中一致,对抗样本在 Transformer 与 CNN 之间的迁移性较低。

难能可贵的是,最耗时间的对抗训练他们也帮我们做了,这里使用的威胁模型是常见的  :

需要注意的是,每个模型只训练了 20 个周期(Epoch),一般的对抗训练会进行100个周期(Epoch)以上[4]。根据这个结果,Transformer 在对抗训练后的效果似乎比 CNN 要好,两个精确度都要高一些。

对比 ResNet-18 和 ViT-B/4 使用 TRADES 对抗训练得到的结果,ViT-B/4 的 标准精确度(Clean)要高 7.4%,稳健精确度(AutoAttack)要高 4.3%;鉴于只训练了20个周期,这个更好的效果有可能是因为 Transformer 在对抗训练的前期比 CNN 收敛得更快。

Transformer 是比 CNN 更稳健呢?还是稳健性跟 CNN 差不多呢?两篇论文,诸君自取。不过可以确定的是,Transformer 跟 CNN 跌倒的方式不同,他们确实学习到了很不一样的特征,而不一样的特征能得到相似的效果,不难理解为何关于 Transformer 的论文这么多了。

PS:Transformer 有没有合适的翻译额,中英混杂看起来很累,翻译成变压器或者变形金刚似乎不太好。

参考链接

  1. ^不过这里测试迁移性使用的是 PGD 攻击,之前已经有研究表明,就迁移性而言,使用 FGSM 这种单次攻击得到的对抗样本要更好一些

  2. ^Robust Bench https://robustbench.github.io/

  3. ^因为保存成图片这个级别的扰动基本就没有用了

  4. ^Tianyu Pang, Xiao Yang, Yinpeng Dong, Hang Su, Jun Zhu. Bag of Tricks for Adversarial Training. arXiv preprint 2020. arXiv:2010.00467 https://arxiv.org/abs/2010.00467

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

Transformer 的稳健性更好吗?相关推荐

  1. 来自Facebook AI的多任务多模态的统一Transformer:向更通用的智能迈出了一步

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要5分钟 Follow小博主,每天更新前沿干货 作者:Synced 编译:ronghuaiyang 导读 一个模型完成了CV,NLP方向的7个任 ...

  2. 谷歌魔改Transformer登NeurIPS 2021!一层8个token更好用

    转自:新智元 目前,Transformer模型在计算机视觉任务(包括目标检测和视频分类等任务)中获得了最先进的结果. 不同于逐像素处理图像的标准卷积方法,Vision Transformer(ViT) ...

  3. 【读点论文】A ConvNet for the 2020s,结合swin transformer的结构设计和训练技巧调整resnet网络,在类似的FLOPs和参数量取得更好一点的效果

    A ConvNet for the 2020s Abstract 视觉识别的"咆哮的20年代"始于视觉transformer(ViTs)的问世,它迅速取代ConvNets成为最先进 ...

  4. 两个让Transformer网络变得更简单,更高效的方法

    点击上方"AI公园",关注公众号,选择加"星标"或"置顶" 作者:Sainbayar Sukhbaatar, Armand Joulin 编 ...

  5. 对比学习论文综述(part4 transformer + 总结)

    对比学习论文综述(part4:transformer + 总结) part4 Transformer 第四阶段主要是讲Transformer是怎么和对比学习有机结合起来的,在这个阶段主要就是简单的讲一 ...

  6. [论文阅读](Transformer系列)

    文章目录 一.Video Transformer Network 摘要 引言 相关工作:Applying Transformers on long sequences Video Transforme ...

  7. 何恺明MAE大火之后,想梳理下视觉Transformer?这篇综述帮你梳理了100多个

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源丨机器之心 编辑丨极市平台 这段时间,计算机视觉圈有点热闹.先是何恺明等人用简单的掩蔽自编码器(M ...

  8. Vision Transformer论文精读(1/2)

    目录 一.大致概况 二.论文精读 (1)前述 (2)摘要.引言 (3)结论 (4)相关工作 三.参考链接 精读论文 <AN IMAGE IS WORTH 16X16 WORDS: TRANSFO ...

  9. 模型压缩95%:Lite Transformer,MIT韩松等人

    模型压缩95%:Lite Transformer,MIT韩松等人 Lite Transformer with Long-Short Range Attention Zhanghao Wu, Zhiji ...

最新文章

  1. vivado SOC——hello word(上)建立SOC系统
  2. 一张PDF了解JDK9 GC调优秘籍-附PDF下载
  3. git原理浅析及命令介绍
  4. 包机制、阿里巴巴开发手册
  5. share一段采集程序的代码
  6. xcode模拟器不显示键盘解决方案
  7. Android Graphic 架构
  8. 职称计算机ppt2003窍门,PowerPoint2003使用技巧集锦(4)
  9. Django Rest Framework中文文档:Serializer relations
  10. 智能优化算法:秃鹰搜索算法 -附代码
  11. 如何搭建自己的内测分发平台?有可以直接用的内测分发平台吗?
  12. 生容易,活容易,生活不容易。
  13. Unity中TextMeshPro显示中文
  14. 关于商业智能BI,今天只谈这五点
  15. ubuntu18.04已匹配蓝牙耳机但是连接不上
  16. 手里拿着锤子,看啥都像钉子
  17. 关于推送消息的简要分析
  18. Win11系统禁止关机键关机的方法教学
  19. 团队作业七——团队作业分配
  20. RSME,MSE,R2等指标的解释与思考

热门文章

  1. win10下mount挂载文件 samba cifs
  2. 可逆矩阵的秩等于矩阵的阶数_矩阵论一些总结点
  3. fastjson 检测json格式_FastJson对于JSON格式字符串、JSON对象及JavaBean之间的相互转换...
  4. solidworks批量图号分离_SolidWorks图号分离宏-不需要特殊符号
  5. windows怎么将图片变为单色图片_印刷丨单色黑与四色黑
  6. JavaScript中的匿名函数遇上!会怎么样
  7. 百度网盘搜索源码,新加分词功能,内容相关度聚合更高
  8. python---字符编码
  9. Android的启动模式(上)
  10. linux logrotate进行日志分割