Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer

Motivation

大量的论文已经证明Attention在CV、NLP中都发挥着巨大的作用,因为本文利用Attention做KD,即让student学习teacher的attention maps

Activation-based attention transfer

如果定义是spatial attention map

  • 各个channel相同位置绝对值求和
  • 各个channel相同位置p次方求和:对比1,会更加注重于响应高的地方
  • 各个channel相同位置p次方求最大值


    3种方式得到的attention map各有侧重,后两种更加侧重一些响应更突出的位置

    最终的Loss:

    Qs Qt为第j对student和teacher的attention map

beta取1000,式子后半部会在所有位置取平均,整体来说后半部的权重在0.1左右

Gradient-based attention transfer

网络对某些位置输入的敏感性,比如调整某些位置的像素然后观察网络输出的变化,如果某些位置调整后网络输出变化大即说明网络更加paying attention to这个位置

Experiments

activation-based AT, F-AcT(类似FitNets,1x1做feature adaptation后做L2 loss)

平方和效果最好

activation-based好于gradient-based

其他在Scenes这个数据集上AT做的比传统的KD要好很多,猜测是因为we speculate is due to importance of intermediate attention for fine-grained recognition

好像作者写错了吧,这里明明CUB才是fine-grained的数据集

重要

KD struggles to work if teacher and student have different architecture/depth (we observe the same on CIFAR), so we tried using the same architecture and depth for attention transfer.

We also could not find applications of FitNets, KD or similar methods on ImageNet in the literature. Given that, we can assume that proposed activation-based AT is the first knowledge transfer method to be successfully applied on ImageNet.

Attention Transfer相关推荐

  1. 论文阅读:Hierarchical Attention Transfer Network for Cross-Domain Sentiment Classification

    论文来源:https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/16873/16149 发表日期:2018AAAI 研究背景 用户通常在社 ...

  2. 【cvpr2022-论文笔记】《L2G: A Simple Local-to-Global Knowledge Transfer .... Semantic Segmentation》

    目录 文章概述 网络架构 Classification Loss Attention Transfer Loss Shape Tansfer Loss 相关讨论 本文记录弱监督语义分割领域论文笔记&l ...

  3. Paying More Attetion to Attention:Improving the Performance of Convolutional Neural Networks via AT

    Paying More Attetion to Attention:Improving the Performance of Convolutional Neural Networks via Att ...

  4. PAYING MORE ATTENTION TO ATTENTION:

    PAYING MORE ATTENTION TO ATTENTION : IMPROVING THE PERFORMANCE OF C NVOLUTIONAL NEURAL NETWORKS VIA ...

  5. Pay more attention to attention...Sergey Zagoruyko论文解读及代码解释

    pay more attention to attention: improving the performance of convolutional neural networks via atte ...

  6. 收藏 | 一文带你总览知识蒸馏,详解经典论文

    「免费学习 60+ 节公开课:投票页面,点击讲师头像」 作者:凉爽的安迪 来源 | 深度传送门(ID:deep_deliver) [导读]这是一篇关于[知识蒸馏]简述的文章,目的是想对自己对于知识蒸馏 ...

  7. 关于知识蒸馏,这三篇论文详解不可错过

    作者 | 孟让 转载自知乎 导语:继<从Hinton开山之作开始,谈知识蒸馏的最新进展>之后,作者对知识蒸馏相关重要进行了更加全面的总结.在上一篇文章中主要介绍了attention tra ...

  8. 百度15篇论文被AAAI 2019收录

    1月27日,第33届 AAAI(AAAI 2019)在美国夏威夷召开,其中百度共有15篇论文被收录. AAAI于1979年成立,是国际人工智能领域的顶级国际会议.这一协会如今在全球已有超过6000名的 ...

  9. 【模型蒸馏】从入门到放弃:深度学习中的模型蒸馏技术

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要17分钟 跟随小博主,每天进步一丢丢 来自 | 知乎   作者 | 小锋子Shawn 地址 | https://zhuanlan.zhihu.c ...

最新文章

  1. 苹果公司华人研究员抛弃注意力机制,史上最快的Transformer!新模型达成最低时间复杂度...
  2. 网络发展的模式之一:新功能在应用系统涌现,然后逐渐迁移到基础设施
  3. 如何用Linux写c程序并编译运行
  4. 算法练习day16——190404(KMP算法)
  5. ITK:侵蚀二进制图像
  6. git命令之git tag 给当前分支打标签
  7. solr 7 mysql导入_solr 7.7.0 windows 导入mysql数据库数据
  8. LeetCode 1300. 转变数组后最接近目标值的数组和(二分查找)
  9. 基于JAVA+SpringMVC+MYSQL的宠物管理系统
  10. 3-26 C++ 学习
  11. SegmentFault 巨献 1024 程序猿游戏「红岸的呼唤」第四天任务攻略
  12. MATLAB教程(二)matlib安装
  13. 2018年尚硅谷徐靖博老师的分布式电商项目视频
  14. EndNote X9破解之后遇到的问题
  15. Netlogo入门(一)
  16. Android 微信双开
  17. ibm是被联想收购了吗_联想收购IBM之后为什么出现品牌危机
  18. 在GitHub上被称为“MySQL荣耀笔记“,从入门到精通只需一个月
  19. Oracle 、SqlServer 根据日期逐日、逐月递增累加、逐行累加
  20. java 自幂数_JAVA 编程01:用JAVA语言实现所有自幂数的输出

热门文章

  1. 聚响设计丨是什么让帽牌货冒菜突破全国5000家?
  2. 每天写代码每天调试的他坚持了二十年,出版了软件调试大全
  3. 电子表和电子计算机的电池,电子手表如何换电池?电子手表换电池时应注意的这几点...
  4. 数据压缩实验七——MEPG音频编码
  5. Layui table合并单元格
  6. FANUC机器人SRVO-043 DCAL报警原因及对策
  7. BIM建模|关于Revit的42个知识点
  8. 炫云客户端上就可以直接全景图合成了
  9. Internet软件设计——产品设计方法借鉴
  10. sap 物料标准价和移动平均价差异