PAYING MORE ATTENTION TO ATTENTION : IMPROVING THE PERFORMANCE OF C NVOLUTIONAL NEURAL NETWORKS VIA ATTENTION TRANSFER

论文地址:https://arxiv.org/abs/1612.03928

github地址:https://github.com/szagoruyko/attention-transfer

文章的提出的模型结构很朴素,和大部分的知识蒸馏方式相同,教师网络通过生成的注意力图(attentior map)来指导学生网络的注意力图学习,通过attention transfer 缩小学生attentior map 和教师网络attentior map 的距离使得学生网络学习到教师网络的注意力图。这样学生网络学习到了这些知识,便能够生成尽可能与教师网络相似的特征图。

这边提一点,在学习中间层特征图,不管是热力图,注意力图还是普通的特征图,两个网络在这个地方的大小是一致的,这样才能通过距离度量计算特征图的距离。

这是hint loss的思想,不同于hint loss只是单纯缩减特征图,而是将特征图转化为注意力图,使得学生网络模型学习到的不 单纯只是特征图信息,而是真正的学到里面的特征。使得学生网络生成的特征图更加灵活,不局限于教师网络的特征图。

这个注意力图生成的方式也是非常朴素的,将多通道特征图叠加起来成为单通道图。这里的叠加可以是本身的n次方后叠加,也可以是不做乘方后的叠加。次方越高,注意力图越关注于高层特征(后几层卷积层),这是因为通过卷积后,后几层特征图的取值都是比较大的,显示出的注意力图也是明显的。如下图:

其次,模型越复杂的,生成的注意力图关注的目标特征越明显:

上图特征从上往下变复杂。

def at(x):return F.normalize(x.pow(2).mean(1).view(x.size(0), -1))

从源码上可以看到,先对特征图进行平方,在对平方后的特征图在通道上求平均(B,C,W,H)->(B,W,H),最后再进行平铺以进行后面的loss计算->(B,W*H)。

本文和hint loss一样使用:

def at_loss(x, y):return (at(x) - at(y)).pow(2).mean()

x为学生特征图,y为教师特征图。

并且,attention transfer可以在多个位置使用,并且模型不同,使用的个数影响不同:

最后,网络通过反向传播优化总损失。

实验表明本文有效,具体看原论文。

完(笑)

PAYING MORE ATTENTION TO ATTENTION:相关推荐

  1. Paying More Attetion to Attention:Improving the Performance of Convolutional Neural Networks via AT

    Paying More Attetion to Attention:Improving the Performance of Convolutional Neural Networks via Att ...

  2. 深入理解深度学习——注意力机制(Attention Mechanism):带掩码的多头注意力(Masked Multi-head Attention)

    分类目录:<深入理解深度学习>总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...

  3. 深入理解深度学习——注意力机制(Attention Mechanism):注意力评分函数(Attention Scoring Function)

    分类目录:<深入理解深度学习>总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...

  4. Attention?Attention!

    下文主要是结合自己的理解翻译自:Attention?Attention! 注意力(Attention)在近些年成为深度学习领域一个极其受欢迎的概念,同时作为一个强有力的工具也被集成到了各种模型中来处理 ...

  5. 用于图像描述的注意上的注意模型《Attention on Attention for Image Captioning》

    <Attention on Attention for Image Captioning> Tiám青年 2019-11-17 23:21:10 2108 收藏 5 分类专栏: 计算机视觉 ...

  6. Pay more attention to attention...Sergey Zagoruyko论文解读及代码解释

    pay more attention to attention: improving the performance of convolutional neural networks via atte ...

  7. Attention的本质:从Encoder-Decoder(Seq2Seq)理解

    目录 1. 前言 2. Encoder-Decoder(Seq2Seq)框架 3. Attention原理 3.1 Soft Attention介绍 4. Attention机制的本质思想 5. 总结 ...

  8. 线性Attention的探索:Attention必须有个Softmax吗?

    ©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 众所周知,尽管基于 Attention 机制的 Transformer 类模型有着良好的并行性能,但它的空 ...

  9. 深入理解深度学习——注意力机制(Attention Mechanism):自注意力(Self-attention)

    分类目录:<深入理解深度学习>总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...

最新文章

  1. 四川高中计算机学校图片,四川2021年100分能上计算机学校吗
  2. mysql多租户schema复制,Asp.net core下利用EF core实现从数据实现多租户(3): 按Schema分离 附加:EF Migration 操作...
  3. 如何使用Java,Maven,Jetty创建Web应用程序项目
  4. 初学者怎样看懂python代码_入门编程(初学者怎样看懂代码)
  5. 面试题 08.09. 括号
  6. java类与继承的执行顺序
  7. hadoop2.6.4 在ubuntu14.04下的搭建
  8. Git工作笔记002---CentOS安装gitLab社区版
  9. linux 局域网内互ping丢包_ping命令还能这么用?
  10. 小米开源语音模型 Kaldi-ONNX 转换工具,助力移动端部署!
  11. mysql odb驱动_odb C++访问mysql数据库,从安装到写入
  12. docker启动失败Failed to start Docker Application Container Engine.(centos7)
  13. CBoard 0.4.2环境搭建
  14. 原神个人测评:不好玩的精品
  15. Unity DOTween插件和iTween插件使用(笔记)
  16. Linux服务器4 --- select模型服务端代码及select模型的利弊
  17. 圣诞节礼物送什么有新意?高颜值蓝牙耳机可表心意
  18. k8s-----安全机制
  19. syswow64删除文件_syswow64,教您syswow64是什么文件夹
  20. python exec 函数_Python之浅谈exec函数

热门文章

  1. 弹出模式窗口的returnValue问题
  2. 软考 - 高级信息系统项目管理师,论文写作特训(考试范围、格式、注意事项及习作模板)
  3. 英语学习:连读、失爆、弱读、影子跟读等
  4. 《视频直播技术详解》之二:编码和封装、推流和传输
  5. 电动调节阀门选用注意事项
  6. PPT | ​云上安全防卫战
  7. Makeblock教育机器人
  8. iOS进入界面隐藏下方tabbar等bar
  9. 织梦php开发tags功能开发,织梦二次开发模板新建PHP页面支持系统标签
  10. WIP Discrete Job or EAM Work Order remain stuck in Pending Close Status (文档 ID 158674.1)