PAYING MORE ATTENTION TO ATTENTION：

PAYING MORE ATTENTION TO ATTENTION : IMPROVING THE PERFORMANCE OF C NVOLUTIONAL NEURAL NETWORKS VIA ATTENTION TRANSFER

论文地址：https://arxiv.org/abs/1612.03928

github地址：https://github.com/szagoruyko/attention-transfer

文章的提出的模型结构很朴素，和大部分的知识蒸馏方式相同，教师网络通过生成的注意力图（attentior map）来指导学生网络的注意力图学习，通过attention transfer 缩小学生attentior map 和教师网络attentior map 的距离使得学生网络学习到教师网络的注意力图。这样学生网络学习到了这些知识，便能够生成尽可能与教师网络相似的特征图。

这边提一点，在学习中间层特征图，不管是热力图，注意力图还是普通的特征图，两个网络在这个地方的大小是一致的，这样才能通过距离度量计算特征图的距离。

这是hint loss的思想，不同于hint loss只是单纯缩减特征图，而是将特征图转化为注意力图，使得学生网络模型学习到的不单纯只是特征图信息，而是真正的学到里面的特征。使得学生网络生成的特征图更加灵活，不局限于教师网络的特征图。

这个注意力图生成的方式也是非常朴素的，将多通道特征图叠加起来成为单通道图。这里的叠加可以是本身的n次方后叠加，也可以是不做乘方后的叠加。次方越高，注意力图越关注于高层特征（后几层卷积层），这是因为通过卷积后，后几层特征图的取值都是比较大的，显示出的注意力图也是明显的。如下图：

其次，模型越复杂的，生成的注意力图关注的目标特征越明显：

上图特征从上往下变复杂。

def at(x):return F.normalize(x.pow(2).mean(1).view(x.size(0), -1))

从源码上可以看到，先对特征图进行平方，在对平方后的特征图在通道上求平均（B,C,W,H）->(B,W,H),最后再进行平铺以进行后面的loss计算->(B,W*H)。

本文和hint loss一样使用：

def at_loss(x, y):return (at(x) - at(y)).pow(2).mean()

x为学生特征图，y为教师特征图。

并且，attention transfer可以在多个位置使用，并且模型不同，使用的个数影响不同：

最后，网络通过反向传播优化总损失。

实验表明本文有效，具体看原论文。

完（笑）

PAYING MORE ATTENTION TO ATTENTION：相关推荐

Paying More Attetion to Attention:Improving the Performance of Convolutional Neural Networks via AT
Paying More Attetion to Attention:Improving the Performance of Convolutional Neural Networks via Att ...
深入理解深度学习——注意力机制（Attention Mechanism）：带掩码的多头注意力（Masked Multi-head Attention）
分类目录:<深入理解深度学习>总目录相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...
深入理解深度学习——注意力机制（Attention Mechanism）：注意力评分函数（Attention Scoring Function）
分类目录:<深入理解深度学习>总目录相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...
Attention？Attention！
下文主要是结合自己的理解翻译自:Attention?Attention! 注意力(Attention)在近些年成为深度学习领域一个极其受欢迎的概念,同时作为一个强有力的工具也被集成到了各种模型中来处理 ...
用于图像描述的注意上的注意模型《Attention on Attention for Image Captioning》
<Attention on Attention for Image Captioning> Tiám青年 2019-11-17 23:21:10 2108 收藏 5 分类专栏: 计算机视觉 ...
Pay more attention to attention...Sergey Zagoruyko论文解读及代码解释
pay more attention to attention: improving the performance of convolutional neural networks via atte ...
Attention的本质：从Encoder-Decoder（Seq2Seq）理解
目录 1. 前言 2. Encoder-Decoder(Seq2Seq)框架 3. Attention原理 3.1 Soft Attention介绍 4. Attention机制的本质思想 5. 总结 ...
线性Attention的探索：Attention必须有个Softmax吗？
©PaperWeekly 原创 · 作者|苏剑林单位|追一科技研究方向|NLP.神经网络众所周知,尽管基于 Attention 机制的 Transformer 类模型有着良好的并行性能,但它的空 ...
深入理解深度学习——注意力机制（Attention Mechanism）：自注意力（Self-attention）
分类目录:<深入理解深度学习>总目录相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...

PAYING MORE ATTENTION TO ATTENTION：

PAYING MORE ATTENTION TO ATTENTION：相关推荐

最新文章

热门文章