作者贡献

问题：网络的学习只能学习图像最具有辨别力的部分。
解决：提出了基于attention的dropout层，基于两个关键的组成部分：drop mask 和 importance mask

ADL: Attention-based Dropout Layer

主要流程
ADL应用于分类模型的每个特征图，以引导模型学习对象完整的区域。ADL从输入特征图中生成self-attention map以及产生一个drop mask和importance map。在训练期间，每次迭代随机选择drop mask或者importance map应用到输入特征图。
drop mask：惩罚以诱导模型覆盖对象整体范围内最具鉴别性的部分。
importance map：奖励最具有辨别力的部分以提升模型的分类能力。
主要参数
drop_rate:表示应用drop mask的频率。
γγγ:控制删除区域的大小。

详细解释

ADL的输入是一张卷积特征图 F⊆RH×W×CF⊆R^{H×W×C}F⊆RH×W×C。通过使用channelwise average pooling压缩F，生成self-attention map Matt⊆RH×WM_{att}⊆R^{H×W}Matt⊆RH×W。由于该模型是经过分类训练的，因此self-attention map中每个像素的强度与识别能力成正比。这样，可以有效地逼近最具鉴别性部分的空间分布。
为了获得drop mask，首先设置self-attention map的最大强度的比例γγγ为drop值域。然后通过将大于阈值的像素设为0，小于阈值的像素设为1，产生 Mdrop⊆RH×WM_{drop}⊆R^{H×W}Mdrop⊆RH×W。（通过空间乘法将其运用到输入特征，以此隐藏最具有判别力的部分。）
将Matt⊆RH×WM_{att}⊆R^{H×W}Matt⊆RH×W通过softmax生成Mimp⊆RH×WM_{imp}⊆R^{H×W}Mimp⊆RH×W。也就是说，在最具鉴别性的区域，重要性图中每个像素的强度接近于1，而在最不具鉴别性的区域，其强度接近于0。（通过空间乘法将其运用到输入特征，以提高分类模型的正确率。）
ADL不用于测试阶段。

实验

数据集
cub200 -2011和ImageNet-1k
实现细节

骨干模型：VGG、ResNet、MobileNetV1和InceptionV3。
VGG16的最后一个池化层和两个完全连接的层替换为一个间隙层。
在SPG之后，使用定制的InceptionV3作为主干。
将SE块插入ResNet50中，以演示ADL与self-attention方法的兼容性。
对于ResNet和MobileNetV1，为了将热力图的空间分辨率扩大到14x14，将最后一个strided convolution的stride设置为1。
ADL依次插入CNN模型的每个feature map中;ADL的输出是下一层的输入。
利用ImageNet-1k数据集对模型进行预处理，然后对网络进行微调。
使用CAM从分类模型中提取热力图。此外，边界框是从热力图中提取的方法与相同。
使用Tensorpack在Tensorflow上实现模型，并使用NVIDIA Titan Xp GPU对其进行训练。
基于大量的消融研究，发现将ADL应用于网络的中高层是最优的。特别是对于中间层，最好将其应用于瓶颈部分(如池化层或strided convolution)。
将drop_rate设置为75%。 VGG-GAP and InceptionV3的γ=80%， MobileNetV1的γ=95%，ResNet的γ=90%。

度量

Top-1分类精度(Top-1 Clas)
具有已知真实标签类的定位精度(GT-known Loc)
Top-1定位精度(Top-1 Loc)

实验结果

论文阅读：Attention-based Dropout Layer for Weakly Supervised Object Localization相关推荐

【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization
文章目录方法实验 Limitation 论文:https://arxiv.org/abs/2303.10438 代码:https://github.com/wpy1999/SAT/blob/mai ...
Ideas For Weakly Supervised Object Localization
Ideas For Weakly Supervised Object Localization 最近开始跟着师兄做弱监督学习和医疗影像,近日阅读了几篇文章,与 Object Localization ...
TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization
TS-CAM:由Vision Transformer架构产生CAM类别激活图的一种方法文章目录 TS-CAM:由Vision Transformer架构产生CAM类别激活图的一种方法前言一.论文 ...
目标定位--Deep Self-Taught Learning for Weakly Supervised Object Localization
Deep Self-Taught Learning for Weakly Supervised Object Localization CVPR 2017 https://arxiv.org/abs/ ...
Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localization and
paper: Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localizati ...
弱监督目标检测算法论文阅读（五）Combinational Class Activation Maps for Weakly Supervised Object Localization
Abstract 弱监督的对象定位最近吸引了关注,因为它旨在通过使用图像级标签来识别类标签和对象位置.先前的大多数方法都使用与最高激活源相对应的激活图.仅利用一个最高概率类别的激活图通常会偏向有限的区 ...
Weakly Supervised Object Localization：From CNN to Transformer、Weakly Supervised Semantic Segmentatio
弱监督学习知识点补充一. 弱监督学习类型不完全监督问题 1.主动学习 2.半监督学习迁移学习不确切监督问题(类似于一个包装盒子有标签,但是盒子中具体的东西没有标签) 解决办法----多示例学 ...
Utilizing the Instability in Weakly Supervised Object Detection (CVPR2019) 解读
论文链接:Utilizing the Instability in Weakly Supervised Object Detection 本文主要贡献: 通过分析检测器多示例学习(MIL)的不稳定性, ...
论文笔记 Object-Aware Instance Labeling for Weakly Supervised Object Detection - ICCV 2019
Object-Aware Instance Labeling for Weakly Supervised Object Detection Kosugi ICCV, 2019 (PDF) (Citat ...

论文阅读：Attention-based Dropout Layer for Weakly Supervised Object Localization

Attention-based Dropout Layer for Weakly Supervised Object Localization

作者贡献

ADL: Attention-based Dropout Layer

实验

论文阅读：Attention-based Dropout Layer for Weakly Supervised Object Localization相关推荐

最新文章

热门文章