文章目录

  • 方法
  • 实验
  • Limitation

论文:https://arxiv.org/abs/2303.10438
代码:https://github.com/wpy1999/SAT/blob/main/Model/SAT.py

方法


这篇文章的方法应该属于FAM这一类。

  1. 额外添加的一个spatial token,从第10-12层开始,利用其得到的attn map (对hea求mean–B, 1, 1, N+2) 作为visual cue去指出oject region,作用方式为将attn map 点乘到 attn weights(B, h, N+2, N+2)

  2. attn map得到的方式:不同与attn weights 是经过softmax,它这里是经过Sigmoid的。至于为什么,可能是Sigmoid后得到的map 激活更完整吧

  3. 最后的localization map是将前面L层的attn map求mean。虽然这种方法可以最大限度地捕获分类网络中的定位信息,但是从图像级标签获得的像素级监督是稀疏和不平衡的。为了补偿和加强这种监督,我们设计了批量区域损失和归一化损失。

    1. Bach Area Loss

      L b a = ∣ ∑ b B ∑ i H ∑ j W ( λ − M b ( i , j ) B × H × W ) ∣ \mathcal{L}_{b a}=\left|\sum_{b}^{B} \sum_{i}^{H} \sum_{j}^{W}\left(\lambda-\frac{M_{b}(i, j)}{B \times H \times W}\right)\right| Lba​= ​b∑B​i∑H​j∑W​(λ−B×H×WMb​(i,j)​) ​

      让激活区域更紧致,这类Loss这WSOL和WSSS很常见。

      where λ is a sparse area supervision with prior knowledge.The λ is set to 0.25 and 0.35 on CUB-200 and ImageNet.

    2. Normalization Loss

      L norm  = 1 H × W ∑ i H ∑ i W M ∗ ( i , j ) ( 1 − M ∗ ( i , j ) ) \mathcal{L}_{\text {norm }}=\frac{1}{H \times W} \sum_{i}^{H} \sum_{i}^{W} M^{*}(i, j)\left(1-M^{*}(i, j)\right) Lnorm ​=H×W1​i∑H​i∑W​M∗(i,j)(1−M∗(i,j))

      增强前-背景的区分度。应该会使得前景的激活响应更强,背景的激活响应更弱。

      在计算这个loss之前先用高斯滤波对loc map处理,增强局部一致性。(那为什么batch area loss之前 不先用高斯滤波处理??)

  4. 分类就跟之前transformer-based的方法一样,将patch token 变回feature map的形式,经过一层3x3 conv 后接avgpooling

注意:这篇文章的定位仅依赖于spatial token 带来的 attn map,不同与一些之前transformer-based的方法将attn map 与 semantic map 耦合。

实验

现有方法对比

在ImageNet上的消融,四幅图对应四种情况


area loss 和 normalization loss 效果我比较关注;

不同backone下验证

为什么要额外加一个spatial token 而不直接利用原有的cls token?

文章里从优化角度解释

Limitation


在ImageNet上应该会有更多困难的情况。

【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization相关推荐

  1. 论文阅读:Attention-based Dropout Layer for Weakly Supervised Object Localization

    Attention-based Dropout Layer for Weakly Supervised Object Localization 作者贡献 ADL: Attention-based Dr ...

  2. TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization

    TS-CAM:由Vision Transformer架构产生CAM类别激活图的一种方法 文章目录 TS-CAM:由Vision Transformer架构产生CAM类别激活图的一种方法 前言 一.论文 ...

  3. Ideas For Weakly Supervised Object Localization

    Ideas For Weakly Supervised Object Localization 最近开始跟着师兄做弱监督学习和医疗影像,近日阅读了几篇文章,与 Object Localization ...

  4. 目标定位--Deep Self-Taught Learning for Weakly Supervised Object Localization

    Deep Self-Taught Learning for Weakly Supervised Object Localization CVPR 2017 https://arxiv.org/abs/ ...

  5. Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localization and

    paper: Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localizati ...

  6. 【论文阅读】Online Attention Accumulation for Weakly Supervised Semantic Segmentation

    一篇弱监督分割领域的论文,其会议版本为: (ICCV2019)Integral Object Mining via Online Attention Accumulation 论文标题: Online ...

  7. 弱监督目标检测算法论文阅读(五)Combinational Class Activation Maps for Weakly Supervised Object Localization

    Abstract 弱监督的对象定位最近吸引了关注,因为它旨在通过使用图像级标签来识别类标签和对象位置.先前的大多数方法都使用与最高激活源相对应的激活图.仅利用一个最高概率类别的激活图通常会偏向有限的区 ...

  8. Weakly Supervised Object Localization:From CNN to Transformer、Weakly Supervised Semantic Segmentatio

    弱监督学习 知识点补充 一. 弱监督学习类型 不完全监督问题 1.主动学习 2.半监督学习 迁移学习 不确切监督问题(类似于一个包装盒子有标签,但是盒子中具体的东西没有标签) 解决办法----多示例学 ...

  9. Utilizing the Instability in Weakly Supervised Object Detection (CVPR2019) 解读

    论文链接:Utilizing the Instability in Weakly Supervised Object Detection 本文主要贡献: 通过分析检测器多示例学习(MIL)的不稳定性, ...

最新文章

  1. Python 工匠:善用变量来改善代码质量
  2. c ef框架-mysql_.net EF框架 MySql實現實例
  3. Springboot 集成Springcloud gateway的入门
  4. PHP 标准AES加密算法类
  5. Ubuntu 16.04安装Tomcat 8 图解
  6. bzoj3195 [Jxoi2012]奇怪的道路——状压DP
  7. 两用物项许可证办理流程_一指通 | 出口许可证办理流程
  8. Spring + RocketMQ使用
  9. vscode主题_VScode霓虹发光主题SynthWave 84|透明主题
  10. 1 LoRa 基本知识(参考LoRa物联网通信技术)
  11. Excel函数、快捷键等
  12. 《一个人工智能的诞生》学习记录
  13. JS JQUERY获取两个时间相差几个月
  14. GIS招聘 | 青海省省直事业单位(含地信、测绘等专业)
  15. windows下Elasticsearch安装、ElasticSearch-head插件安装使用
  16. Mand Mobile - 滴滴出品的适用于金融项目的 Vue 移动端 UI 组件库,免费开源、灵活快速、丰富实用
  17. aptio设置全中文_中文bios设置方法图解教程(超简单)
  18. 电子合同管理有这些细节更需要注意!
  19. mysql slave-skip-errors_mysql之slave_skip_errors选项
  20. 三星android获取root权限,三星S9 G9600 9.0 root教程_获取安卓9.0系统的root权限的方法...

热门文章

  1. Docker 私有仓库
  2. 以业务为核心,泛微协助生产制造企业推动销售到生产一体化管理
  3. halcon-通过视觉提取血管造影中血管并测量直径
  4. sendmessage获取usb摄像机_尽职尽责 家庭哨兵——360摄像机云台变焦版再体验
  5. 世界ol的服务器在哪个文件夹,世界ol副本地点在哪
  6. ctf之逆向常见题型
  7. 关于我在中华读书报发表的文章
  8. (二)【软件设计师】计算机系统—CPU运算器控制器
  9. 转载:小白如何成为初级WebGIS开发工程师
  10. 什么是矩阵式项目管理?