Object-Aware Instance Labeling for Weakly Supervised Object Detection

Kosugi ICCV, 2019 (PDF) (Citations 26)

Abstract

focus on 为了提高迭代更新的效率,我们重点研究了实例标记问题,即根据最后的定位结果,每个区域应该标注哪些标签。

CAP Labeling 为了解决只覆盖部分对象的区域容易被标记为正的问题,我们针对上下文分类损失,寻找覆盖整个对象的区域。

SRN Labeling考虑到图像中包含的其他物体可以被标记为负的情况,通过空间限制来防止同一图像中的其他相同对象被标记为负样本。

1. Introduction

图 1. (a) 基线实例标记和 (b) 我们的实例标记的比较。在定位结果中,仅显示得分最高的区域(红色框)。实例标记中的减少框表示标记为正/负的区域。我们的标记方法可以将覆盖整个对象的区域标记为正例,重点关注上下文分类损失,并避免将其他对象标记为负向,从而引入空间限制。

本文的贡献如下:

  • 我们从实例标记的角度改进了WSOD 方法。
  • 我们提出了两种实例标记方法。第一种(CAP)旨在根据上下文分类损失找到覆盖整个对象的区域。第二种(SRN)可以通过施加空间限制来避免将对象标记为负面。
  • PASCAL VOC 2007 和 2012 数据集的实验表明,我们的方法可以实现比其他最先进的方法更好的性能。

2. Related works

WSOD is a task where a detector is trained with only image-level annotations. Methods for WSOD can be roughly divided into three approaches: the alternating approach, end-to-end approach, and transferring approach.

3. Method

OICR

该论文以OICR作为基线方法,关于该论文的具体笔记可见 论文笔记 Multiple Instance Detection Network with Online Instance Classifier Refinement

Problem OICR的标注方法有两个问题。首先,倾向于检测对象的最具辨别力的部分而不是整个对象。如果 rjcr_{j_c}rjc​​ 没有高度重叠整个对象,则渐进式更新会陷入局部最优。其次,简单的实例标记没有考虑图像包含同一类的多个对象的情况。即使一个对象被正确标记为正面,其他对象也可能被错误地标记为背景。为了解决这些问题,我们提出了更有效的实例标记方法,称为 CAP 标记和 SRN 标记。

3.1. CAP Labeling

我们提出了 CAP 标记,以避免检测到对象最具辨别力的部分而不是整个对象的问题。我们引入了一个判断一个区域是否覆盖整个对象的网络,当我们生成实例标签时,从覆盖整个对象的区域中选择得分最高的区域。

在以前的一些方法[1, 12]中,使用屏蔽策略来查找整个对象。如果某个区域的遮罩图像降低了分类置信度,则可以认为该区域具有区分性。然而,我们通过实验发现,仅覆盖对象某些部分的区域屏蔽会降低分类置信度。这种屏蔽方法不适合发现覆盖整个对象的区域。

为了更准确地判断一个区域是否覆盖了整个对象,我们重点研究了 Tanaka 等人的研究 [19],他们处理带有噪声标签的分类问题,其中分类器使用带噪声的标签图像进行训练。在这里,有噪声的标记图像意味着错误标记的图像(例如,标记为猫的狗图像)。根据他们的说法,当分类器在有噪声的标记图像上进行训练时,训练损失会根据数据是有噪声的还是无噪声的而有所不同。对于无噪声的图像,损失趋于减少,而对于有噪声的标记图像则很难减少。

我们发现这个特征可以用来判断一个区域是否覆盖了整个物体。我们关注的不是区域内部,而是区域外部。我们将区域的外部称为该区域的上下文。以包含猫的图像为例;当一个区域覆盖整个猫时,该区域的上下文中不存在猫。另一方面,当一个区域没有覆盖整个猫时,猫的某些部分在上下文中。如果我们将所有区域的上下文标记为猫,这些都是有噪声的标记图像:当一个区域覆盖整只猫时,该区域的上下文是有噪声,否则是无噪声的。通过使用这些数据训练分类器,分类损失会根据区域是否覆盖整只猫而有所不同。

作为一种基于上下文训练分类器的简单方法,在图像输入到 CNN 之前,区域内部填充了平均像素值。但是,这种方法需要对每个区域进行 CNN 前向传播,并且非常耗时。为了实现低计算成本,我们对 CNN 特征执行屏蔽。对应区域内部的 CNN 特征用零值填充。然后将屏蔽后的特征与全局平均池(GAP)池化并输入到全连接(FC)层。

设具有 CNN 特征掩码输出的分类器的输出为 p∈RC×Jp\in R^{C\times J}p∈RC×J ,其中每个元素 pcjp_{cj}pcj​ 表示 rjr_jrj​ 上下文中类别 ccc 的概率。这个分类器使用图像级标签 Y\textbf{Y}Y 训练,以最小化标准多类交叉熵损失,
Lcontext =−1J∑j=1J∑c=1C{yclog⁡pcj+(1−yc)log⁡(1−pcj)}L_{\text {context }}=-\frac{1}{J} \sum_{j=1}^{J} \sum_{c=1}^{C}\left\{y_{c} \log p_{c j}+\left(1-y_{c}\right) \log \left(1-p_{c j}\right)\right\} Lcontext ​=−J1​j=1∑J​c=1∑C​{yc​logpcj​+(1−yc​)log(1−pcj​)}
如果一个区域覆盖了整个对象,训练后上下文的训练损失很高,因为该区域的上下文是有噪声。换言之,图像中包含类别 ccc 的类别概率 pcjp_{cj}pcj​ (yc=1y_c = 1yc​=1) 较低。另一方面,如果一个区域没有覆盖整个对象,那么无噪声的上下文的分类概率就很高。

当我们进行实例标记时,得分最高的区域是从上下文类概率低的区域中选择的,
jc=arg⁡max⁡jxcjk−1s.t. pcj<Ptj_{c}=\arg \max _{j} x_{c j}^{k-1} \quad \text { s.t. } p_{c j}<P_{t} jc​=argjmax​xcjk−1​ s.t. pcj​<Pt​
其中 PtP_tPt​ 是一个阈值。然后按照 OICROICROICR 方法,高度重叠的区域根据 ycjk={1if IoU⁡(rj,rjc)>It0otherwise y_{c j}^{k}= \begin{cases}1 & \text { if } \operatorname{IoU}\left(r_{j}, r_{j_{c}}\right)>I_{t} \\ 0 & \text { otherwise }\end{cases}ycjk​={10​ if IoU(rj​,rjc​​)>It​ otherwise ​ 标记为正标签。

即使一个区域覆盖了整个对象,在某些情况下上下文的训练损失也会减少;例如,当上下文与对象密切相关时(例如,飞机和天空),或者当图像中有两个或多个对象时。为了解决这个问题,我们引入了 Xiao 等人的 [25] 显著性图(saliency map)。继 Wei 等人之前的 WSOD 方法 [24],我们将显着性高于 0.060.060.06 的区域定义为前景,将其他区域定义为背景。当分类器基于Lcontext L_{\text {context }}Lcontext ​训练时,背景区域在输入分类器之前用平均像素值填充。当为jc=arg⁡max⁡jxcjk−1j_{c}=\arg \max _{j} x_{c j}^{k-1}jc​=argmaxj​xcjk−1​ 计算类概率时, 我们将前景段划分为每个独立的段,选择该段与框之间具有最高 IoU⁡\operatorname{IoU}IoU 的前景段,并用平均像素值填充其他区域。因此,关注的框的对象是可见的,而其他对象是隐藏的。

3.2. SRN Labeling

在 CAP 标记中,我们将 rjcr_{j_c}rjc​​ 高度重叠的区域标记为正例。如果一个区域没有被分配任何对象类,即对于所有 c∈{1,...,C}c\in \{1, ..., C\}c∈{1,...,C},ycjky^k_{cj}ycjk​ 为 000,则该区域被标记为背景,y(C+1)jk=1y^k_{(C+1)j} = 1y(C+1)jk​=1。这个标记有一个问题:当图像具有特定类别的多个对象时,即使一个对象被正确标记为正面,其他对象也被标记为背景。

为了解决这个问题,我们提出了 SRN 标签。这种方法的灵感来自于在远离对象的区域可能存在其他对象的事实。在 SRN 标记中,我们通过修改 wjk=xcjck−1w_{j}^{k}=x_{c j_{c}}^{k-1}wjk​=xcjc​k−1​ 中的权重对作为背景训练的区域进行空间限制,如下,
wjk={xcjck−1if IoU⁡(rj,rjc)>it0otherwise w_{j}^{k}= \begin{cases}x_{c j_{c}}^{k-1} & \text { if } \operatorname{IoU} \left(r_{j}, r_{j_{c}}\right)>i_{t} \\ 0 & \text { otherwise }\end{cases} wjk​={xcjc​k−1​0​ if IoU(rj​,rjc​​)>it​ otherwise ​
其中,iti_tit​是一个低于ItI_tIt​的阈值。

OICR中,wjkw_{j}^{k}wjk​ 旨在限制初期不可靠标签的贡献,例如在训练开始时生成的标签。SRN 标注是这个的空间版本:我们认为偏远地区的标注是不可靠的,直接将偏远地区的标签赋权为0,以防止偏远的正样本被标记为负。

3.3. Overall architecture

图 2. 方法概述。我们根据最后的定位结果将每个区域标记为正或负,并在这些实例标签上训练下一个实例分类器。为了将覆盖整个对象的区域标记为正,我们发现这些区域侧重于上下文分类损失。此外,我们采用空间限制来避免将其他对象标记为负面。尽管此图像仅显示了第一个实例分类器,但第二个和后续实例分类器的训练方式相同。

整体架构如图 2 所示。训练时,我们首先根据Lcontext L_{\text {context }}Lcontext ​中的损失训练上下文分类器并计算上下文类概率pcjp_{cj}pcj​。然后我们训练 WSDDN 和多实例分类器以最小化以下损失,
LOICR=Lb+∑k=1KLrkL_{O I C R}=L_{b}+\sum_{k=1}^{K} L_{r}^{k} LOICR​=Lb​+k=1∑K​Lrk​
在测试中,我们忽略上下文分类器和WSDDN,取多个实例分类器输出的平均值,得到最终的检测结果。

延申阅读

[1] OICR Multiple Instance Detection Network with Online Instance Classifier Refinement

[2] WSDDN Weakly Supervised Deep Detection Networks_CiLin-Yan的博客-CSDN博客

参考资料

[1] 论文笔记:Object-Aware Instance Labeling forWeakly Supervised Object Detection

论文笔记 Object-Aware Instance Labeling for Weakly Supervised Object Detection - ICCV 2019相关推荐

  1. 论文阅读:Attention-based Dropout Layer for Weakly Supervised Object Localization

    Attention-based Dropout Layer for Weakly Supervised Object Localization 作者贡献 ADL: Attention-based Dr ...

  2. 【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization

    文章目录 方法 实验 Limitation 论文:https://arxiv.org/abs/2303.10438 代码:https://github.com/wpy1999/SAT/blob/mai ...

  3. 论文笔记 Weakly Supervised Deep Detection Networks - CVPR 2016

    Weakly Supervised Deep Detection Networks Hakan Bilen, Andrea Vedaldi CVPR, 2016 (PDF) (Citations 58 ...

  4. Utilizing the Instability in Weakly Supervised Object Detection (CVPR2019) 解读

    论文链接:Utilizing the Instability in Weakly Supervised Object Detection 本文主要贡献: 通过分析检测器多示例学习(MIL)的不稳定性, ...

  5. 论文报告笔记(四) Towards Precise End-to-end Weakly Supervised Object Detection Network

    文章目录 论文报告笔记(四) Towards Precise End-to-end Weakly Supervised Object Detection Network 弱监督学习 WSDDN OIC ...

  6. [CVPR 2016] Weakly Supervised Deep Detection Networks论文笔记

    Weakly Supervised Deep Detection Networks,Hakan Bilen,Andrea Vedaldi https://www.cv-foundation.org/o ...

  7. 论文阅读 (86):Normality Guided Multiple Instance Learning for Weakly Supervised Video Anomaly Detection

    文章目录 1 引入 1.1 题目 1.2 摘要 1.3 引用 2 方法 2.1 背景和动机 2.2 正态导向微调模块 2.2.1 正态更新 2.2.2 异常预测微调 2.3 学习目标 2.3.1 正态 ...

  8. 【论文阅读】Online Attention Accumulation for Weakly Supervised Semantic Segmentation

    一篇弱监督分割领域的论文,其会议版本为: (ICCV2019)Integral Object Mining via Online Attention Accumulation 论文标题: Online ...

  9. TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization

    TS-CAM:由Vision Transformer架构产生CAM类别激活图的一种方法 文章目录 TS-CAM:由Vision Transformer架构产生CAM类别激活图的一种方法 前言 一.论文 ...

最新文章

  1. AI十级「找茬」选手,非这个书生莫属,节后开源!
  2. 十分简洁的手机浏览器 lydiabox
  3. Java-JDK动态代理
  4. Intent 匹配规则
  5. 关于LGame-0.2.9版的开发进度
  6. 我的技术博客在博客园落户了
  7. PyCharm安装及使用
  8. HDU - 6629 string matching(扩展KMP)
  9. 学习总结——Selenium元素定位
  10. vue 如何获取图片的原图尺寸_公众号封面图片尺寸是多少?如何在公众号里制作封面图?...
  11. CWNP认证和Cisco无线认证区别
  12. VMware 虚拟机优化十招
  13. Linux Shell编程 - 正则表达式
  14. sap 测试数据生成报表
  15. 【从C到C++学习笔记】内敛函数/内敛函数与带参数宏的区别/新的类型转换运算符
  16. Winedit 下载第三方库
  17. 产品的分类(民用商用级、工业级、汽车电子级、军工级)
  18. HP1020打印机打印异常
  19. 分享111个ASP源码,总有一款适合您
  20. 电子病历模板编辑器_这几个邮件模板网站,帮助提升工作效率

热门文章

  1. 笔记本+显示器常用设置总结
  2. 通过access口加vlan标签吗_浅谈-华为vlan下access、trunk、hybrid的配置及标签分析
  3. hdu 6863 Isomorphic Strings
  4. 用计算机软件绘制思维导图和手绘思维导图,原来手绘思维导图的好处这么多,你还在用软件画导图吗?...
  5. ubuntu为软件设定图标
  6. google 卫星地图
  7. [siggraph13]《巫师3》角色渲染
  8. 1190 -- 找x
  9. hadoop2.9安装及配置_阿里云服务器上装Hadoop的心得(内附Hadoop2.9.2详细安装教程)...
  10. Python3入门教程:Excel 基础操作(上)