Multiple Instance Detection Network with Online Instance Classifier Refinement

华中科大Peng Tang, Xinggang Wang CVPR, 2017 (PDF) (code)

Contributions

  1. We propose a framework for weakly supervised learning that combines MIDN with multi-stage instance classifiers. With only supervision of the outputs from its preceding stage, the discriminatory power of the instance classifier can be enhanced iteratively.

  2. We further design a novel OICR algorithm that integrates the basic detection network and the multi-stage instance-level classifier into a single network. The proposed network is end-to-end trainable. Compared with the alternatively training strategy, we demonstrate that our method can not only reduce the training time, but also boost the performance.

  3. Our method achieves significantly better results over previous state-of-the-art methods on the challenging PASCAL VOC 2007 and 2012 benchmarks for weakly supervised object detection.

Method

MIDN(Multiple instance detection network)

  • Proposal feature vector 经过FC层分别得到 xc,xd∈RC×∣R∣\mathbf{x}^{c},\mathbf{x}^{d} \in \mathbb{R}^{C \times|R|}xc,xd∈RC×∣R∣
  • xc\mathbf{x}^{c}xc经过Sofrmax层得到[σ(xc)]ij=exijc∑k=1Cexkjc\left[\sigma\left(\mathbf{x}^{c}\right)\right]_{i j}=\frac{e^{x_{i j}^{c}}}{\sum_{k=1}^{C} e^{x_{k j}^{c}}}[σ(xc)]ij​=∑k=1C​exkjc​exijc​​, 表示建议区域jjj属于类别iii的概率。
  • xd\mathbf{x}^{d}xd经过Sofrmax层得到[σ(xd)]ij=exijc∑k=1∣R∣exikc\left[\sigma\left(\mathbf{x}^{d}\right)\right]_{i j}=\frac{e^{x_{i j}^{c}}}{\sum_{k=1}^{|R|} e^{x_{ik}^{c}}}[σ(xd)]ij​=∑k=1∣R∣​exikc​exijc​​, 表示图片被分类为iii类时建议区域jjj作的贡献。
  • 初始建议得分矩阵xR=σ(xc)⊙σ(xd)\mathbf{x}^{R}=\sigma\left(\mathbf{x}^{c}\right) \odot \sigma\left(\mathbf{x}^{d}\right)xR=σ(xc)⊙σ(xd),其中每个元素 xijRx^R_{ij}xijR​ 表示建议区域 rjr_jrj​ 对类别iii的得分,用于后续迭代。
  • 对所有区域建议求和得到图像分数ϕc=∑r=1∣R∣xcrR\phi_{c}=\sum_{r=1}^{|R|} x_{c r}^{R}ϕc​=∑r=1∣R∣​xcrR​,表示图像对类别ccc的得分。
  • 基本实例分类器多类交叉熵损失函数Lb=−∑c=1C{yclog⁡ϕc+(1−yc)log⁡(1−ϕc)}\mathrm{L}_{\mathrm{b}}=-\sum_{c=1}^{C}\left\{y_{c} \log \phi_{c}+\left(1-y_{c}\right) \log \left(1-\phi_{c}\right)\right\}Lb​=−∑c=1C​{yc​logϕc​+(1−yc​)log(1−ϕc​)}

OICR(Online instance classifier refinement)

精炼分类器的一种自然方式是一种交替策略,即固定分类器并标记提议,固定提议标签并训练分类器。但它有一些局限性:1)非常耗时,因为它需要多次训练分类器; 2)在不同的细化步骤中分别训练不同的分类器可能会损害性能,因为它阻碍了从共享表示中受益的过程。因此,我们将基本的 MIDN 和不同的分类器精炼阶段集成到一个网络中,并对其进行端到端的训练。

通过利用 WSDDNWSDDNWSDDN 作为初始定位网络,逐步训练多个实例分类器以细化定位结果并获得性能良好的检测器。这里,设 KKK 是实例分类器的数量,xRk∈R(C+1)×∣R∣\textbf{x}^{Rk}\in R^{(C+1)\times |R|}xRk∈R(C+1)×∣R∣ 是第 kkk 个实例分类器的输出建议得分。与 xR\textbf{x}^RxR 不同,xRk(k∈1,...,K)\textbf{x}^{Rk}(k\in {1, ..., K})xRk(k∈1,...,K) 具有第 {C+1}\{C +1\}{C+1} 个背景维度。为了逐步训练多实例分类器,第 kkk 个实例分类器的真实标签 由最后一个实例分xRk∈R(C+1)×∣R∣\textbf{x}^{Rk}\in R^{(C+1)\times |R|}xRk∈R(C+1)×∣R∣ 类器的输出 xR(k−1)\textbf{x}^{R(k-1)}xR(k−1) 制成。基于 yk\textbf{y}^{k}yk,训练每个实例分类器以最小化以下损失:
Lrk=−1∣R∣∑j=1∣R∣∑c=1C+1ycjklog⁡xcjkL_{r}^{k}=-\frac{1}{|R|} \sum_{j=1}^{|R|} \sum_{c=1}^{C+1} y_{c j}^{k} \log x_{c j}^{k} Lrk​=−∣R∣1​j=1∑∣R∣​c=1∑C+1​ycjk​logxcjk​

在 OICROICROICR 中,实例标注是如何从最后的定位结果 xR(k−1)\textbf{x}^{R(k-1)}xR(k−1)生成实例标签 yk\textbf{y}^{k}yk 的问题。假设图像 XXX 具有类标签 ccc,他们首先选择得分最高的区域建议 rjcr_{j_c}rjc​​,
jck−1=arg⁡max⁡jxcjR(k−1)j_{c}^{k-1}=\arg \max _{j} x_{c j}^{R(k-1)} jck−1​=argjmax​xcjR(k−1)​
并受到高度重叠区域应具有相同标签这一事实的启发,制定了以下标签算法,

ycjk={1if IoU⁡(rjk−1,rjck−1)>It0otherwise y_{c j}^{k}= \begin{cases}1 & \text { if } \operatorname{IoU}\left(r^{k-1}_{j}, r^{k-1}_{j_{c}}\right)>I_{t} \\ 0 & \text { otherwise }\end{cases} ycjk​={10​ if IoU(rjk−1​,rjc​k−1​)>It​ otherwise ​
其中 IoU⁡\operatorname{IoU}IoU 是计算两个区域之间的交并比 ( IoU⁡\operatorname{IoU}IoU ) 的函数,ItI_tIt​ 是一个阈值。当多个类满足 IoU⁡(rjk−1,rjck−1)>It\operatorname{IoU}\left(r^{k-1}_{j}, r^{k-1}_{j_{c}}\right)>I_{t}IoU(rjk−1​,rjc​k−1​)>It​ 时,ycjky_{c j}^{k}ycjk​ 其 c=argmaxc′IoU⁡(rjk−1,rjck−1)>Itc = {\rm arg max}_{c'} \operatorname{IoU}\left(r^{k-1}_{j}, r^{k-1}_{j_{c}}\right)>I_{t}c=argmaxc′​IoU(rjk−1​,rjc​k−1​)>It​ 为 111,其他为 000。如果一个区域没有分配任何对象类,即 ycjky_{c j}^{k}ycjk​ 为 000 对于所有 c∈{1,...,C}c\in \{1, ..., C\}c∈{1,...,C},该区域被标记为背景,
y(C+1)jk=1y_{(C+1) j}^{k}=1 y(C+1)jk​=1
但是,最后一个定位结果生成的标签是不可靠的,尤其是在训练开始时。这会导致训练的不稳定性。为了解决这个问题,方程中的损失函数。精炼的实例分类器损失函数改为加权版本如下,

wjk=xcjck−1w_{j}^{k}=x_{c j_{c}}^{k-1} wjk​=xcjc​k−1​
当图像具有多个类时,在上式, c=argmaxc′IoU⁡(rj,rjc′)>Itc = {\rm arg max}_{c'} \operatorname{IoU}\left(r_{j}, r_{j_{c'}}\right)>I_{t}c=argmaxc′​IoU(rj​,rjc′​​)>It​。在训练开始时或对于难以定位的图像,权重 wjkw_{j}^{k}wjk​ 取低值,对训练的贡献变小。进而每一个精炼的实例分类器损失函数重写为加权版本:

Lrk=−1∣R∣∑r=1∣R∣∑c=1C+1wrkycrklog⁡xcrRk\mathrm{L}_{\mathrm{r}}^{k}=-\frac{1}{|R|} \sum_{r=1}^{|R|} \sum_{c=1}^{C+1} w_{r}^{k} y_{c r}^{k} \log x_{c r}^{R k} Lrk​=−∣R∣1​r=1∑∣R∣​c=1∑C+1​wrk​ycrk​logxcrRk​

总损失函数如下:

L=Lb+∑k=1KLrk\mathrm{L}=\mathrm{L}_{\mathrm{b}}+\sum_{k=1}^{K} \mathrm{~L}_{r}^{k} L=Lb​+k=1∑K​ Lrk​

论文笔记 Multiple Instance Detection Network with Online Instance Classifier Refinement - CVPR 2017相关推荐

  1. 【论文笔记】Multi-Content Complementation Network for Salient Object Detection in Optical RSI

    论文 论文:Multi-Content Complementation Network for Salient Object Detection in Optical Remote Sensing I ...

  2. [论文笔记]SwinSUNet: Pure Transformer Network for Remote Sensing Image Change Detection

    1 论文标题 标题: SwinSUNet: Pure Transformer Network for Remote Sensing Image Change Detection 作者: Cui Zha ...

  3. 论文笔记:Object Detection in 20 Years: A Surve(目标检测20年研究综述)

    文章目录 1.介绍 2.目标检测的20年发展历程 2.1.目标检测路线 2.1.1.里程碑:传统检测器 2.1.2.基于CNN的两阶段检测器 2.1.3.基于CNN的单阶段检测器 2.2.目标检测数据 ...

  4. 【论文笔记】Multi-Interactive Attention Network for Fine-grained Feature Learning in CTR Prediction

    <Multi-Interactive Attention Network for Fine-grained Feature Learning in CTR Prediction>论文学习 ...

  5. [论文笔记]On the Detection of Digital Face Manipulation

    On the Detection of Digital Face Manipulation 这篇文章主要介绍一种attention机制的深度伪造鉴别和伪造区域定位的方法. 创新点(主要贡献) 制作了一 ...

  6. 论文笔记004-《Knowledge Graph Alignment Network with Gated Multi-hop Neighborhood Aggregation》

    更多博客可以关注MyBlog,欢迎大家一起学习交流! 1. 简介 题目:<Knowledge Graph Alignment Network with Gated Multi-hop Neigh ...

  7. 【目标检测】论文笔记Arbitrary-Oriented Object Detection with Circular Smooth Label(2020)

    目录 前情提要: 解决方案 Regression-based Rotation Detection Method Boundary Problem of Regression Method Some ...

  8. 论文笔记:Contrastive Adaptation Network for Unsupervised Domain Adaptation

    1. 任务设置 U n s u p e r v i s e d D o m a i n A d a p t a t i o n f o r I m a g e C l a s s i f i c a ...

  9. 论文笔记 | Self-organized Text Detection with Minimal Post-processing via Border Learning

    论文链接:http://openaccess.thecvf.com/content_ICCV_2017/papers/Wu_Self-Organized_Text_Detection_ICCV_201 ...

最新文章

  1. 实体识别+entity resolution
  2. python宝石与石头_771. 宝石与石头
  3. jsp中jquery传值给Java_jsp中利用jquery+ajax在前后台之间传递json格式参数
  4. html网页如何传递接收地址参数
  5. linux每日命令(1):gzip命令
  6. c++ 优先队列_数据结构 | TencentOStiny中队列、环形队列、优先级队列的实现及使用...
  7. 2021-2025年中国定时控制器行业市场供需与战略研究报告
  8. mybatis 存储过程 tmp_count_mysql存储过程(一)-navicat与mybatis
  9. 学习笔记——模板方法模式
  10. DOSBOX下载和使用
  11. 南师大GIS考研数据库2013年第四题
  12. 打造智能化的园区管理系统
  13. 2018年最新最全的全国省市区五级四级三级地址数据库的SQL下载
  14. Java月薪24k_一位月薪1.2w的北漂程序员真实生活!
  15. 如何求解二元一次不定方程的整数解
  16. MyEclipse设置黑色主题皮肤(详细)
  17. 熊猫烧香病毒技术分析及应急解决方案
  18. winrar许可到期了怎么办_在德国,居留许可、签证快要到期了怎么办?
  19. 解决鼠标右键菜单在光标左边问题
  20. html手机端自动换,jQuery+HTML5实现手机摇一摇换衣特效

热门文章

  1. Tensorflow2.0 利用LSTM和爬虫做自动生成七言律诗
  2. Java程序员校招蚂蚁金服,微信抢红包实战案例,纯干货
  3. 嵌入式linux pcie网卡配置,[嵌入式linux]PCIe 热拔插(rescan)
  4. 长生不老:从秦始皇到基因编辑
  5. LOGO创意-IT行业-随记
  6. CFML----一门在国外很多大公司得到应用的语言
  7. kubernetes集群搭建Zabbix监控平台
  8. 【其他】神舟精盾K470-i3 D3更换支持5GHz的双频无线网卡
  9. 【VBA】通过VBA实现EXCEL全屏显示
  10. python 个人收支系统_C/C++实现个人收支系统的示例代码