作者

Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba

Bolei Zhou

Abstract

受到NIN 的启发，将global average pooling 用于定位

1. Introduction

Global average pooling layer 不仅是一个regularizer，经过一点改变可以识别出discriminative regions。本文提出的方法不仅可以用于定位，而且其深度特征可用于分类/定位/concept discovery。

1.1 related work

Weakly-superviseed object localized
Visualizing CNNs

2. Class Activation Mapping

使用NIN或者googlenet等全卷积结构，接入GAP，使用特征在fc层中得出分类结果，之后我们就可以将得分投影到特征层，得到某个区域的重要性。
下面进行具体描述：
设fk(x,y)f_k(x,y)是unitk在x，y处的激活值。那么对于unit k其GAP结果是Fk=∑x,yfk(x,y)F_k=\sum_{x,y}f_k(x,y)（是不是应该再除以像素个数？？）对于给某一分类，c，其得分Sc=∑kwckFkS_c=\sum_kw_k^cF_k其中的wcw_c也说明着Fk对于类别c的重要性。（这里忽略了bias）Sc=∑kwckFk=∑x,y∑kwckfk(x,y)=∑x,yMc(x,y)S_c=\sum_kw_k^cF_k=\sum_{x,y} \sum_{k}w_k^cf_{k}(x,y)=\sum_{x,y}M_c(x,y)也就是说McM_c直接说明了某一位置上的点对于class c的重要性。
也就是说某一位置（x，y）上的点对于class c的重要性是f（x,y）的线形变化，将activation map upsampling 到图片的尺寸及可。图4表现了对于不同class的每个点的重要情况：

3 weakly superivsed object localization

3.1 setup

我们发现，定位能力与spatial resolution有关，成正相关的关系。所以将实验用的AlexNet，VGGnet，googlenet都截断了一块，之后加入3x3的conv stride=1，pad=1，1024层。

3.2 results

分类，分类性能会有损失，其中可以添加卷积层弥补如AlexNet*-GAP

定位：

这里使用了thresholding来分割heatmap，首先将大于CAM最大值20%的区域分割，然后用bounding box 覆盖最大的连接分割的范围。
backpropagation：

K. Simonyan, A. Vedaldi, and A. Zisserman. Deep in-
side convolutional networks: Visualising image classifica-
tion models and saliency maps. International Conference on
Learning Representations Workshop, 2014.

4 Deep Features for Generic Localization

4.1 Fine-gained Recognition

首先将物体定位（上一节的方法），然后提取特征进行训练，其结果提高了4.8个百分点

4.2 Pattern Discovery

使用350张带有文字的图片作为正样本，随机找一些没有的作为负样本，得到了文字的定位功能！

视觉问答：
使用下面的方法和本文的特征可以“理解“问题：

B. Zhou, Y. Tian, S. Sukhbaatar, A. Szlam, and R. Fer-
gus. Simple baseline for visual question answering. arXiv
preprint arXiv:1512.02167, 2015.

conclusion

作者
Abstract
Introduction
- 1 related work
Class Activation Mapping
weakly superivsed object localization
- 1 setup
- 2 results
Deep Features for Generic Localization
- 1 Fine-gained Recognition
- 2 Pattern Discovery
conclusion

论文笔记 | Learning Deep Features for Discriminative Localization相关推荐

Learning Deep Features for Discriminative Localization -CAM方法帮助若监督学习研究实现物体定位论文阅读笔记
作者:18届会长cyl 时期: 2020-9-11 论文<Learning Deep Features for Discriminative Localization> 期刊:2016CV ...
【CAM】Learning Deep Features for Discriminative Localization
论文链接 github Abstract 1. Introduction CNN能保留位置信息,但经过用于分类的全连接神经网络时会丢失位置信息.最近的NIN和GoogLeNet使用全卷积网络.避免使用 ...
【论文阅读】Learning Deep Features for Discriminative Localization
Abstract 研究了全局平均池化(global average pooling, GAP),分析了它如何仅仅使用图像级标签训练就能使CNN具有出色的定位能力(localization abilit ...
记录之Learning Deep Features for Discriminative Localization阅读
这篇文章有两个重要概念: 1.弱监督物体定位(Weakly-supervised object localization) 2.可视化卷积神经网络文章的作法是,将最后一个卷积层的输出做一个加权融合, ...
视频分类论文阅读笔记——Learning Spatiotemporal Features With 3D Convolutional Networks
论文:Learning Spatiotemporal Features With 3D Convolutional Networks 作者:FaceBook AI研究院来源:ICCV2015 代码: ...
论文笔记-DEC (Deep Embedded Clustering)
论文笔记-DEC (Deep Embedded Clustering) 知识点1.将聚类的度量参考T-SNE中的t-分布,将聚类的度量转换成一个概率值(软分配,qij 表示将样本 i 分配给 j 簇的 ...
图像隐写术分析论文笔记：Deep learning for steganalysis via convolutional neural networks
好久没有写论文笔记了,这里开始一个新任务,即图像的steganalysis任务的深度网络模型.现在是论文阅读阶段,会陆续分享一些相关论文,以及基础知识,以及传统方法的思路,以资借鉴. 这一篇是Medi ...
[人脸活体检测] 论文： Learning Deep Models for Face Anti-Spoofing: Binary or Auxiliary Supervision
Learning Deep Models for Face Anti-Spoofing: Binary or Auxiliary Supervision 论文简介与人脸生理相关的rppG信号被研究者 ...
论文阅读-Learning Deep CNN Denoiser Prior for Image Restoration
Zhang K, Zuo W, Gu S, et al. Learning Deep CNN Denoiser Prior for Image Restoration[J]. 2017. 1.引言图 ...

论文笔记 | Learning Deep Features for Discriminative Localization

作者