2014年ECCV



Motivation

以往的图像分类,关注的信息可能更容易被干扰。比如下图中的(a),groundtruth应该是滑雪(ski),但是由于一些其他信息的干扰,导致红框中框出来的部分被分类为shovel,篮框中被认为是阿尔卑斯山,那么这篇论文就是基于这样一个motivation,试图关注图像中更细节的信息。

Basic Idea

Multi-scale体现在对于同一张输入图片,作者做了三个尺度上的变化,第一个,level one就是原图经过CNN后,提取全连接层的特征,得到一个4096维的向量。第二个和第三个是对图像做了不同尺度的scale,第二个level每个patch的大小是128*128,第三level和第二个level做的操作是一样的,区别就是他的每个patch大小是64*64。

Framework

我自己画了一个非常low的framework图,对于一张输入图像,首先做一个multi-scale,也就是将它分成若干不同大小的patch,然后将其送到一个CNN中训练,并提取全连接层的特征,再经过一个ReLU变化将所有的值转化为非负,经过K近邻和VLAD pooling后,送到线性SVM中训练并得到结果。再整个过程中,对于每一个patch得到的4096维的全连接层输出,使用了PCA降维至500,论文中使用了100 k-means 中心,所以将得到一个50000维的向量,但是对于大规模应用来说,这一维度仍然很高,所以作者又再次使用PCA将50000的向量降维至4096维。

Performance

测试过程中考虑到了四种情况的变换:平移,缩放,翻转和旋转。如下图,第一行第一列是原图,第一行是不同尺度下的scale,第二行是平移,第三行是翻转和旋转。

与CNN相比,多种变换下的分类准确率:


注意到在翻转变换(d)中,水平翻转后的分类准确率可以达到与原图相一致,这是因为在CNN中的data层采用了mirror进行了数据增广,因此对水平翻转具有很好的识别率。
论文中还做了其他很多实验,除了在SUN397和MIT Indoor Scenes数据库上做了Image classification,还在ILSVRC2012/2013上做了Image retrieval。总的来说结果还不错,不过思想很简单,包装的也蛮玄乎的。

论文阅读:Multi-scale orderless pooling of deep convolutional activation features相关推荐

  1. 论文阅读——ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

    ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 改进版通道注意力 from CVPR2020 期 ...

  2. DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition 一般视觉识别的深度卷积刺激特征

    DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition 一般视觉识别的深度卷积刺激特征 Abstra ...

  3. Zero-shot Learning零样本学习 论文阅读(五)——DeViSE:A Deep Visual-Semantic Embedding Model

    Zero-shot Learning零样本学习 论文阅读(五)--DeViSE:A Deep Visual-Semantic Embedding Model 背景 Skip-gram 算法 算法思路 ...

  4. 论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强

    论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强 摘要 1 介绍 2 相关工作 带增强的聚类方法 具有一致 ...

  5. 【论文翻译】VGG网络论文中英对照翻译--(very deep convolutional networks for large-scale image  recognition)

    [开始时间]2018.09.23 [完成时间]2018.09.24 [论文翻译]VGG网络论文中英对照翻译--(very deep convolutional networks for large-s ...

  6. 目标检测--Spatial pyramid pooling in deep convolutional networks for visual recognition(PAMI, 2015)

    Spatial pyramid pooling in deep convolutional networks for visual recognition 作者: Kaiming He, Xiangy ...

  7. Paper8:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

    Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 还未读

  8. [SPP-NET]Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

    基于空间金字塔池化的卷积神经网络物体检测 原文地址:http://blog.csdn.net/hjimce/article/details/50187655 作者:hjimce 一.相关理论 本篇博文 ...

  9. DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition阅读报告(2)

    4.实验 本文采用的深度卷积神经网络的原型是(Krizhevsky et al 2012).利用这个网络训练得到多种特征,然后在多个视觉任务上进行测试.本节讨论的"向前路径"计算法 ...

最新文章

  1. 《梦断代码Dreaming In Code》阅读笔记(三)
  2. j2ee学习 +“云未来
  3. 【Unity技巧】制作一个简单的NPC
  4. centos7开启vnc服务_Centos7 VNC远程桌面服务安装配置
  5. CLR via C#学习笔记-第十三章-定义接口、继承接口
  6. Linux iptables 配置详解
  7. 从早期的初创企业到MongoDB的经理(播客)
  8. 【BZOJ3640】JC的小苹果 概率DP+高斯消元
  9. 15个设计得最糟糕最变态的CAPTCHA验证码
  10. asp.net如何解决传递中文参数乱码问题
  11. javascript时间差工具包
  12. Postman 导出 curl命令 到命令行运行 Mac OS
  13. matlab 调度算法,基于遗传算法的车辆调度问题的matlab源程序
  14. 程序员摆地摊的正确姿势!
  15. cordova 指纹验证登录
  16. centos7常用命令详解
  17. 使用VMware安装Centos6的步骤
  18. OE(OSA)期刊模板下载
  19. 15个“在线配色方案”工具网站
  20. VLC-基于LIBVLC播放视频

热门文章

  1. Redis过期策略及实现原理
  2. C++标准pdf 分享
  3. 实验十——一维数组的定义及引用
  4. Mediawiki随笔
  5. java 容器、二叉树操作、107
  6. php设计模式--单例模式
  7. 为应用程序池 ''DefaultAppPool'' 提供服务的进程意外终止。进程 ID 是 ''xxx''问题的解决方法...
  8. 水题 ZOJ 3875 Lunch Time
  9. iOS6和iOS7代码的适配(1)
  10. 【转】C# DateTime 日期计算