论文阅读:Multi-scale orderless pooling of deep convolutional activation features
2014年ECCV
Motivation
以往的图像分类,关注的信息可能更容易被干扰。比如下图中的(a),groundtruth应该是滑雪(ski),但是由于一些其他信息的干扰,导致红框中框出来的部分被分类为shovel,篮框中被认为是阿尔卑斯山,那么这篇论文就是基于这样一个motivation,试图关注图像中更细节的信息。
Basic Idea
Multi-scale体现在对于同一张输入图片,作者做了三个尺度上的变化,第一个,level one就是原图经过CNN后,提取全连接层的特征,得到一个4096维的向量。第二个和第三个是对图像做了不同尺度的scale,第二个level每个patch的大小是128*128,第三level和第二个level做的操作是一样的,区别就是他的每个patch大小是64*64。
Framework
我自己画了一个非常low的framework图,对于一张输入图像,首先做一个multi-scale,也就是将它分成若干不同大小的patch,然后将其送到一个CNN中训练,并提取全连接层的特征,再经过一个ReLU变化将所有的值转化为非负,经过K近邻和VLAD pooling后,送到线性SVM中训练并得到结果。再整个过程中,对于每一个patch得到的4096维的全连接层输出,使用了PCA降维至500,论文中使用了100 k-means 中心,所以将得到一个50000维的向量,但是对于大规模应用来说,这一维度仍然很高,所以作者又再次使用PCA将50000的向量降维至4096维。
Performance
测试过程中考虑到了四种情况的变换:平移,缩放,翻转和旋转。如下图,第一行第一列是原图,第一行是不同尺度下的scale,第二行是平移,第三行是翻转和旋转。
与CNN相比,多种变换下的分类准确率:
注意到在翻转变换(d)中,水平翻转后的分类准确率可以达到与原图相一致,这是因为在CNN中的data层采用了mirror进行了数据增广,因此对水平翻转具有很好的识别率。
论文中还做了其他很多实验,除了在SUN397和MIT Indoor Scenes数据库上做了Image classification,还在ILSVRC2012/2013上做了Image retrieval。总的来说结果还不错,不过思想很简单,包装的也蛮玄乎的。
论文阅读:Multi-scale orderless pooling of deep convolutional activation features相关推荐
- 论文阅读——ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks
ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 改进版通道注意力 from CVPR2020 期 ...
- DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition 一般视觉识别的深度卷积刺激特征
DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition 一般视觉识别的深度卷积刺激特征 Abstra ...
- Zero-shot Learning零样本学习 论文阅读(五)——DeViSE:A Deep Visual-Semantic Embedding Model
Zero-shot Learning零样本学习 论文阅读(五)--DeViSE:A Deep Visual-Semantic Embedding Model 背景 Skip-gram 算法 算法思路 ...
- 论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强
论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强 摘要 1 介绍 2 相关工作 带增强的聚类方法 具有一致 ...
- 【论文翻译】VGG网络论文中英对照翻译--(very deep convolutional networks for large-scale image recognition)
[开始时间]2018.09.23 [完成时间]2018.09.24 [论文翻译]VGG网络论文中英对照翻译--(very deep convolutional networks for large-s ...
- 目标检测--Spatial pyramid pooling in deep convolutional networks for visual recognition(PAMI, 2015)
Spatial pyramid pooling in deep convolutional networks for visual recognition 作者: Kaiming He, Xiangy ...
- Paper8:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 还未读
- [SPP-NET]Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
基于空间金字塔池化的卷积神经网络物体检测 原文地址:http://blog.csdn.net/hjimce/article/details/50187655 作者:hjimce 一.相关理论 本篇博文 ...
- DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition阅读报告(2)
4.实验 本文采用的深度卷积神经网络的原型是(Krizhevsky et al 2012).利用这个网络训练得到多种特征,然后在多个视觉任务上进行测试.本节讨论的"向前路径"计算法 ...
最新文章
- 《梦断代码Dreaming In Code》阅读笔记(三)
- j2ee学习 +“云未来
- 【Unity技巧】制作一个简单的NPC
- centos7开启vnc服务_Centos7 VNC远程桌面服务安装配置
- CLR via C#学习笔记-第十三章-定义接口、继承接口
- Linux iptables 配置详解
- 从早期的初创企业到MongoDB的经理(播客)
- 【BZOJ3640】JC的小苹果 概率DP+高斯消元
- 15个设计得最糟糕最变态的CAPTCHA验证码
- asp.net如何解决传递中文参数乱码问题
- javascript时间差工具包
- Postman 导出 curl命令 到命令行运行 Mac OS
- matlab 调度算法,基于遗传算法的车辆调度问题的matlab源程序
- 程序员摆地摊的正确姿势!
- cordova 指纹验证登录
- centos7常用命令详解
- 使用VMware安装Centos6的步骤
- OE(OSA)期刊模板下载
- 15个“在线配色方案”工具网站
- VLC-基于LIBVLC播放视频