从文章题目来看,Integrated recognition,localization and detection using convolutional network,就是将分类、定位、检测通过卷积网络整合在一起。

本文作者展示了:

1、在卷积网络中使用多尺度的滑动窗

2、介绍了通过训练深度网络来预测物体的定位框

3、可以使用一个网络同时进行多项任务

首先来理一理这分类,定位,检测的关系。

分类就是猜五个可能的类别,那就联系上常说的top5 error了。

定位就是猜五个类别的基础上加上每个类别可能的bounding box,iou>0.5才算正确。

检测任务和定位任务不同,因为可能出现任何数量的物体,通过mAP平均精度来衡量。

接下来讲分类任务:总体来讲分类任务使用的网络和alxnet相似,(这篇论文图表放置位置有点。。草率。。)

下表是fast版本的网络

下表是accurcy版本的网络

两个版本从层结构上来看相差不大,主要的区别在于卷积、池化核的大小和步长。总的来讲,核越小,步长越小,总体的精度就比较高。

下图就是fast版本第一层和第二层卷积核的可视化结果。

多尺度池化:scales + offset pooling

test时候,在alexnet使用了crop的小技巧,从图片中提取224x224块,四个角落加上中间,再进行水平翻转,一共得到十个图像,然后通过十个图像结果投票。

在overfeat中放弃这种方法,原因:

1、忽略很多区域

2、很多重复的计算,造成浪费

3、只适用于单一的尺度

因此作者采用了多尺度+偏置池化的方法,其中多尺度来自于在原图片上剪裁出不同大小的6张图片。如下表:

很明显由于输入的图片大小不一,所以卷积部分的输出特征数量是不一样的。

就像下图中,由于从输入14x14变成16x16,通过相同的卷积网络输出的特征图大小不一样。那作者又是如何连接卷积部分和fc部分呢?作者并没有将不同分辨率图片输出相同大小的feature map,而是使用了6个不同的分类器。如上图所示。

下图是单一尺度的偏置池化的例子:

offset设置为0,1,2,也就是初始池化的位置,也就是偏置offset,推广到二维空间中,也就是有9个初始池化的位置,然后对每个池化的结果都进行分类,这样就实现了offset pooling。而对于多尺度,只需要设置多个大小的池化核即可。

下面来看定位问题:

用回归层替换之前已经训练完的分类网络的分类层,并且训练网络使其在所有的位置和尺度上预测bbox,然后将两个回归结合在一起。

待续。。。。

overfeat论文待续相关推荐

  1. OverFeat 论文 笔记

    OverFeat: 3.Classification 3.2 Feature Extractor ​ 网络有两个模型,一个偏向速度,一个偏向精度 3.3 multi-scale classificat ...

  2. 计算机视觉经典论文整理

    经典论文 计算机视觉论文 ImageNet分类 物体检测 物体跟踪 低级视觉 边缘检测 语义分割 视觉注意力和显著性 物体识别 人体姿态估计 CNN原理和性质(Understanding CNN) 图 ...

  3. Faster R-CNN 英文论文翻译笔记

    Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Shaoqing Ren, Kaiming ...

  4. 深度学习论文阅读目标检测篇(三):Faster R-CNN《 Towards Real-Time Object Detection with Region Proposal Networks》

    深度学习论文阅读目标检测篇(三):Faster R-CNN< Towards Real-Time Object Detection with Region Proposal Networks&g ...

  5. Faster R-CNN论文翻译笔记

    百度网盘论文链接,提取码:kk89 https://pan.baidu.com/s/12RDu3WLgH5WcV_Mo3q02xg 或者去arxiv下载<Faster R-CNN: Toward ...

  6. 目标检测经典论文——Faster R-CNN论文翻译:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Net

    Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Faster R-CNN:通过Region ...

  7. 《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》论文翻译

    原文:https://arxiv.org/abs/1506.01497 Faster R-CNN: Towards Real-Time ObjectDetection with Region Prop ...

  8. OverFeat——全卷积首次用于检测问题 (目标检测)(深度学习)(ICLR 2014)

    论文名称:< OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks & ...

  9. Faster RCNN论文学习

    Faster R-CNN在Fast R-CNN的基础上的改进就是不再使用选择性搜索方法来提取框,效率慢,而是使用RPN网络来取代选择性搜索方法,不仅提高了速度,精确度也更高了 Faster R-CNN ...

最新文章

  1. 用vs2005开发比delphi快多了
  2. Oracle Proc开发之Makefile的编写模板
  3. python异常处理及内置模块
  4. SDRAM工作的大体流程
  5. 深度剖析Service Mesh服务网格新生代Istio
  6. linux lib目录找不到,linux中jpeglib库文件我安装了,但是我运行自己写的代码总是找不到这个库...
  7. qt 的mysql的库
  8. git 安装 on centos7
  9. MongoDB 插入文档
  10. 怎样才能办理信用卡成功?
  11. Python读取文件时出现UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position xx: 解决方案
  12. 列和相减 L3-L2
  13. 机器学习实战---入门篇
  14. sass-------sass的基本介绍、node.js的sass工具
  15. ABP+NetCore+Vue.js实现增删改查
  16. 简单动态字符串(SDS)
  17. Rmarkdown 报错:无法打开链接
  18. 高通SDX55平台:adb功能异常
  19. TECH数字中国2021技术年会 | 神州控股、神州信息、神州数码集团合力打造 “神州信创云”
  20. 关注博主即可阅读全文

热门文章

  1. 参加大数据培训有什么好处
  2. tracer静态和缺省路由配置_Ciso Packet Tracer配置静态路由及默认路由(一)
  3. 【SSM】第四课 超市订单管理平台--订单管理功能
  4. 【网络编程入门】使用socket在Linux下实现即时通信软件
  5. 细数程序员的奇葩辞职理由
  6. kinova机械臂GEN3的Ros操作开发教程
  7. Tesseract OCR手写数字的样本训练
  8. PAT练习笔记——4.2 散列
  9. vs code中rg.exe cpu性能占用高问题解决
  10. 编译器学习与实践记录