论文:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

Abstract

OverFeat可以解决计算机视觉领域的三大任务:分类、定位、检测。这三个任务的区别是:

  • 图片分类:给定一张图片,为每张图片打一个标签,说出图片是什么物体,然而因为一张图片中往往有多个物体,因此我们允许取出概率最大的5个,只要前5个最大的概率包含人工标定的标签,就任务分类正确(top-5)。

  • 定位任务:除了要预测图片的类别,还有定位这个对象的位置,要求定位物体的矩形框(bounding box)与正确的位置(ground-truth bounding box)差不能超过规定的阈值。

  • 检测任务:给定一张图片,把图片中的所有物体全部找出来(包括类别和位置)。

OverFeat的使用的工具是FCN和offset max-pooling。其实在文中OverFeat是特征提取器,使用类似Alexnet前5层卷积层的卷积网络提取图片的特征。这篇博客的OverFeat指解决分类、定位和检测任务的算法。OverFeat的架构是特指提取器+分类器+回归器,这样就能同时实现分类、定位和检测任务。接下来具体地说明作者是如何实现的。

Architecture

OverFeat有两种网络架构,分别对应两中模式——fast模式和accurate模式。
fast模式的架构图:

accurate模式的架构图:

从名字上就能看出两种模式的区别了,fast模式运算速度快,而accurate模式的预测结果更加精确。主要原因是accurate模型的卷积步长变小,全连接层的神经元变多,在提高预测能力的同时增加了更多的参数和连接数,导致运算量变大,速度变慢。

OverFeat的网络架构参考了Alexnet,不同之处在于:OverFeat没有LRN层(许多论文都说LRN层没用);OverFeat池化区域没有重合(步长=过滤器大小);OverFeat第一层和第二层的feature maps更大,因为卷积步长减少了。

三者的参数和连接数比较

Classification

OverFeat的训练过程与Alexnet的一样,测试过程不同。Alexnet从图片中取出10个view(4个角和中间,并水平翻转)出来,由这10个view的分类结果进行投票决定。这样可以会出现这样的情况,取出来的view只包含物体的部分内容。而且重复了view之间重叠部分的计算。Alexnet只计算一种图片比例,有可能不是最优的图片比例,达不到最大的分类置信度。

为了能够预测不同的图片比例,OverFeat使用6中不同的图片比例,如下图所示

FCN

OverFeat把网络的全连接层改成卷积层,使得OverFeat变成一个FCN网络,这样就支持输入整个测试图片,效果是

上半部分表示训练时的卷积过程,最后只有1个输入。下半部分表示测试时输入一个更大的图片,通过FCN后产生4个输出,每个输出表示对应原图位置的预测结果。FCN对全图片进行分类的效果等于使用滑动窗体对图片进行分类,但是FCN的效率更高,FCN可以同时对所有的滑动窗体进行计算,窗体间重叠部分不用重复计算。

offset max-pooling

为了能够产生更多区域的输出结果,OverFeat把第5层卷积层后的池化层改成offset max-pooling。

对于一张图片,在给定的图片比例下,开始对第5层未池化的feature map进行处理。在偏移量为(Δx,Δy)(\Delta_x, \Delta_y)(Δx​,Δy​)的情况下进行池化操作。偏移量取{0,1,2}\{0, 1, 2\}{0,1,2},一共3×33 \times 33×3种偏移情况,那么就有3×33 \times 33×3中池化结果。使用分类器对每种偏移(Δx,Δy)(\Delta_x, \Delta_y)(Δx​,Δy​)的feature map进行分类,每个feature map产生C维的输入maps(大小取决于输入图片的大小,通道数为C,C为类别个数)。最后不同的偏移(Δx,Δy)(\Delta_x, \Delta_y)(Δx​,Δy​)的输出map合起来并reshape成一个3D的输出map。

下图是在y轴上进行offset max-pooling并分类的示意图

第5层feature map的y轴长度为20(在第二种图片比例中),对于3种偏移量,有3种pooling map。对每种pooling map进行分类,每种pooling map输出两个预测值。把这3×23 \times 23×2个预测值合在一起。上图没有画出feature map的通道数,但有文字说明。各种图片比例的offset max-pooling的feature map的大小请看前面的图片比例表。表中的3×33 \times 33×3就表示了9中偏移(Δx,Δy)(\Delta_x, \Delta_y)(Δx​,Δy​),C表示通道数,剩下的表示feature map的大小。

最后是投票分类结果,每种图片比例的输出map中选择最高的作为该图片比例的分类分数,然后平均各种图片比例的分类分数,作为最终的分类分数。

Localization

OverFeat使用回归器预测物体的bounding box。回归器的示意图如下:

上图表示第二种图片比例在回归器上的传递过程。OverFeat对不同的类别使用不同回归器比不同类别使用同一个回归器的效果差,作者认为这是数据集中每个类别的数量少的原因。

每个图片有6种图片比例,每种比例又有多个预测结果,OverFeat是通过下面算法合并这些bounding box的。
a)在6个缩放比例上运行分类网络,在每个比例上选取top-k个类别,就是给每个图片进行类别标定Cs
b)在每个比例上运行预测boundingbox网络,产生每个类别对应的bounding box集合Bs
c)各个比例的Bs到放到一个大集合B
d)融合bounding box。具体过程应该是选取两个bounding box b1,b2;计算b1和b2的匹配分式,如果匹配分数大于一个阈值,就结束,如果小于阈值就在B中删除b1,b2,然后把b1和b2的融合放入B中,在进行循环计算。

Detection

图片检测和定位差不多,只是检测有多个bounding box的输出。

OverFeat笔记相关推荐

  1. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记

    文章目录 OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记 ...

  2. OverFeat 论文 笔记

    OverFeat: 3.Classification 3.2 Feature Extractor ​ 网络有两个模型,一个偏向速度,一个偏向精度 3.3 multi-scale classificat ...

  3. 深度学习笔记 第四门课 卷积神经网络 第三周 目标检测

    本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...

  4. 最详细的Faster RCNN论文笔记

    个人博客:http://www.chenjianqu.com/ 原文链接:http://www.chenjianqu.com/show-76.html 论文:Shaoqing Ren, Kaiming ...

  5. 《Recent Advances in Deep Learning for Object Detection 》笔记

    最近看了一篇目标检测的综述,之前对目标检测的认识不是很多,所以简单地记录一下笔记,由于是很早之前写的,对目标检测的很多概念都还不是很清楚,简单记录一下.这篇论文主要讲了目前的目标检测算法的一些设置.检 ...

  6. 4-3 Coursera吴恩达《卷积神经网络》 第三周课程笔记-目标检测

    上周4-2 Coursera吴恩达<卷积神经网络> 第二周课程笔记-深度卷积模型:实例探究学习了几个经典的神经网络模型(VGG.AlexNet和LeNet-5,以及ResNets和Ince ...

  7. 【论文笔记】End-to-end people detection in crowded scenes

    论文地址: http://arxiv.org/abs/1506.04878 Github:https://github.com/Russell91/ReInspect tensorflow版本:htt ...

  8. 《Going Deeper with Convolutions》阅读笔记

    Going Deeper with Convolutions Abstract 我们在ImageNet大规模视觉识别挑战赛2014(ILSVRC14)上提出了一种代号为Inception的深度卷积神经 ...

  9. 这就是神经网络 1:早期分类网络之LeNet-5、AlexNet、ZFNet、OverFeat、VGG

    概述 本系列文章计划介绍总结经典的神经网络结构,先介绍分类网络,后续会包括通用物体检测.语义分割,然后扩展到一些相对较细的领域如人脸检测.行人检测.行人重识别.姿态估计.文本检测等. 一些经典网络的年 ...

  10. Object Detection in 20 Years A Survey-论文翻译(阅读笔记)

    Object Detection in 20 Years A Survey论文翻译(阅读笔记) 原文地址:[1905.05055] Object Detection in 20 Years: A Su ...

最新文章

  1. SSH框架是个怎么回事?(转)
  2. 东南大学成贤学院计算机报名,东南大学成贤学院2017年9月计算机等级考试报名办法...
  3. 运用spss modeler运用支持向量机_玻璃精雕机的调试技巧
  4. String类为什么是final的
  5. dxf转nc代码软件_FastCAM激光版套料软件
  6. 【无码专区6】球与盒子(数学线性筛)
  7. Python学习笔记:爬取网页图片
  8. Java 算法 入学考试
  9. 事业单位的到手工资不高,甚至有点低,为什么这么多人去考?
  10. onmouseover+onmouseout :表格隔行变色
  11. C#知识点:操作XML
  12. JS Range使用整理
  13. 迷茫中,请指教,谢谢!
  14. 数据结构实验——就餐人数最多的时间段
  15. 一元四次方程c语言程序编写,一元高次方程数值解法C程序实现探讨..doc
  16. 分析FFMPEG中H264编码流程
  17. 深锐观察:科比已无法超越乔丹 湖人飞侠被谁打败
  18. python绘制拟合回归散点图_matplotlib中散点图的回归线和拟合曲线
  19. Photoshop基础2——工具
  20. php计算日期差天数

热门文章

  1. Chrome谷歌浏览器无需插件设置夜间模式,黑色主题
  2. 树莓派开发笔记(八):GPIO口的I2C使用(BME280三合一传感器:温度、湿度、气压测量)
  3. 【Push Kit】模拟服务端发送消息至客户端,测试消息发送功能(华为推送服务)
  4. LC串联和并联电路汇总
  5. 怎么使用计算机操作鼠标,新手学电脑如何使用鼠标
  6. 海康威视智能终端获取实时人脸体温识别记录二次开发java
  7. Web 前端:知道这些,至少有底气去面试了
  8. css在线代码生成工具汇总
  9. 微信公众号中视频下载的2种方法
  10. 我从零开始学黑莓开发的过程