【一步一步的积累】OverFeat

(arXiv 201312) OverFeat: Integrated Recognition, Localization and Detection usingConvolutional Networks

这是一篇2014.02的文章，作者是LeCun实验室的。这篇文章主要的贡献就是如标题所述的使用同一个卷积网络完成了多个任务。这个体现了CNN特征共享的优点。这样的思想很有用，有一些论文中用到类似的思想：比如说Synergistic face detection and pose estimation with energy-based models就使用了同一个网络做了face detection和pose estimation。再比如我在手势识别的项目中把classification和regression一起做了（思考：网络具备了这样的能力，但是是否要比分开任务的性能更好，就需要各种验证了）。

其实算法的思路很简单：输入一个raw的图像，通过同一个网络，同时完成classification，localization和detection的任务。关于这三者的定义和区别可以参见文中第2页末尾。

亮点1：多尺度-classification

通常的分类是给了一个东西，然后判定类别，但是给了一张图，不知道东西在哪该如何分类？所以一般的方法是“金字塔+sliding window”结构，然后对每一个window做一次分类。这样的算法是非常耗时的，作者认为，不需要sliding window的过程，我们可以在同一个网络里面完成。这里插一句：为什么不用直接输入图像就给出类别呢？那是因为像ImageNet这样的数据，主要的物体是在图像中央，并且大小是填充了图像相当大的部分的，所以就算是有一些variation，那也是CNN能handle的，但是如果在测试中物体只是一个很小尺寸，并且出现在图像的一个角落，那么这个variation对于训练数据来说是完全impossible的。所以直接CNN分类的效果会很差。除非训练数据覆盖了各种尺寸和位置，当然这是non-sense的。那么这篇文章是怎么实现的呢？在原图上滑窗是笨拙的，那么就在输出的feature map上滑。

我们从网络入手，红色标记的stride表示的就相当于对原图降采样，所以才会有作者说的：“However, thetotal subsampling ratio in the network described above is 2x3x2x3, or 36.”那么对于221*221的图像来说，通过了前面的conv+pooling就瞬间变成了6*6了。现在可以开心的在这个feature map上做滑动了。可以看到layer7（第一个fc层）的输入是5*5的，也就是说用这个5*5的窗口去6*6的上面滑，就可以得到2*2的窗口了，每一个窗口对应一个位置，将这4个5*5的作为输入，分别输入fc，这样就可以得到4个C向量，C代表要分的1000个类。炫酷吧。这样实现了一个coarse滑窗。

但是作者觉得不够，这样的不够精细，*36倍呢。所以想到了一个offset的方法(灵感来自Ref【9】)，参考下面图

图中本来（a）就是一系列操作以后得到的20*20的图，然后做3*3的pooling得到我们上面说的6*6的feature map，现在用三个offset来做三次pooling，（b）很清楚的表达了这个思想。这样作者认为就将分辨率提高了3倍。那么横坐标这样有3个offset，纵坐标也是3个，这样一结合，就变成了9个，所以之前的6*6就变成了（6*6）*（3*3），在这一系列的窗口上再去做滑窗，一下在就变成了 4*9=36个位置了。
然后作者还是觉得不够，就在输入图像就做了手脚，又从Ref【15】里面得到灵感，【15】将图像做了crop，四个corner，加一个中间，总共变成了5个子图像，然后对图像进行翻转，这样就变成了10个图像。本文作者不知道为什么采用的是“We then extract 5 random crops(and their horizontal flips)”不过核心思想是一样的，这样sliding window又变多了。
作者最后还做了一个scale上的变换，这个就没什么好说的了，把图像放缩到6个尺度上，所以，最终，这个多尺度的滑窗思想就得到实现了。

得到了那么多的窗口，就有那么多的classification结果，平均一下概率值，就可以得到最终的classification结果了。其实有了那么多的结果也未必是好事，融合结果会导致有些尺度上的强响应会丢失。不过鲁棒性会变好。我们来看看分类的结果

从结果来看，整体是变好了的，主要应该还是因为sliding window和scale的功劳。至于那个offset的改进，从第3，4行来看，好像并没有什么大的提升，说明差这几个像素，对于不停做convolution的图像来说，真的没啥影响。另外最后看到多模型的融合，这还是王道啊。侧面也说明了，这样的模型的学习和样本的影响在深度学习中还是有很多问题的，不稳定。

亮点2：多任务

上面说完了classification，localization就简单多了，反正就是在刚才那个架构上去regression出四个参数，表达box的四个角。输出了再combine一下，总的来说就没有什么新意了。Detection就更没什么说的了，连作者都懒得说了。

总结

这篇文章最大的亮点无外乎上面说的

同时做了多个任务，这个做法我有一些看法，就是多任务一起做到底是好还是坏？我没有定论，个人感觉是要看任务的相关性，比如说classification和localization，classification会帮助提取物体自身的feature，而打破了纯粹的localization中的combined context的影响，当然这个还是要看样本的选择。当然这个还需要今后进一步的去论证。
滑窗，利用feature map来避免大量的sliding window，个人感觉肯定只是在原始图像上做sliding window的一种折衷方案，毕竟太耗时了。不过方法还是有一定的启发的，不知道什么时候能出一个好的解决框架。
多模型，多尺度，没什么说的，踏踏实实的好东西

讨论

“打破了纯粹的localization中的combined context的影响“？
—— 做localization实际项目时，一般物体都是处于图像的某个小区域，所以对全图做训练很容易把物体和经常出现的context combine在一起，这样一旦样本不够充分，就很容易学出combine在一起的context特征而不是单纯的object特征。
如果我是用原图做多scale的滑窗，和现在这个方法在feature map上做sliding window比，哪个性能好？
—— 这个没有具体的对比试验佐证，但是在最后输出的feature map上做sliding window，更像是选取了相应更好的特征区域，所以和在原图上做sliding window是不同的，从感觉上来说，对于classification这个任务来说应该是更好的，因为它打破了bounding box的约束，更好的“包含”了好的特征。另外，因为max pooling的非线性操作，所以不可能往回找到sliding window在原图上的位置
再插一句，如果最后出来的36个vector，直接全部fc，而不是做平均，估计效果会更好，只是怕参数量太大了。这样样本的需求也太大。不过如果这样直接连接FC层的话，才会更好的体现end-to-end的精神。

【一步一步的积累】OverFeat相关推荐

netcore权限控制_记录这两年是如何一步一步转型到.net core+k8s
2017年12月份,我离开北京,回到了武汉,开始在现在这家公司担任架构师工作.经过2年的时间,逐步完成以.net core+k8s为核心的技术架构.文末有彩蛋. 以下整理这两年的主要时间节点: 201 ...
计划得一步一步实施，题库首先是第一步！
大家好,我是雄雄,好久没见了哈,欢迎关注公众号:雄雄的小课堂. 今天上午没有讲课,听写以及把假期作业整理了下,部分学生的假期作业偷工减料,也都让让让他们挨个补上了. 上午将对班级后期的整个计划大致的介 ...
装mysql最后一步没响应_每天14点遭遇惊魂时刻，如何一步一步揪出真凶？
" 笔者所在的公司有一款大 DAU(日活)的休闲游戏.这款游戏的后端架构很简单,可以简单理解为通讯-逻辑-存储三层结构.其中存储层大量使用了 Redis 和 MySQL. 图片来自 Pexe ...
oracle如何查看某个时间段调用的函数的异常信息_每天14点遭遇惊魂时刻，如何一步一步揪出真凶？...
笔者所在的公司有一款大 DAU(日活)的休闲游戏.这款游戏的后端架构很简单,可以简单理解为通讯-逻辑-存储三层结构.其中存储层大量使用了 Redis 和 MySQL. 图片来自 Pexels 随着存量 ...
【学术素养】做学问，你必须脚踏实地，一步一步去寻找未知，没有捷径可走
近日,美国克瑞顿大学(Creighton University)开除了一位来自中国的研究生. 这位被开除研究生的导师袁劲梅教授,郑重地写下了长长的一封信,坦言:我就不该录取你! 这封信字字珠玑.发人深 ...
创业-《斯坦福大学创业成长课》书中的精髓：创业者如何从零到一，一步一步走向成功。
<斯坦福大学创业成长课>书中的精髓:创业者如何从零到一,一步一步走向成功. 在全民创业的时代,死守着一份工资,望着显而易见的职业晋升天花板,看着朋友们毅然决然地离开单位,一拳一脚地创业成功 ...
如何一步一步建立自己的技术影响力
很多朋友是不是有这样的经历,当我们还是一个菜鸟的时候,团队里总有1-2个技术大拿,每当有技术问题大家争论不休,团队成员讨论的面红耳赤,技术大牛实在看不下去,掐灭手中的烟头,喝掉面前方便面的最后一点热汤 ...
调试JDK源码-一步一步看HashMap怎么Hash和扩容
调试JDK源码-一步一步看HashMap怎么Hash和扩容调试JDK源码-ConcurrentHashMap实现原理调试JDK源码-HashSet实现原理调试JDK源码-调试JDK源码-Hash ...
一步一步指引你在Windows7上配置编译使用Caffe(https://github.com/fengbingchun/Caffe_Test)
之前写过几篇关于Caffe源码在Windows764位上配置编译及使用过程,只是没有把整个工程放到网上,最近把整个工程整理清理了下,把它放到了GitHub上.下面对这个工程的使用作几点说明: 1. ...
一步一步实现扫雷游戏（C语言实现）(三)
使用WIN32API连接窗口此项目相关博文链接一步一步实现扫雷游戏(C语言实现)(一) 一步一步实现扫雷游戏(C语言实现)(二) 一步一步实现扫雷游戏(C语言实现)(三) 一步一步实现扫雷游戏(C ...

【一步一步的积累】OverFeat

【一步一步的积累】OverFeat相关推荐

最新文章

热门文章