学习RCNN系列论文时，出现了感受野(receptive field)的名词，感受野的尺寸大小是如何计算的，在网上没有搜到特别详细的介绍，为了加深印象，记录下自己对这一感念的理解，希望对理解基于CNN的物体检测过程有所帮助。

1 感受野的概念

　　在卷积神经网络中，感受野的定义是卷积神经网络每一层输出的特征图（feature map）上的像素点在原始图像上映射的区域大小。

　　RCNN论文中有一段描述，Alexnet网络pool5输出的特征图上的像素在输入图像上有很大的感受野（have very large receptive fields (195 × 195 pixels)）和步长（strides (32×32 pixels) ），这两个变量的数值是如何得出的呢？

2 感受野大小的计算

感受野计算时有下面的几个情况需要说明：

　　（1）第一层卷积层的输出特征图像素的感受野的大小等于滤波器的大小

　　（2）深层卷积层的感受野大小和它之前所有层的滤波器大小和步长有关系

　　（3）计算感受野大小时，忽略了图像边缘的影响，即不考虑padding的大小，关于这个疑惑大家可以阅读一下参考文章2的解答进行理解

这里的每一个卷积层还有一个strides的概念，这个strides是之前所有层stride的乘积。

　　即strides（i） = stride(1) * stride(2) * ...* stride(i-1)

　　关于感受野大小的计算采用top to down的方式，即先计算最深层在前一层上的感受野，然后逐渐传递到第一层，使用的公式可以表示如下：　　　

　　 RF = 1 #待计算的feature map上的感受野大小
　　for layer in （top layer To down layer）:
　　　　RF = ((RF -1)* stride) + fsize

stride 表示卷积的步长； fsize表示卷积层滤波器的大小　　

用Python实现了计算Alexnet zf-5和VGG16网络每层输出feature map的感受野大小，实现代码：

#!/usr/bin/env python

net_struct = {'alexnet': {'net':[[11,4,0],[3,2,0],[5,1,2],[3,2,0],[3,1,1],[3,1,1],[3,1,1],[3,2,0]],'name':['conv1','pool1','conv2','pool2','conv3','conv4','conv5','pool5']},'vgg16': {'net':[[3,1,1],[3,1,1],[2,2,0],[3,1,1],[3,1,1],[2,2,0],[3,1,1],[3,1,1],[3,1,1],[2,2,0],[3,1,1],[3,1,1],[3,1,1],[2,2,0],[3,1,1],[3,1,1],[3,1,1],[2,2,0]],'name':['conv1_1','conv1_2','pool1','conv2_1','conv2_2','pool2','conv3_1','conv3_2','conv3_3', 'pool3','conv4_1','conv4_2','conv4_3','pool4','conv5_1','conv5_2','conv5_3','pool5']},'zf-5':{'net': [[7,2,3],[3,2,1],[5,2,2],[3,2,1],[3,1,1],[3,1,1],[3,1,1]],'name': ['conv1','pool1','conv2','pool2','conv3','conv4','conv5']}}imsize = 224def outFromIn(isz, net, layernum):totstride = 1insize = iszfor layer in range(layernum):fsize, stride, pad = net[layer]outsize = (insize - fsize + 2*pad) / stride + 1insize = outsizetotstride = totstride * stridereturn outsize, totstridedef inFromOut(net, layernum):RF = 1for layer in reversed(range(layernum)):fsize, stride, pad = net[layer]RF = ((RF -1)* stride) + fsizereturn RFif __name__ == '__main__':print "layer output sizes given image = %dx%d" % (imsize, imsize)for net in net_struct.keys():print '************net structrue name is %s**************'% netfor i in range(len(net_struct[net]['net'])):p = outFromIn(imsize,net_struct[net]['net'], i+1)rf = inFromOut(net_struct[net]['net'], i+1)print "Layer Name = %s, Output size = %3d, Stride = % 3d, RF size = %3d" % (net_struct[net]['name'][i], p[0], p[1], rf)

执行后的结果如下：

这篇文章主要讲一下Convolutional Neural Network(CNN)里面的一些概念以及技巧。

Receptive Field (感受野)

这是一个非常重要的概念，receptive field往往是描述两个feature maps A/B上神经元的关系，假设从A经过若干个操作得到B，这时候B上的一个区域areabareab只会跟a上的一个区域相关areaaareaa，这时候areaaareaa成为areabareab的感受野。用图片来表示：

在上图里面，map 3里1x1的区域对应map 2的receptive field是那个红色的7x7的区域，而map 2里7x7的区域对应于map 1的receptive field是蓝色的11x11的区域，所以map 3里1x1的区域对应map 1的receptive field是蓝色的11x11的区域。

那么很容易得出来，receptive field的计算公式如下：

对于Convolution/Pooling layer:

ri=si⋅(ri+1−1)+kiri=si⋅(ri+1−1)+ki

其中riri表示第ii层layer的输入的某个区域，sisi表示第ii层layer的步长，kiki表示kernel size，注意，不需要考虑padding size。

对于Neuron layer(ReLU/Sigmoid/…)

ri=ri+1ri=ri+1

Coordinate Mapping

通常，我们需要知道网络里面任意两个feature map之间的坐标映射关系，如下图，我们想得到map 3上的点p3p3映射回map 2所在的位置p2p2。

计算公式如下：

对于Convolution/Pooling layer:

pi=si⋅pi+1+(ki−12−paddingi)pi=si⋅pi+1+(ki−12−paddingi)

其中pipi表示第ii层layer的输入的某个点，sisi表示第ii层layer的步长，kiki表示kernel size，paddingipaddingi

对于Neuron layer(ReLU/Sigmoid/…)

pi=pi+1pi=pi+1

上面是计算任意一个layer输入输出的坐标映射关系，如果是计算任意feature map之间的关系，只需要用简单的组合就可以得到，下图是一个简单的例子：

Convolutionalize (卷积化)

最近掀起了FCN(全卷积网络)风，这种网络里面不包括全连接层(fully connected layer)。

卷积层跟全连接层的区别

卷积层的操作跟传统的滑窗(sliding windows)很相似，把kernel作用于输入的不同的区域然后产生对应的特征图，由于这样的性质，给定一个卷积层，它并不要求输入是固定大小的，它可能根据输入大小的不同而产生大小不一样的特征图。

全连接层的操作是把输入拉成一个一维的向量，然后对这一维的向量进行点乘，这就要求输入大小是固定的。

那么如果使用一个包含fc层的模型(如AlexNet)就必须使用固定大小的输入，其实有时候这是非常不方便以及不合理的，比如下图，如果我要把红框的塔输入网络，就必须得对它进行变成，假设是放到AlexNet里面，因为输入是224x224，那么就会对图片产生变形。

那么有没有办法使得网络可以接受任意的输入？实际上是可以的，只需要把全连接层变成卷积层，这就是所谓的卷积化。这里需要证明卷积化的等价性。直观上理解，卷积跟全连接都是一个点乘的操作，区别在于卷积是作用在一个局部的区域，而全连接是对于整个输入而言，那么只要把卷积作用的区域扩大为整个输入，那就变成全连接了，我就不给出形式化定义了。所以我们只需要把卷积核变成跟输入的一个map的大小一样就可以了，这样的话就相当于使得卷积跟全连接层的参数一样多。举个例子，比如AlexNet，fc6的输入是256x6x6，那么这时候只需要把fc6变成是卷积核为6x6的卷积层就好了。

例子：(1) 用全连接的: full-connected.prototxt，(2) 改成全卷积：full-conv.prototxt

参考：
(1)http://stackoverflow.com/questions/35582521/how-to-calculate-receptive-field-size

(2)http://stackoverflow.com/questions/37136829/receptive-fields-on-convnets-receptive-field-size-confusion/37143998#37143998　

3 CNN感受野的计算http://blog.csdn.net/kuaitoukid/article/details/46829355

4 Convolutional Feature Maps: Elements of Efficient (and Accurate) CNN-based Object Detection

5 Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

6 http://blog.cvmarcher.com/posts/2015/05/17/cnn-trick/

感受野(receptive field)相关推荐

感受野-Receptive Field的理解
之前在阅读yolov1的论文时,发现yolov1用到了Resnet,于是找到了Resnet论文,在研究Resnet的时候,发现自己对卷积的相关操作理解还不够深刻,于是研究卷积,发现其中一个比较重要的概 ...
深度学习之学习（1-2）感受野(receptive field)
参见:原始图片中的ROI如何映射到到feature map? - 知乎 1 感受野的概念在卷积神经网络中,感受野的定义是卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像 ...
如何计算感受野(Receptive Field)
一.感受野的概念感受野指的是一个特定的 CNN 特征(特征图上的某个点)在输入空间所受影响的区域. 感受野计算时有下面的几个情况需要说明: a)第一层卷积层的输出特征图像素的感受野的大小等于滤波器的 ...
深度CNN感受野(Receptive Field)的计算
参考如何计算感受野(Receptive Field)--原理 FOMORO AI -> 可视化计算感受野的网站,可以用来验证自己计算的结果 Python代码这里使用的是从后向前的计算方法,简 ...
什么是感受野 Receptive Field 感受野是什么意思
有一个人写的很好,放上他写的文章彻底搞懂感受野的含义与计算 - 知乎然后嘞,如果你点进去不想看,那你就适合看我写的哈哈比较浮躁,那就我来吧首先我们得知道感受野的英文名字哈洋气感受野 Rec ...
深度学习笔记~感受野(receptive field)的计算
以前对CNN中的感受野(receptive field)已经有了一些认识,基本上是从概念理解上得到的. 本篇文章给出了receptive field的计算过程和相应的python代码,对recepti ...
池化层(pooling layer) 感受野(Receptive Field) 神经网络的基本组成
目录 (1)本文涉及的函数 (2)池化层 (3)感受野 (4)代码示例(含注释) 承接上两篇博客:卷积层(空洞卷积对比普通卷积).激活函数层 (1)本文涉及的函数 import torch impor ...
如何计算感受野(Receptive Field)——原理
本文转载自知乎专栏:https://zhuanlan.zhihu.com/p/31004121 写这篇文章的初衷是自己需要计算感受野,但是在今天之前只对感受野有感性认识,并不知道如何定量计算.所以在网 ...
感受野receptive field个人理解
先引用一种思路: 至于为什么在下式不成立: 在于我们从长度着手的处理方法,应该从下一层最多从上一层吸收的长度着手(这也是和先前的假设pad操作不能扩展信息量相对应的),用一张图解释一下: 举个例子:在 ...

感受野(receptive field)