什么是RoIPooling和ROIAlign

RoIPooling

Faster-RCNN简述

讲到ROIPooling就想提到Faster-RCNN，就简单讲述Faster-RCNN。
Faster RCNN可以分为4个主要内容：

Conv layers：作为一种CNN网络提取图像特征方法，Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。
Region Proposal Networks（RPN）：RPN网络用于生成region proposals。通过softmax判断anchors属于positive或者negative，同时利用bounding box regression修正anchors获得精确的proposals。
RoI Pooling：该层收集输入的feature maps和proposals，综合这些信息后提取proposal feature maps，送入后续全连接层判定目标类别。
Classification：利用proposal feature maps计算proposal的类别，同时再次bounding box regression获得检测框最终的精确位置。
如下图：

RoIPooling

对于传统的CNN（如AlexNet和VGG），当网络训练好后输入的图像尺寸必须是固定值，同时网络输出也是固定大小的向量或者矩阵。如果输入的图像大小不固定，这就有问题。于是引出了RoIPooling。

如上图：

Conv layers使用的是VGG16，feat_stride=32(即表示，经过网络层后图片缩小为原图的1/32),原图800800,最后一层特征图feature map大小为2525。
)假定原图中有一个region proposal，大小为665665，这样，映射到特征图中的大小：665/32=20.78,即20.7820.78，在计算的时候会进行取整操作，于是，进行所谓的第一次量化，即映射的特征图大小为20*20。
假定pooled_w=7,pooled_h=7,即pooling后固定成77大小的特征图，所以，将上面在 feature map上映射的2020的 region proposal划分成49个同等大小的小区域，每个小区域的大小20/7=2.86,即2.862.86，此时，进行第二次量化，故小区域大小变成22。
每个22的小区域里，取出其中最大的像素值，作为这一个区域的‘代表’，这样，49个小区域就输出49个像素值，组成77大小的feature map
总结，通过上面可以看出，经过两次量化，即将浮点数取整，原本在特征图上映射的2020大小的region proposal，偏差成大小为1414的，这样的像素偏差势必会对后层的回归定位产生影响。

RoIAlign

按照图中来看，800* 800的原图下采样后可以得到25* 25的特征图，但是图中的狗665* 665经过下采样不是整数。同样的在映射7* 7模块时，也不是整数，所以也有截断误差。直观上20.78和20差不多，但是反向看一下0.78* 32=24.96，再加上后面一步的截断，叠加起来，将是一个很大的区域。
上述的误差对于预测掩膜位置是不利的，对物体框的预测也是不利的，但是物体有回归这一步，所以检测效果还是可以提升的。RoIAlign将直接保存浮点数，最终计算的时候根据双线性插值来计算

以上图为例子，上图设置的bin个数为2\ast 2，即未截断计算得到的尺寸（图中黑色线）等分成四份。在bin中选取4个点，这四个点的值根据围成它的网格（实际的特征）四个值，利用双线性插值完成赋值，最终每个bin按照最大值或者平均值作为代表。完成7\ast 7固定尺寸。

参考：https://www.cnblogs.com/codehome/p/10910180.html
参考：https://blog.csdn.net/chao_shine/article/details/85917280