论文笔记——Stitcher：Feedback-driven Data Provider for Object Detection

论文下载：

https://arxiv.org/pdf/2004.12432.pdf

论文摘要：

代码暂未开源

该论文摘要概括：目标检测器的效果是根据物体尺度的不同而不同，在小对象性能上是最不令人满意的。作者通过研究发现，在大多数的训练迭代中，小对象对总损失的贡献很小，导致大小对象优化不平衡，从而导致性能不佳。

该论文名充分表达了作者改进的思想，Feedback-driven Data Provider指的是作者提出了一个基于训练时小对象对于loss贡献率的反馈从而提供小对象训练数据的方法。Stitcher指的是作者把含有更多小对象的图像拼接成一个图像(四个拼接成一个，大小不变)。

小目标对loss的贡献：

左图表现出在Faster RCNN算法在COCO训练集上小对象对loss的贡献比列，很明显的看到大部分是小于50%的，在baseline中更是小于10%，然而stitcher能让贡献比例更加均衡。右图为算法精度和时间的比较，可以看出，stitcher几乎不增加训练时间，但是精度却提升很多。

小目标占比统计：

并且作者页在COCO数据集上统计了大中小三种目标，发现小目标的标注框占总体标注框的41.1%，但是却只出现52.3%的总图像中，说明小目标在图像中出现不均匀，在训练时就有可能对loss的贡献越来越小。

制作额外的小目标数据集：

既然含有小目标的图像占比不高，那么作者便想到额外提供小目标数据作为补充，通过制作更多的小对象图像，即在原有数据集的基础上，将4个正常大小的图像resize并拼接成一个图像从而制作数据集。
作者做了比较，resize后的目标纹理依然比一些正常的目标纹理要清晰，说明不用担心resize数据集变模糊的问题：

常规图像和缝合图像：

（a）一批规则图像作为训练输入，形状为(n, c,h, w)
（b）一批形状为(n, c, h, w)的缝合图像，其中一幅沿空间维度缝合四幅小图像
（c）一批缝合图像，形状为(kn, c, h/vk, w/Vh)，其中图像按批维n进行拼接。设k= 4进行可视化(c图是作者提供的另一个更为灵活的版本)。
Stitcher提供的数据具有一致的张量体积，但批量大小是动态的，概括了传统的多尺度训练(固定批量大小)

算法流程：

训练在每一次迭代中是否使用拼接图像由当前的反馈自适应地决定(即判断小目标对Loss的贡献比率是否小于阈值)，关于这个阈值是否是超参数本人尚未看到有关解释(等待代码开源看看代码)，再将拼接好的图像加入下一次迭代。

计算对Loss的贡献比例:

在计算小目标对loss的贡献比例时，作者用方框区域代替对象的遮罩面积来进行计算

实验结果：