图像中的目标检测学习笔记（一）

1.目标检测

本文包含以下内容:

目标检测算法概述
用于检测的后处理方法
新的度量标准:平均精度中值(mAP)
TensorFlow目标检测API
训练和监测神经网络的提示和技巧

2.基于区域CNNs (RCNNs) I

选择性搜索

目标检测算法的第一次迭代依赖于选择性搜索，一种在图像中分割区域的迭代算法（http://www.huppelen.nl/publications/selectiveSearchDraft.pdf）。

RCNN (Region-Based CNN)家族的第一篇论文使用选择性搜索创建的区域作为卷积神经网络的输入。这篇2014年的论文（https://arxiv.org/pdf/1311.2524.pdf）中，通过选择性搜索创建的区域，在输入到CNN之前将其调整到固定大小的分辨率。

尽管在性能方面取得了突破，但这种架构仍有一些缺点:

需要将每个区域的大小调整为固定大小的输入
需要重新计算每个区域的CNN特征
它的速度很慢，因为它依赖于选择性搜索

SPPNet

SPPNet（https://arxiv.org/abs/1406.4729）引入了一种新的层来弥补RCNN体系结构的一些问题:空间金字塔池化(SPP)层。这一层接受可变大小的输入，并创建固定大小的输入。

考虑一个具有1x1, 2x2, 2x3和4x4分割的4级SPP层的例子，给这个层提供一个2D数组。这个数组将使用这些拆分中的每一个进行池化，创建一个维度为1x1 + 2x2 + 2x3 + 4x4 = 27的向量。无论输入图像的分辨率是多少，输出矢量都是27x1矢量。

SPPNet也采用了与RCNN不同的方法，它重用了CNN的特征。事实上，不是输入裁剪后的输入图像，而是将整个图像输入CNN，并使用选择性搜索区域来裁剪最终的特征图。然后将这些区域送入SPP层。通过这样做，SPPNet获得了与RCNN相似的性能，同时将推断时间提高了近100倍。

3.基于区域CNNs (RCNNs)II

Fast-RCNN

Fast RCNN（https://arxiv.org/pdf/1504.08083.pdf）在RCNN和SPPNet的基础上进行了改进，采用了多任务损失和端到端训练的方法，即对目标的分类和边界框的回归都使用单个损失函数。因此，可以将模型训练作为单个实体，而不必分别训练不同的模块。该模型还使用了感兴趣区域(ROI)池化，一个1级SPP层。

Faster-RCNN

Faster RCNN架构（https://arxiv.org/pdf/1506.01497.pdf）是RCNN家族的最新迭代。

它比RCNN和FastRCNN更好，不再依赖于选择性搜索。相反，它使用区域提议网络(Region Proposal Network, RPN)来生成ROIs。RPN使用最后一个卷积层的特征映射来生成ROIs。RPN在特征图上使用一个滑动窗口，对于该窗口的每个位置，生成k个锚框。这些锚框用于确定该区域是否包含目标。

由于采用了多任务损失函数，FasterRCNN的所有组件都是同时训练的。

4.单段式目标检测

You Only Look Once (YOLO)采取了与FasterRCNN非常不同的方法。这篇2016年论文（https://arxiv.org/pdf/1506.02640.pdf）的作者没有依赖于区域提议步骤，而是直接将输入图像分割成网格。对于网格的每个元素，网络预测B个边界框和目标得分。

通过摆脱区域提议步骤，YOLO提供了比FasterRCNN更快的推理时间。

作者又发布了两个版本的YOLO。这里描述了最新的YOLOv3（https://pjreddie.com/media/files/papers/YOLOv3.pdf）。此外，其他研究人员还发布了YOLOv4（https://arxiv.org/pdf/2004.10934.pdf）和YOLOv5（GitHub - ultralytics/yolov5: YOLOv5