SSD目标检测流程深入理解

前言：

SSD是经典的一阶目标检测网络框架，特点是速度快，网络简洁。

主要思想：

（1）数据增强，包括光学变换和几何变换

（2）网络骨架，SSD在VGG基础上延伸了4个卷积模块（生成不同尺度的特征图）

（3）PriorBox与多层特征图：在不同尺度设置预选框，分别检测不同大小物体

（4）正、负样本的选取与损失计算：按比例选取正负样本

流程图：

以下两个版本更好理解

一、数据增强

数据增强流程如上图所示，通过光学变换和几何变换进行数据增强，分别调整光学特性和几何特性，该部分较好理解不做介绍。

二、网络骨架

（1）基础VGG结构

SSD不使用原始的VGG网络，因为全连接层参数太多故换为卷积。输入图像经过预处理后大小固定为300×300，首先经过VGG16网络的前13个卷积层，然后利用两个卷积Conv 6与Conv 7取代了原来的全连接网络。该部分最终输出的网络是1024通道的数据。

（2）深度卷积层

在SSD的VGG网络后面，紧接的是深度卷积层conv8-11每步都分两步卷积，第一步是1x1卷积，通道数分别为上一步输出数据的通道数，卷积核数目分别为256,128,128,128，第二步是3x3卷积，通道数为对应环节1x1卷积的卷积核数目，3x3卷积核数目分别为512,256,256,256个。

三、PriorBox与多层特征图

不同于faster-rcnn，SSD先验框的选择从特征图入手，特征图上的每个点对应原图上4个或6个不同大小的PriorBox。而且在不同尺度的特征图上都会生成PriorBox。

由图5.8可看出，每个特征图得到的priorbox的数目不定，所有加起来有8732个。经过分类与位置卷积，最终得出上图回归卷积、分类卷积，至此SSD框架已接近结束，回归卷积输出的是各个prior box的偏移量预测，分类卷积输出的是各个prior box的类别预测，分类卷积具体维度与分类种类有关。

在这之后经过维度转换，SSD300网络输出的是维度为[1,8732,4]和[1,8732,num_class]的特征图。

四、正、负样本的选取与损失计算

该部分分为4步：

（1）按照规则对priorbox赋予正负样本标签，确定对应真实物体标签

（2）计算框的定位损失，只需正样本

（3）进行难样本挖掘，筛选出数量是正样本3倍的负样本

（4）计算筛选出的正负样本的类别损失

以下是各部分具体内容：

（1）按照规则对priorbox赋予正负样本标签，确定对应真实物体标签

求到8732个priorbox及类别预测、位置预测之后，首先要筛选出正负样本，以便于后期进行损失计算。

遵循原则：

1.IOU阈值设置为0.5，以此判断正负样本

2.priorbox位置标签选择，选与其最大IOU的真实框作为位置标签

3.不太好理解，与这一个真实框有最大IoU的PriorBox，即使该IOU不是该priorbox与所有真实框的最大iou,也将该priorbox对应到该真实框，为了保证真实框的recall

4.预测边框位置，一样预测的是相对于预选框的偏移量，同fasterrcnn

（2）计算框的定位损失，只需正样本

计算方法同fasterrcnn,使用smoothL10函数作为定位损失函数，并且只对正样本计算

（3）进行难样本挖掘，筛选出数量是正样本3倍的负样本

根据比例限制实现样本均衡，针对负样本，计算出所有的负样本的损失（分类损失）之后，选取损失大的部分进行计算，舍弃其他的负样本，负样本数目是正样本数目的3倍。

这里笔者当时不清楚的是负样本具体计算的什么损失，原理是什么，百度查后得出结论，此处使用的是softmax loss,也就是从分类卷积中得到的那些是各个框属于什么类别的概率，再使用一个公式来计算这个框预测的这个概率的损失是多少，比如这个概率应该是1，即为真实标签，但预测的概率是0.6，虽然是对的但有一定误差，概率是0.6时比概率是0.3时误差小。具体解释见下图。

（4）计算筛选出的正负样本的类别损失

在得到筛选后的正、负样本后，即可进行类别的损失计算。 SSD在此使用了交叉熵损失函数，并且正、负样本全部参与计算。