YOLO v3 网络结构分析

微信公众号：幼儿园的学霸
个人的学习笔记，关于OpenCV,关于机器学习, …。问题或建议，请公众号留言;

最近在看Tensorflow，没有经过实践的学习总感觉很心虚，因此打算做点什么。所以，那就从YOLO入手吧，将YOLO v3改写为Tensorflow版本来进行练手。那第一步便是需要对YOLO网络结构有一定的理解，不能像之前仅仅用YOLO训练数据然后检测目标那样浮于表面。

Darknet-53 network

整个网络主要是由一系列的1x1和3x3的卷积层组成（每个卷积层后都会跟一个BN层和一个LeakyReLU)层，作者说因为网络中有53个convolutional layers，所以叫做Darknet-53。下图就是Darknet-53的结构图，在其中标注了一些信息方便理解。（卷积的strides默认为（1，1），padding默认为same，当strides为（2，2）时padding为valid）

网络输入：原论文中提到的大小320*320,416*416,608*608。这个大小必须是32的整数倍数，yolo_v3有5次下采样，每次采样步长为2，所以网络的最大步幅（步幅指层的输入大小除以输出）为2^5=32。

如上图所示为darknet-53残差模块。Darknet-53采用了ResNet这种跳层连接方式，性能完全比ResNet-152和ResNet-101这两种深层网络好，这里作者并没有给出原因，可能的原因:a.网络的基本单元的差异,b.网络层数越少，参数少。需要的计算量少。

使用残差的结构的好处：（1）深度模型一个关键的点就是能否正常收敛，残差这种结构能保证网络结构在很深的情况下，仍能收敛，模型能训练下去。（2）网络越深，表达的特征越好，分类+检测的效果都会提升。（3）残差中的1*1卷积，使用network in network的想法，大量的减少了每次卷积的channel，一方面减少了参数量（参数量越大，保存的模型越大），另一方面在一定程度上减少了计算量

Feature Extractor

利用三个特征层进行边框的预测，流程如下图所示。注意：原Darknet53中的尺寸是在图片分类训练集上训练的，所以输入的图像尺寸是256x256，下图是以YOLO v3 416模型进行绘制的，所以输入的尺寸是416x416，预测的三个特征层大小分别是52，26，13。

在上图中我们能够很清晰的看到三个预测层分别来自的什么地方，以及Concatenate层与哪个层进行拼接。注意Convolutional是指Conv2d+BN+LeakyReLU，和Darknet53图中的一样，而生成预测结果的最后三层都只是Conv2d。通过上图就能更加容易地搭建出YOLOv3的网络框架了。

网络中作者进行了三次检测，分别是在32倍降采样(2^5)，16倍降采样(2^4)，8倍降采样(2^3)时进行检测,这样在多尺度的feature map上检测跟SSD有点像。在网络中使用up-sample（上采样）的原因:网络越深的特征表达效果越好，比如在进行16倍降采样检测，如果直接使用第四次下采样的特征来检测，这样就使用了浅层特征，这样效果一般并不好。如果想使用32倍降采样后的特征，但深层特征的大小太小，因此yolo_v3使用了步长为2的up-sample（上采样），把32倍降采样得到的feature map的大小提升一倍，也就成了16倍降采样。同理8倍采样也是对16倍降采样的特征进行步长为2的上采样，这样就可以使用深层特征进行detection。

Yolo v3通过上采样的方式很好的使16倍降采样和8倍降采样使用深层特征，但进行4次下采样和3次下采样得到的浅层feature map大小是一样的。Yolo_v3想把这些浅层特征也利用起来，就有了route层。把16倍降采样得到的feature map和四次下采样得到的层拼接在一起，在channel那个维度进行拼接。这样拼接的好处：让网络同时学习深层和浅层特征，表达效果更好。8倍降采样同样也是这样的操作，把三次下采样的feature map拼接在一起。

网络输出大小的确定：

a.首先先确定网络输出特征层的大小。比如输入为320*320时，则输出为320/32=10,因此输出为10*10大小的特征层（feature map），此时有10*10=100个cell；同理当输入为416*416时输出的特征层为13*13大小的特征层，13*13=169个cell；输入为608*608时，输出的feature map大小为19*19，cell有19*19=361个。进行每进行一次up-sample时，输出特征层扩大一倍。
b. Anchor box的确定。这个先验框不同于之前Faster-Rcnn和SSD那样人工设定，在yolo v2和yolo v3中，都采用了对图像中的object采用k-means聚类。在yolo_v3中作者是这样描述的：We still use k-means clustering to determine our bounding box priors. We just sort of chose 9 clusters and 3 scales arbitrarily and then divide up the clusters evenly across scales. On the COCO dataset the 9 clusters were:(10,13); (16,30); (33,23); (30,61); (62,45); (59,119); (116 ,90); (156 ,198); (373 ,326). 这个地方，作者有一个地方没有说清楚，这个框的大小是在什么输入大小的图像下确定的，比如你在608*608作为输入图像中object的大小和在320*320大小图像中的object大小肯定不同，对这两种输入聚类的结果肯定不同。但查看作者提供的yolo_v3网络配置文件，这个聚类结果应该是在416*416大小的图像下聚类得到的结果.
c.feature map中的每一个cell都会预测3个边界框（bounding box），每个bounding box每个box需要有(x, y, w, h, confidence)五个基本参数，然后还要有N个类别的概率,coco数据集80类目标，voc20类目标。因此对于coco数据集，在网络输入为416*416时，网络的输出大小为13*13（3*（4+1+80））=43095

后记

暂时先到这里吧，最近项目比较忙。看了一些资料，目前对yolov3也只是了解一些表面的东西，尚未涉及到内部的数学过程，尤其是损失函数部分作为重中之重根本就没有进行过研究。但是，我想了解以上对于实现TensorFlow版本的yolovv3应该是可以入门了，后续对于涉及的东西，可以边编写边学习了。

NOTE：对于其中的feature map部分，yolo在3个尺度上进行目标检测，是不是挺像opencv的多尺度目标检测思想啊！在opencv中，detectMultiScale()函数就是构造图像金字塔，在不同分辨率图像上进行目标检测，我想，借助于这个思想，可以对yolo进行部分更改，以加深或者裁减或者指定图像金字塔的数量或者分辨率。

参考资料

1.YOLO_V3 原理以及训练说明https://blog.csdn.net/chandanyan8568/article/details/81089083
2.yolo系列之yolo v3【深度解析】https://blog.csdn.net/leviopku/article/details/82660381

下面的是我的公众号二维码图片，欢迎关注。