YOLOv4重磅发布，五大改进，二十多项技巧实验，堪称最强目标检测万花筒

今年2月22日，知名的 DarkNet 和 YOLO 系列作者 Joseph Redmon 宣布退出 CV 界面，这也就意味着 YOLOv3 不会再有官方更新了。但是，CV 领域进步的浪潮仍在滚滚向前，仍然有人在继续优化 YOLOv3。今日，著名的AlexeyAB版本发布了 YOLOv4的论文。该论文提出了五大改进，二十多个技巧的实验，可以说 YOLOv4是一项非常solid的工作。

论文题目：YOLOv4: Optimal Speed and Accuracy of Object Detection

论文链接：https://arxiv.org/pdf/2004.10934.pdf

开源代码：https://github.com/AlexeyAB/darknet

首先，看一下作者论文上的效果图，可以说在平均精度（mAP）和速度上，远超 YOLOv3版本（文中提到 mAP 提升 10个点，速度提升12%）。

笔者仔细阅读了该论文，可以说 YOLOv4 是做了很多扎实的（solid）的工作。下面我们首先简单介绍一下该论文，然后详细介绍论文提到的五大改进和二十多项最新目标检测技巧的实验。

如何看待YOLOv4

目前，工业界常用的目标检测算法，SSD 是 2015年发表的，RetinaNet、 Mask R-CNN、Cascade R-CNN 是 2017 年发表的，YOLOv3 是2018年发表的。时光荏苒，过去的五年，深度学习也在不断更新，从激活函数上，到数据增强，到网络结构，都有大量的创新。而YOLOv4这项工作，可以说是既往开来。

如果用一个词来评论这篇论文，那就是“良心”。这篇文章试验对比了大量的近几年来最新的深度学习技巧，例如 Swish、Mish激活函数，CutOut和CutMix数据增强方法，DropPath和DropBlock正则化方法，也提出了自己的创新，例如 Mosaic （马赛克）和自对抗训练数据增强方法，提出了修改版本的 SAM 和 PAN，跨Batch的批归一化（BN），共五大改进。所以说该文章工作非常扎实，也极具创新。

而且作者也在文中多次强调，这是一个平衡精度和速度的算法，大的模型，例如Mask-RCNN和Cascade R-CNN在比赛中可以霸榜，但速度太慢；小的模型速度快，但精度又不高。另外，当今的不少模型因为太大，需要很多GPU 进行并行训练，而 YOLOv4 可以在一块普通的GPU（1080Ti）上完成训练，同时能够达到实时性，从而能够在生产环境中部署。

YOLOv4作者的思考

作者总结的 YOLOv4 三大贡献：

设计了强大而高效的检测模型，任何人都可以用 1080 Ti 和 2080 Ti训练这个超快而精准的模型。
验证了很多近几年 SOTA 的深度学习目标检测训练技巧。
修改了很多 SOTA 的方法，让它们对单GPU训练更加高效，例如 CBN，PAN，SAM等。

作者总结了近几年的单阶段和双阶段的目标检测算法以及技巧，并用一个图概括了单阶段和双阶段目标检测网络的差别，two stage的检测网络，相当于在one stage的密集检测上增加了一个稀疏的预测器，或者说one stage网络是 two stage的 RPN部分，是它的一个特例或子集。

作者将那些增加模型性能，只在训练阶段耗时增多，但不影响推理耗时的技巧称为 —— 赠品（bag of freebies），也就是白给的提高精度的方法。而那些微微提高了推理耗时，却显著提升性能的，叫做——特价（bag of specials），就是那些不免费，但很实惠的技巧。

bag of freebies

以数据增强方法为例，虽然增加了训练时间，但可以让模型泛化性能和鲁棒性更好。例如下面的常见增强方法：

- 图像扰动，
- 改变亮度、对比对、饱和度、色调
- 加噪声
- 随机缩放
- 随机裁剪（random crop）
- 翻转
- 旋转
- 随机擦除（random erase）
- Cutout
- MixUp
- CutMix
下图是作者在训练模型时用的图像增强方法：

另外，还有常见的正则化方法：
- DropOut
- DropConnect
- DropBlock
平衡正负样本的方法：
- Focal loss
- OHEM(在线难分样本挖掘)
此外，还有回归 loss的改进：
- GIOU
- DIOU
- CIoU
凡此种种，都是训练时候的改进技巧，不影响推理速度，都可以称为赠送品。

bag of specials

特价品是指稍微增加推理的耗时，但是显著提升性能的技巧。

例如增大感受野技巧：

SPP
ASPP
RFB

注意力机制：

Squeeze-and-Excitation (SE)，增加2%计算量（但推理时有10%的速度），可以提升1%的ImageNet top-1精度。
Spatial Attention Module (SAM)，增加0.1%计算量，提升0.5%的top-1准确率。

特征融合集成：

- FPN
- SFAM
- ASFF
- BiFPN （也就是大名鼎鼎的EfficientDet）
更好的激活函数：
- ReLU
- LReLU
- PReLU
- ReLU6
- SELU
- Swish
- hard-Swish
后处理非最大值抑制算法：
- soft-NMS
- DIoU NMS

YOLOv3模型设计

作者针对 GPU和 VPU 分别使用不同的组卷积策略，GPU 使用 1~8 组卷积，对VPU则使用完全的组卷积。网络结构采用的CSPResNeX50和CSPDarknet53。

作者提到，CSPResNeX50分类精度比CSPDarknet，但是检测性能却不如后者。

为了让模型可以在单个GPU上训练的的更快，作者使用了以下几个技巧：

独创的数据增强方法 Mosaic （马赛克）和自对抗训练（Self Adversarial Training， SAT）
使用遗传算法选择最优超参数
修改版本的 SAM，修改版本的PAN和跨批量归一化（Cross mini-Batch Normalization）

这个Mosaic，就是把四张图片拼接为一张图片，这等于变相的增大了一次训练的图片数量，可以让最小批数量进一步降低，让在单GPU上训练更为轻松。

这里的CmBN，是对CBN的改进，收集一个batch内多个mini-batch内的统计数据。BN, CBN, CmBN的区别如下图所示：

此外，作者还将 SAM的空间注意力改为逐点注意力，并将 PAN的快捷连接的相加改为拼接（concatenation）。

一个完整的YOLOv4 由以下三部分组成：CSPDarknet53 （backbone） + SPP+PAN （Neck，也就是特征增强模块）+ YoloV3组成。

另外，YOLOv4使用了“赠送”技巧有CutMix、Mosaic 数据增强， DropBlock正则化，标签平滑，CIoU-loss，CmBN，自对抗训练，每个目标分配给多个anchor，（这点和v3有差别，v3版本每个目标只有一个正样本）。

使用的“特价”技巧：Mish activation、跨阶段空间连接（CSP），多输入权重残差连接，SPP-block、SAM-block，PAN，DIoU-NMS。

试验结果

作者做了大量的对比消融试验，在分类任务上，在CSPResNeXt50和CSPDarknet53上，使用不同配置的结果对比如下：

作者使用的多个技巧，在检测任务上的对比结果如下（这里需要读论文对照一下每个符号的含义）：

最后，是在Maxwell、Pascal、Volta三个不同系列的GPU，在COCO 数据集上的结果对比：

总的来说，YOLOv4是在速度和精度上trade off做的非常好的一项工作。

总结

笔者本来想详尽的介绍一下本论文，但发现这篇paper信息量太大，难以在一篇博文描述完。可以看出作者是实打实的做了很多近几年的各种技巧的对比实验，也做了不少方法的创新改进。可以说这是一篇花了很多功夫和精力的论文。推荐大家读一下论文，文章写的真的非常通俗易懂，总结了大量的技巧，甚至可以做为目标检测面试宝典。

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载（pdf更新到25集）本站qq群1003271085，加入微信群请回复“加群”获取一折本站知识星球优惠券，复制链接直接打开：https://t.zsxq.com/yFQV7am喜欢文章，点个在看

YOLOv4重磅发布，五大改进，二十多项技巧实验，堪称最强目标检测万花筒相关推荐

【Vue2.0】— 消息订阅与发布pubsub（二十）
[Vue2.0]- 消息订阅与发布pubsub(二十)
真三国无双8二十四项修改器风灵月影版
点击下载来源:真三国无双8二十四项修改器风灵月影版真三国无双8修改器风灵月影顾名思义,就是由风灵月影大神专门为<真三国无双8(Dynasty Warriors 8)>量身打造的一款游戏辅 ...
【Microsoft Azure 的1024种玩法】二十九.基于Azure VM快速实现网络入侵检测 (IDS) 及网络安全监视 (NSM)
[简介] 数据包捕获是一个重要组件,可以实施网络入侵检测系统 (IDS) 并执行网络安全监视 (NSM). 我们可以借助开源 IDS 工具来处理数据包捕获,并检查潜在网络入侵和恶意活动的签名. 使用网 ...
自动驾驶系统进阶与项目实战（十）基于PointPillars的点云三维目标检测和TensorRT实战（1）
自动驾驶系统进阶与项目实战(十)基于PointPillars的点云三维目标检测和TensorRT实战(1) 发表于CVPR2019的PointPillars是目前比较受业内认可的激光雷达三维检测算法, ...
2016中国大数据大会成功举办重磅发布年度大数据十大热词
12月20日,由赛迪网.<互联网经济>杂志社.数创汇主办,赛迪智库互联网研究所.中国大数据产业生态联盟.中国信息化推进联盟以及国家信息产业公共服务平台协办的"2016中国大数据大 ...
[Python图像识别] 四十八.Pytorch构建Faster-RCNN模型实现小麦目标检测
该系列文章是讲解Python OpenCV图像处理知识,前期主要讲解图像入门.OpenCV基础用法,中期讲解图像处理的各种算法,包括图像锐化算子.图像增强技术.图像分割等,后期结合深度学习研究图像识别 ...
[YOLOv7/YOLOv5系列算法改进NO.5]改进特征融合网络PANET为BIFPN（更新添加小目标检测层yaml）
前言:作为当前先进的深度学习目标检测算法YOLOv5,已经集合了大量的trick,但是在处理一些复杂背景问题的时候,还是容易出现错漏检的问题.此后的系列文章,将重点对YOLOv5的如何改 ...
中国城市信息化50强发布邯郸位居二十,排名不低呀,
亚太地区城市信息化论坛第七届年会于5月26日在沪举行.作为本届年会重要分论坛的首届"中国城市信息化50强发布会"于5月27日举行.中国城市信息化50强评选活动是由亚太地区城市信息化 ...
【代码升级】【iCore3 双核心板】例程二十八：FSMC实验——读写FPGA
实验指导书及代码包下载: 链接:https://pan.baidu.com/s/1i6WL51V 密码:1mk4 iCore3 购买链接: https://item.taobao.com/item.h ...

YOLOv4重磅发布，五大改进，二十多项技巧实验，堪称最强目标检测万花筒

YOLOv4重磅发布，五大改进，二十多项技巧实验，堪称最强目标检测万花筒相关推荐

最新文章

热门文章