基于DIou改进的YOLOv3目标检测

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

背景&引言

文中指出DIoU要比GIou更加符合目标框回归的机制，将目标与anchor之间的距离，重叠率以及尺度都考虑进去，使得目标框回归变得更加稳定，不会像IoU和GIoU一样出现训练过程中发散等问题，并且方法能够简单地迁移到现有的算法中带来性能的提升，实验在YOLOv3上提升了5.91mAP。

其中B={x,y,w,h} 是预测框，是 ground-truth。IoU是目标检测里面很重要的一个指标，通过预测的框和GT间的交集与并集的比例进行计算，经常用于评价bbox的优劣。但一般对bbox的精调都采用L2范数，而一些研究表明这不是最优化IoU的方法，因此出现了IoU loss。

IoU Loss

IoU loss顾名思义就是直接通过IoU计算梯度进行回归，论文提到IoU loss的无法避免的缺点：当两个box无交集时，IoU=0，很近的无交集框和很远的无交集框的输出一样，这样就失去了梯度方向，无法优化。IoU loss的实现形式有很多种，除公式2外，还有UnitBox的交叉熵形式和IoUNet的Smooth-L1形式。

这里论文主要讨论的类似YOLO的检测网络，按照GT是否在cell判断当前bbox是否需要回归，所以可能存在无交集的情况。而一般的two stage网络，在bbox regress的时候都会卡，不会对无交集的框进行回归。

GIoU Loss

GIou loss在IoU loss的基础上增加一个惩罚项，为包围预测框和的最小区域大小，当bbox的距离越大时，惩罚项将越大。尽管GIoU解决了IoU的梯度问题，但他仍然存在几个限制：

上图可以很好的来说明GIoU不稳定以及收敛很慢的原因。上图中第一行三张图展示的是GIoU的回归过程，其中绿色框为目标框，黑色框为anchor，蓝色框为不同次数的迭代后，anchor的偏移结果。第二行三张图展示的是DIoU的回归过程，其中绿色框为目标框，黑色框为anchor，红色框为不同次数的迭代后，anchor的偏移结果。从图中我们可以看到，GIoU在回归的过程中，从损失函数的形式我们发现，当IoU为0时，GIoU会先尽可能让anchor能够和目标框产生重叠，之后GIoU会渐渐退化成IoU回归策略，因此整个过程会非常缓慢而且存在发散的风险。而DIoU考虑到anchor和目标之间的中心点距离，可以更快更有效更稳定的进行回归。

如上图中的包含情况，GIoU会退化成IoU(三个位置预测框和gt框所包围的最小面积相同，惩罚项c保持一致，梯度发散)。由于很大程度依赖IoU项，GIoU需要更多的迭代次数来收敛，特别是水平和垂直的bbox（后面会分析）。一般地，GIoU loss不能很好地收敛SOTA算法，反而造成不好的结果。

综合上面的分析，论文提出Distance-IoU(DIoU) loss，简单地在IoU loss基础上添加一个惩罚项，该惩罚项用于最小化两个bbox的中心点距离。如图1所示，DIoU收敛速度和效果都很好，而且DIoU能够用于NMS的计算中，不仅考虑了重叠区域，还考虑了中心点距离。另外，论文考虑bbox的三要素，重叠区域，中心点距离和长宽比，进一步提出了Complete IoU(CIoU) loss，收敛更快，效果更好。

知识回顾

IoU and GIoU Losses

为了全面地分析IoU loss和GIoU的性能，论文进行了模拟实验，模拟不同的距离、尺寸和长宽比的bbox的回归情况，如下图所示：

绿色框代表仿真实验需要回归的七个不同尺度的目标框，七个目标框的中心点坐标都是（10 * 10）；
蓝色的点代表了所有anchor的中心点，中心点的分布如上图所示，各个方向都有，各种距离都有，当然每个anchor的一个中心点都包含有七个不同面积的anchor框。而且每个面积的anchor框又有七种不同的比例尺寸。因此一共有5000个蓝色点，对应5000*7*7个anchor框，并且每个anchor框都需要回归到七个gt目标框上，因此一共有5000*7*7*7个回归案例。

最终的实验结果如下：图中展示的训练同样的步数后（200步），IoU,GIoU以及本文提出的DIoU、CIoU作为loss的情况下，每个anchor的误差分布。

IoU：从IoU误差的曲线我们可以发现，anchor越靠近边缘，误差越大，那些与目标框没有重叠的anchor基本无法回归；
GIoU：从GIoU误差的曲线我们可以发现，对于一些没有重叠的anchor，GIoU的表现要比IoU更好。但是由于GIoU仍然严重的依赖IoU，因此在两个垂直方向，误差很大，基本很难收敛，这就是GIoU不稳定的原因；
DIoU：从DIoU误差的曲线我们可以发现，对于不同距离，方向，面积和比例的anchor，DIoU都能做到较好的回归。

具体伪算法步骤如下：

对于预测框，当前迭代（current iteration epochs = t）回合, 可以通过下式获得：

给定一个loss函数，可以通过梯度下降来模拟bbox优化的过程。对于预测的bbox ，为阶段的结果，( )'为对的梯度，使用来加速收敛。bbox的优化评价使用 -norm，共训练200轮，error曲线如下图所示：

论文将5000个中心点上的bbox在最后阶段的total error进行了可视化。IoU loss只对与target box有交集的bbox有效，因为无交集的bbox的梯度为0。而GIoU由于增加了惩罚函数，中间大部分区域错误率明显减少，但是垂直和水平的区域依然保持着高的error，这是由于GIoU的惩罚项经常很小甚至为0，导致训练需要更多的迭代来收敛。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复：深度学习，即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复：计算机视觉，即可下载计算机视觉相关17本pdf书籍，包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复：SLAM，即可下载独家SLAM相关视频课程，包含视觉SLAM、激光SLAM精品课程。

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

基于DIou改进的YOLOv3目标检测相关推荐

cv dnn识别动作规范 open_[mcj]基于Opencv-DNN模块的YOLOv3目标检测并保存视频(C++)|YOLOV3修改检测物体为特定类别如飞机行人...
在这篇文章中,我们将学习如何使用YOLOv3(一种最先进的物体探测器)与OpenCV. YOLOv3是流行的物体检测算法YOLO的最新变种- 你只看一次.已发布的模型可识别图像和视频中的80个不同对象 ...
基于深度卷积神经网络的目标检测研究综述
基于深度卷积神经网络的目标检测研究综述人工智能技术与咨询来自<光学精密工程> ,作者范丽丽等摘要:作为计算机视觉中的基本视觉识别问题,目标检测在过去的几十年中得到了广泛地研究.目标检 ...
分析YOLOv3目标检测
前言 YOLOv3模型比之前的模型复杂了,但是精度也提高了.YOLOv3最大的变化包括两点:使用残差模型和采用FPN架构.YOLO2曾采用passthrough结构来检测细粒度特征,在YOLO3更进一 ...
视频教程-YOLOv3目标检测：原理与源码解析-计算机视觉
YOLOv3目标检测:原理与源码解析大学教授,美国归国博士.博士生导师:人工智能公司专家顾问:长期从事人工智能.物联网.大数据研究:已发表学术论文100多篇,授权发明专利10多项白勇 ¥78.00 ...
使用PyTorch从零开始实现YOLO-V3目标检测算法 (一)
原文:https://blog.csdn.net/u011520516/article/details/80222743 点击查看博客原文标检测是深度学习近期发展过程中受益最多的领域.随着技术的进步 ...
基于深度学习的显著性目标检测方法综述
源自:电子学报作者:罗会兰袁璞童康摘要显著性目标检测旨在对图像中最显著的对象进行检测和分割,是计算机视觉任务中重要的预处理步骤之一,且在信息检索.公共安全等领域均有广泛的应 ...
YOLOv3目标检测算法——通俗易懂的解析
目录 YOLOv3目标检测算法前沿一.YOLOv3 二.损失函数 YOLOv3目标检测算法前沿前两篇文章我们讲了下关于YOLOv1和YOLOv2的原理,有不懂的小伙伴可以回到前面再看看: YO ...
基于深度学习的小目标检测方法综述
随着深度学习的发展,基于深度学习的目标检测技术取得了巨大的进展,但小目标由于像素少,难以提取有效信息,造成小目标的检测面临着巨大的困难和挑战. 为了提高小目标的检测性能,研究人员从网络结构.训练策略. ...
【yolov3目标检测】(3) opencv+yolov3 检测交通路况，附python完整代码
各位同学好,今天和大家分享一下如何使用 opencv 调用 yolov3 模型,加载网络权重,很方便地实现 yolov3 目标检测.先放张图看效果. 使用的网上找的行车记录仪视频做测试,数据集采用CO ...
使用pytorch从零开始实现YOLO-V3目标检测算法 (二)
原文:https://blog.csdn.net/u011520516/article/details/80212960 博客翻译这是从零开始实现YOLO v3检测器的教程的第2部分.在上一节中,我 ...

基于DIou改进的YOLOv3目标检测

IoU and GIoU Losses

基于DIou改进的YOLOv3目标检测相关推荐

最新文章

热门文章