yolov3识别的类别_Gaussian YOLOv3：一个更强的YOLOv3，现已开源！

在目标检测的落地项目中，实时性和精确性的trade-off至关重要，而YOLOv3是目前为止在这方面做得最好的算法。本文通过高斯分布的特性，改进YOLOv3使得网络能够输出每个检测框的不确定性，从而提升了网络的精度。

https://arxiv.org/abs/1904.04620

https://github.com/jwchoi384/Gaussian_YOLOv3

YOLOv3

如上图(a)所示，为YOLOv3的网络架构。

YOLOv3使用了skip shotcut的操作方式网络过深而引起的梯度消散。
YOLOv3使用了up-sample操作，并将大特征图和小特征图upsample后的特征图进行concat，使网络能够拥有既包含丰富的高层抽象特征和精确的位置信息特征的融合特征层。
YOLOv3使用了特征金字塔结构，使得网络能够在三个不同的尺度特征下做目标检测，能够适应与多种不同大小的目标检测任务。

如上图(b)所示，为利用YOLOv3进行目标检测时的网络输出。

RGB3通道图像作为YOLOv3网络的输入，检测结果会在三个不同的尺度分别输出，包含了目标的坐标位置，目标是正样本还是负样本的概率，目标属于某个类别的置信度。对于每个尺度分支而言，在每个grid cell中会预测出三个结果(每个尺度下会有三个anchor)。将三个尺度的结果合并，进行非极大值抑制(NMS)后，输出最终的检测结果。

正如YOLOv3的输出结果所述，目标类别是有概率值的，但目标框只有位置而没有概率值，也就是从结果中无法预知当前目标框的可靠性。基于此，本文利用Gaussian模型来对网络输出进行建模，在基本不改变YOLOv3结构和计算量的情况下，能够输出每个预测框的可靠性，并且在算法总体性能上提升了3个点的MAP。Gaussian YOLOv3如图所示，Gaussian YOLOv3通过增加网络的输出，和改进网络的损失函数，实现了对预测框可靠性的输出。下图为源代码对比，从中我们可以看出，与原始的YOLOv3在坐标预测时输出4个维度不同，Gaussian YOLOv3在bounding box的坐标预测输出中包含了8个维度。这八个维度相当于是预测框中心坐标和长宽，以及对应预测框的不确定性。作者将这些指建模为四个高斯分布，目标框的位置作为高斯分布的均值，对应的不确定性作为方差。如下图的比对代码所示，Gaussian YOLOv3通过预测每个坐标位置的不确定性，从而提升最终预测prob值的精确性。由于Gaussian YOLOv3的输出进行了调整，与之对应的损失函数的计算也会做相应的调整。与原始的YOLOv3相比，仅仅调整了预测框坐标位置的回归策略。如下代码对比所示，原始的YOLOv3进行box回归时，由于网络预测输出就是坐标本身，因此计算梯度时就利用了均方误差的方式。而由于Gaussian YOLOv3输出的是均值和方差，因此在计算梯度时就结合了高斯分布的策略。

Gaussian YOLOv3的损失函数如下：

Gaussian YOLOv3与其他算法的结果比对

重磅！CVer-目标检测交流群已成立

扫码添加CVer助手，可申请加入CVer-目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪&去雾&去雨等群。一定要备注：研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡)

▲长按加群

▲长按关注我们

麻烦给我一个在看！

yolov3识别的类别_Gaussian YOLOv3：一个更强的YOLOv3，现已开源！相关推荐

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！
谷歌更强 NLP 模型 XLNet 开源:20 项任务全面碾压 BERT! 11 月份,谷歌研究团队在 GitHub 上发布了万众期待的 BERT,它不仅在 11 项 NLP 测试中刷新了最高成绩,甚 ...
yolov3识别的类别_车型识别相关技术
原文链接:https://blog.csdn.net/weixin_36431018/article/details/112369786 在交通安防中,车型识别是一个重要的技术点,车型识别主要包括车辆 ...
yolov3识别的类别_YOLO v3实战之钢筋数量AI识别（一）
本次的YOLO v3实战是基于DataFountain的一个比赛:智能盘点-钢筋数量AI识别,baseline model就选用上次讲解YOLO v3理论用了大概一周的时间改进了一下,第二部分如下: ...
商汤科技不等于人脸识别！它正在赋予AI更强的“存在感”
https://www.pingwest.com/a/187915?tt_from=toutiao 商汤科技要做有存在感的 AI. 在 AI 作为一种高新技术.一种流行概念被各种各样良莠不齐的产品&q ...
pil库修改图片大小_Gvcode库：一个更简单的、华人开源的、自动生成验证码的python库...
1 说明: ===== 1.1 gvcode全称:graphic-verification-code. 1.2 基本介绍,一秒搞懂. 1.3 并对源码进行修改一个小bug,教您如何修改源码,解决bug ...
56.4 AP！超越YOLOv4，更快更强的CenterNet2来了！
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达代码:https://github.com/xingyizhou/CenterNet2 论文:http ...
更强更方便的进制转换工具
最近,我仿照https://blog.csdn.net/Eyizoha/article/details/94897931?locationNum=9&fps=1上的2-36进制转换的代码做出了 ...
cv dnn识别动作规范 open_[mcj]基于Opencv-DNN模块的YOLOv3目标检测并保存视频(C++)|YOLOV3修改检测物体为特定类别如飞机行人...
在这篇文章中,我们将学习如何使用YOLOv3(一种最先进的物体探测器)与OpenCV. YOLOv3是流行的物体检测算法YOLO的最新变种- 你只看一次.已发布的模型可识别图像和视频中的80个不同对象 ...
yolov3识别探地雷达仿真数据(数据集制作，训练，测试)
yolov3识别探地雷达仿真数据利用yolov3目标检测的功能对探地雷达数据进行检测.具有一定的研究意义. 环境准备:ubuntu18.04,darknet平台,python3.7,CUDA10.0 ...

yolov3识别的类别_Gaussian YOLOv3：一个更强的YOLOv3，现已开源！

yolov3识别的类别_Gaussian YOLOv3：一个更强的YOLOv3，现已开源！相关推荐

最新文章

热门文章