在目标检测的落地项目中,实时性和精确性的trade-off至关重要,而YOLOv3是目前为止在这方面做得最好的算法。本文通过高斯分布的特性,改进YOLOv3使得网络能够输出每个检测框的不确定性,从而提升了网络的精度。

https://arxiv.org/abs/1904.04620

https://github.com/jwchoi384/Gaussian_YOLOv3

YOLOv3

如上图(a)所示,为YOLOv3的网络架构。

  • YOLOv3使用了skip shotcut的操作方式网络过深而引起的梯度消散。

  • YOLOv3使用了up-sample操作,并将大特征图和小特征图upsample后的特征图进行concat,使网络能够拥有既包含丰富的高层抽象特征和精确的位置信息特征的融合特征层。

  • YOLOv3使用了特征金字塔结构,使得网络能够在三个不同的尺度特征下做目标检测,能够适应与多种不同大小的目标检测任务。

如上图(b)所示,为利用YOLOv3进行目标检测时的网络输出。

  • RGB3通道图像作为YOLOv3网络的输入,检测结果会在三个不同的尺度分别输出,包含了目标的坐标位置,目标是正样本还是负样本的概率,目标属于某个类别的置信度。对于每个尺度分支而言,在每个grid cell中会预测出三个结果(每个尺度下会有三个anchor)。将三个尺度的结果合并,进行非极大值抑制(NMS)后,输出最终的检测结果。

正如YOLOv3的输出结果所述,目标类别是有概率值的,但目标框只有位置而没有概率值,也就是从结果中无法预知当前目标框的可靠性。基于此,本文利用Gaussian模型来对网络输出进行建模,在基本不改变YOLOv3结构和计算量的情况下,能够输出每个预测框的可靠性,并且在算法总体性能上提升了3个点的MAP。Gaussian YOLOv3如图所示,Gaussian YOLOv3通过增加网络的输出,和改进网络的损失函数,实现了对预测框可靠性的输出。下图为源代码对比,从中我们可以看出,与原始的YOLOv3在坐标预测时输出4个维度不同,Gaussian YOLOv3在bounding box的坐标预测输出中包含了8个维度。这八个维度相当于是预测框中心坐标和长宽,以及对应预测框的不确定性。作者将这些指建模为四个高斯分布,目标框的位置作为高斯分布的均值,对应的不确定性作为方差。如下图的比对代码所示,Gaussian YOLOv3通过预测每个坐标位置的不确定性,从而提升最终预测prob值的精确性。由于Gaussian YOLOv3的输出进行了调整,与之对应的损失函数的计算也会做相应的调整。与原始的YOLOv3相比,仅仅调整了预测框坐标位置的回归策略。如下代码对比所示,原始的YOLOv3进行box回归时,由于网络预测输出就是坐标本身,因此计算梯度时就利用了均方误差的方式。而由于Gaussian YOLOv3输出的是均值和方差,因此在计算梯度时就结合了高斯分布的策略。

Gaussian YOLOv3的损失函数如下:

Gaussian YOLOv3与其他算法的结果比对

重磅!CVer-目标检测交流群已成立

扫码添加CVer助手,可申请加入CVer-目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪&去雾&去雨等群。一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡)

▲长按加群

▲长按关注我们

麻烦给我一个在看!

yolov3识别的类别_Gaussian YOLOv3:一个更强的YOLOv3,现已开源!相关推荐

  1. 谷歌更强 NLP 模型 XLNet 开源:20 项任务全面碾压 BERT!

    谷歌更强 NLP 模型 XLNet 开源:20 项任务全面碾压 BERT! 11 月份,谷歌研究团队在 GitHub 上发布了万众期待的 BERT,它不仅在 11 项 NLP 测试中刷新了最高成绩,甚 ...

  2. yolov3识别的类别_车型识别相关技术

    原文链接:https://blog.csdn.net/weixin_36431018/article/details/112369786 在交通安防中,车型识别是一个重要的技术点,车型识别主要包括车辆 ...

  3. yolov3识别的类别_YOLO v3实战之钢筋数量AI识别(一)

    本次的YOLO v3实战是基于DataFountain的一个比赛:智能盘点-钢筋数量AI识别,baseline model就选用上次讲解YOLO v3理论 用了大概一周的时间改进了一下,第二部分如下: ...

  4. 商汤科技不等于人脸识别!它正在赋予AI更强的“存在感”

    https://www.pingwest.com/a/187915?tt_from=toutiao 商汤科技要做有存在感的 AI. 在 AI 作为一种高新技术.一种流行概念被各种各样良莠不齐的产品&q ...

  5. pil库修改图片大小_Gvcode库:一个更简单的、华人开源的、自动生成验证码的python库...

    1 说明: ===== 1.1 gvcode全称:graphic-verification-code. 1.2 基本介绍,一秒搞懂. 1.3 并对源码进行修改一个小bug,教您如何修改源码,解决bug ...

  6. 56.4 AP!超越YOLOv4,更快更强的CenterNet2来了!

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 代码:https://github.com/xingyizhou/CenterNet2 论文:http ...

  7. 更强更方便的进制转换工具

    最近,我仿照https://blog.csdn.net/Eyizoha/article/details/94897931?locationNum=9&fps=1上的2-36进制转换的代码做出了 ...

  8. cv dnn识别动作规范 open_[mcj]基于Opencv-DNN模块的YOLOv3目标检测并保存视频(C++)|YOLOV3修改检测物体为特定类别如飞机行人...

    在这篇文章中,我们将学习如何使用YOLOv3(一种最先进的物体探测器)与OpenCV. YOLOv3是流行的物体检测算法YOLO的最新变种- 你只看一次.已发布的模型可识别图像和视频中的80个不同对象 ...

  9. yolov3识别探地雷达仿真数据(数据集制作,训练,测试)

    yolov3识别探地雷达仿真数据 利用yolov3目标检测的功能对探地雷达数据进行检测.具有一定的研究意义. 环境准备:ubuntu18.04,darknet平台,python3.7,CUDA10.0 ...

最新文章

  1. Java获取照片的Exif信息,并解析GPS
  2. 如何编写更好的SQL查询:终极指南-第三部分
  3. h5活动是什么意思_深度|场景赋能H5,365天让保险线上拓客更广更容易
  4. 【转】为什么博士叫PhD?
  5. Java进阶 | 泛型机制与反射原理
  6. 基于CentOS7,MySQL5.7的高可用MHA架构搭建实战
  7. TokenInsight:BTC全网流量逐级上升,链上活跃度环比上周大幅回升
  8. net 调用java_NET调用Java之100-Continue的坑
  9. 字节跳动(用户喜好)
  10. DeepFake技术--DeepFakes 概述(一)(二)
  11. DDS原理以及MATLAB实现
  12. 商城订单实时语音提醒功能JavaScript部分 附提醒语音音频文件
  13. 【递归练习】算24点
  14. Java将编辑器内容生成pdf文件下载
  15. 次世代建模师电脑里面收藏的素材共享
  16. tcl/tk参考——tcl内建命令
  17. CString 使用详解
  18. 第二讲 单片机C语言之12864液晶显示
  19. 索(shen)引(keng)大全
  20. 【教程】Western 操作步骤

热门文章

  1. 联合索引会创建几个索引_联合索引在B+树上的存储结构及数据查找方式
  2. python免费课程400节-庆国庆!新更新!《Python400集》课程更新 共14节
  3. python在电脑下载-Windows下下载及安装numpy、pandas及简单应用
  4. python基础代码大全-Python网络爬虫实战项目代码大全(长期更新,欢迎补充)
  5. python编程例子-几个python编程例子
  6. 0基础学python要多久-27岁0基础自学Python,多久可以找到工作?
  7. python简单爬虫代码-一则python3的简单爬虫代码
  8. 本地离线语音识别芯片哪家强
  9. 趋势网盘点:语音识别技术创新
  10. 2014——我们都任性过