YOLO系列

首先先说一下目标检测之one-stage和two-stage网络是什么意思?有什么区别?
刚开始看目标检测的时候总能看见单阶段(one-stage)和两阶段(two-stage)目标检测网络,一开始不太懂,后来通过自己查资料,明白了一些,这里记录一下。
**单阶段(one-stage):**目标检测经典算法比如YOlO,SSD这是单阶段(One-Stage)算法,单阶段算法主要思想就是用一个CNN网络直接预测不同目标的类别与位置。这类算法是速度快,但是准确性要低一些。
简单介绍一些YOLO算法,下面我们会详细的展开来讲:
(1)YOlO算法,其全称是You Only Look Once: Unified, Real-Time Object Detection,Once指的是只需要一次CNN运算,Unified指的是这是一个统一的框架,提供end-to-end的预测,而实时性(Real-Time)的体现是YOlO算法速度快。
(2)YOLO算法将目标检测的问题转化成一个回归(Regression)问题。给定输入图像,直接在图像的多个位置上回归出目标的边界框以及其分类类别。
**两阶段(two-stage):**目标检测两阶段(two-stage)的经典算法就是基于候选区域的R-CNN系算法(R-CNN,Fast R-CNN, Faster R-CNN),两阶段(Two-Stage)指的是,需要先使用启发式方法(如选择性搜索:SS算法)或者CNN网络(RPN)产生候选区域,然后再在候选区域上做分类与回归。

YOLOv1:开山之作

016年,Joseph Redmon、Santosh Divvala、Ross Girshick等人提出了一种单阶段(one-stage)的目标检测网络。它的检测速度非常快,每秒可以处理45帧图片,能够轻松地实时运行。由于其速度之快和其使用的特殊方法,作者将其取名为:You Only Look Once(也就是我们常说的YOLO的全称),并将该成果发表在了CVPR 2016上,从而引起了广泛地关注。

YOLO 的核心思想就是把目标检测转变成一个回归问题,利用整张图作为网络的输入,仅仅经过一个神经网络,得到bounding box(边界框) 的位置及其所属的类别。

网络结构


YOLOv1的网路结构非常明晰,是一种传统的one-stage的卷积神经网络:

网络输入:448×448×3的彩色图片。
中间层:由若干卷积层和最大池化层组成,用于提取图片的抽象特征。
全连接层:由两个全连接层组成,用来预测目标的位置和类别概率值。
网络输出:7×7×30的预测结果。

具体实现

(1)检测策略
YOLOv1采用的是“分而治之”的策略,将一张图片平均分成7×7个网格,每个网格分别负责预测中心点落在该网格内的目标。回忆一下,在Faster R-CNN中,是通过一个RPN来获得目标的感兴趣区域,这种方法精度高,但是需要额外再训练一个RPN网络,这无疑增加了训练的负担。在YOLOv1中,通过划分得到了7×7个网格,这49个网格就相当于是目标的感兴趣区域。通过这种方式,我们就不需要再额外设计一个RPN网络,这正是YOLOv1作为单阶段网络的简单快捷之处!

具体实现过程如下:

(1)将一幅图像分成 S×S个网格(grid cell),如果某个 object 的中心落在这个网格中,则这个网格就负责预测这个object。
(2)每个网格要预测 B 个bounding box(2个),每个 bounding box 要预测 (x, y, w, h) 和 confidence 共5个值。
(3)每个网格还要预测一个类别信息,记为 C 个类。
(4)总的来说,S×S 个网格,每个网格要预测 B个bounding box ,还要预测 C 个类。网络输出就是一个 S × S × (5×B+C) 的张量。

在实际过程中,YOLOv1把一张图片划分为了7×7个网格,并且每个网格预测2个Box(Box1和Box2),20个类别。所以实际上,S=7,B=2,C=20。那么网络输出的shape也就是:7×7×30。

目标损失函数

损失由三部分组成,分别是:坐标预测损失、置信度预测损失、类别预测损失。
(1)使用的是差方和误差。需要注意的是,w和h在进行误差计算的时候取的是它们的平方根,原因是对不同大小的bounding box预测中,相比于大bounding box预测偏一点,小box预测偏一点更不能忍受。而差方和误差函数中对同样的偏移loss是一样。 为了缓和这个问题,作者用了一个比较取巧的办法,就是将bounding box的w和h取平方根代替原本的w和h。(2)定位误差比分类误差更大,所以增加对定位误差的惩罚,使λ c o o r d = 5
(3)在每个图像中,许多网格单元不包含任何目标。训练时就会把这些网格里的框的“置信度”(置信度(confidence)可以理解为预测目标和真实目标的IoU)分数推到零,这往往超过了包含目标的框的梯度。从而可能导致模型不稳定,训练早期发散。因此要减少了不包含目标的框的置信度预测的损失,使 λ n o o b j = 0.5

下面是论文给出的参数解释,供大家参考

性能表现

(1)优点:

YOLO检测速度非常快。标准版本的YOLO可以每秒处理 45 张图像;YOLO的极速版本每秒可以处理150帧图像。这就意味着 YOLO 可以以小于 25 毫秒延迟,实时地处理视频。对于欠实时系统,在准确率保证的情况下,YOLO速度快于其他方法。
YOLO 实时检测的平均精度是其他实时监测系统的两倍。
迁移能力强,能运用到其他的新的领域(比如艺术品目标检测)。

(2)局限:

—YOLO对相互靠近的物体,以及很小的群体检测效果不好,这是因为一个网格只预测了2个框,并且都只属于同一类。
—由于损失函数的问题,定位误差是影响检测效果的主要原因,尤其是大小物体的处理上,还有待加强。(因为对于小的bounding boxes,small error影响更大)
—YOLO对不常见的角度的目标泛化性能偏弱。

YOLO v2

YOLOv2 是一个先进的目标检测算法,比其它的检测器检测速度更快。除此之外,该网络可以适应多种尺寸的图片输入,并且能在检测精度和速度之间进行很好的权衡。

相比于YOLOv1是利用全连接层直接预测Bounding Box的坐标,YOLOv2借鉴了Faster R-CNN的思想,引入Anchor机制。利用K-means聚类的方法在训练集中聚类计算出更好的Anchor模板,大大提高了算法的召回率。同时结合图像细粒度特征,将浅层特征与深层特征相连,有助于对小尺寸目标的检测。

改进后的YOLOv2: Darknet-19,总结如下:

(1)与VGG相似,使用了很多3×3卷积核;并且每一次池化后,下一层的卷积核的通道数 = 池化输出的通道 × 2。
(2)在每一层卷积后,都增加了批量标准化(Batch Normalization)进行预处理。
(3)采用了降维的思想,把1×1的卷积置于3×3之间,用来压缩特征。
(4)在网络最后的输出增加了一个global average pooling层。
(5)整体上采用了19个卷积层,5个池化层。

改进方法

(1)Batch Normalization

Batch Normalization 简称 BN ,意思是批量标准化。2015年由 Google 研究员在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出。

BN 对数据进行预处理(统一格式、均衡化、去噪等)能够大大提高训练速度,提升训练效果。基于此,YOLOv2 对每一层输入的数据都进行批量标准化,这样网络就不需要每层都去学数据的分布,收敛会变得更快。

BN算法实现:
在卷积或池化之后,激活函数之前,对每个数据输出进行标准化,实现方式如下图所示:


如上图所示,前三行是对Batch进行数据归一化(如果一个Batch中有训练集每个数据,那么同一Batch内数据近似代表了整体训练数据),第四行引入了附加参数 γ 和 β,这两个参数的具体取值可以参考上面提到的 Batch Normalization 这篇论文。

(2)引入 Anchor Box 机制

在YOLOv1中,作者设计了端对端的网路,直接对边界框的位置(x, y, w, h)进行预测。这样做虽然简单,但是由于没有类似R-CNN系列的推荐区域,所以网络在前期训练时非常困难,很难收敛。于是,自YOLOv2开始,引入了 Anchors box 机制,希望通过提前筛选得到的具有代表性先验框Anchors,使得网络在训练时更容易收敛。

先写到这里,之后在更新

参考资料:https://blog.csdn.net/wjinjie/article/details/107509243

目标检测篇之---YOLO系列相关推荐

  1. 目标检测——RCNN与YOLO系列

    文章目录 目标检测简介 0. 图先来两张 1. 核心问题 2. 算法分类 3. 应用 4. 原理 5. 预备知识 5.1. 候选区域的产生 5.1.1. 滑动窗口法 5.1.2. 选择性搜索 5.2. ...

  2. 【目标检测】SSD+yolo系列(v1-v7)

    目录 SSD: Single Shot MultiBox Detector -- 2016 YOLO V1 -- 2016 YOLO V2 -- 2017 YOLO V3 -- 2018 YOLO V ...

  3. CV 面试问题详解宝典—目标检测篇

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨那年当上博士前 来源丨AI约读社 编辑丨极市平台 导读 面试知识点总结 序言 目标检测篇面试知识 ...

  4. 【深度学习】一位算法工程师从30+场秋招面试中总结出的超强面经——目标检测篇(含答案)...

    作者丨灯会 来源丨极市平台 编辑丨极市平台 导读 作者灯会为21届中部985研究生,凭借自己整理的面经,去年在腾讯优图暑期实习,七月份将入职百度cv算法工程师.在去年灰飞烟灭的算法求职季中,经过30+ ...

  5. yolo 负样本_目标检测介绍之YOLO与SSD

    当前,目标检测的方法主要有两类,一类被称为两阶段方法,一类被称为一阶段方法.两阶段方法和一阶段方法都是基于目标应位于某个矩形框内这样一个假设,区别在于两阶段方法多了一个框的筛选阶段(Region Pr ...

  6. 深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4《Optimal Speed and Accuracy of Object Detection》

    深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4<Optimal Speed and Accuracy of Object Detection> Abstract 摘要 1. In ...

  7. 一文看尽目标检测:从YOLO v1到v3的进化之路

    本文转载自: http://www.mamicode.com/info-detail-2314392.html 导语:如今基于深度学习的目标检测已经逐渐成为自动驾驶.视频监控.机械加工.智能机器人等领 ...

  8. 一位算法工程师从30+场秋招面试中总结出的超强面经——目标检测篇(含答案)

    作者丨灯会 来源丨极市平台 编辑丨极市平台 本文为极市平台原创,转载须经授权并注明来源 作者灯会为21届中部985研究生,七月份将入职某互联网大厂cv算法工程师.在去年灰飞烟灭的算法求职季中,经过几十 ...

  9. 一文看尽目标检测:从 YOLO v1 到 v3 的进化之路

    点击"小詹学Python",选择"星标"公众号 重磅干货,第一时间送达 源自: http://www.mamicode.com/info-detail-2314 ...

最新文章

  1. Weblogic 9.2和10.3 改密码 一站完成
  2. 1、初识Server API for JavaScript
  3. 11g RMAN Restore archivelog用法
  4. C#中动态加载卸载类库
  5. 微软总裁比尔.盖茨给即将走出学校、踏入社会的青年一代下列11点忠告
  6. 中兴V880使用手记之二——取得root权限
  7. 解决github拉项目慢的问题
  8. Titanium快速开发app
  9. adalm pluto_Apache Pluto和PHP集成示例教程
  10. 我国常用的微型计算机是,2013云南省全国计算机等级考试二级笔试试卷VB理论考试试题及答案...
  11. 小程序中上传图片并进行压缩(二)
  12. 网站日志分析软件--让网站日志分析工作变得更简单
  13. 第八章 Python之常用模块
  14. 基于搜狗新闻语料库的词向量模型训练(Windows下)
  15. SQL实现次日、三日及七日用户留存率的计算
  16. Codeforces 802 补题
  17. mysql图形查询操作 点找面及面找点 Polygon获取中心点坐标 空间地理位置计算
  18. uc浏览器、QQ浏览器的h5页面,点击分享按钮,分享到微信、qq、微博
  19. 家用千兆路由器排行榜前十名_2019最适合家用路由器哪个好_排行榜_智能家
  20. 在群晖NAS上搭建导航页_通过Web Station搭建

热门文章

  1. open cv均值 中值 高斯 双边高斯 滤波及模糊
  2. 项目管理:确定目标有哪些作用?
  3. office2016实用论文排版技巧
  4. 初始化一个vue项目的流程
  5. canvas实现聚光灯效果(js)
  6. HTML+CSS聚光灯效果动画
  7. 计算机辅助设计软件应用答案,专科《计算机辅助设计软件的应用》试卷答案.doc...
  8. API Bank,并不简单
  9. python 最新 毕业设计 选题推荐
  10. matlab查看俯视图,关于matlab:校准图像以获取位于同一平面上的点的俯视图