近期在调研目标检测的研究现状,包括two-stage和one-stage,以及anchor-based和anchor-free。

把用到的一些链接记录一下 ,方便查阅。

机器之心的一篇文章:

从锚点到关键点,最新的目标检测方法发展到哪了

这篇文章介绍了目标检测方法从anchor-based到anchor-free的发展,并指出anchor-free将会是比较有前景的研究方向。文章是以一篇综述为基础展开介绍的。Recent Advances in Deep Learning for Object Detection这篇综述是2019年的论文。

Faster-RCNN

YOLOv3

FCOS:Fully Convolutional One-Stage Object Detection

这是比较新的一篇anchor-free的one-stage目标检测方法,整体结构图如下图所示。首先是用FPN来抽取不同multi-level的特征。然后在feature map的每个点上回归,训练bounding box和class。训练阶段还单独训练了center-ness分支,以计算center-ness,使得离中心较远的bounding box有较低的置信度。test阶段即抽取特征,然后给出bounding box和label,confidence是由center-ness和classification的置信度相乘得出的。

1.FCOS回归目标和Loss

把每张feature map的每个坐标都可以映射回原输入图像。如果某个feature map的坐标落在某个ground truth的框内,那么这就是一个正样本,可以拿来做训练。首先做个映射,计算feature map中的这个点,到ground truth的距离。如下图所示,这就是训练阶段的回归目标。

从这里我们可以看到,由于采用了FPN和逐像素匹配,FCOS可以尽可能多地利用ground truth,而且所有送入训练的样本都是正样本。这与anchor-based检测器不同,anchor-based detectors仅考虑IOU较高的作为正样本,作者认为这可能是FCOS表现高于一些anchor-based检测器的原因之一。

在网络输出阶段,FCOS是直接将分类和回归分支接到FPN和4个conv后面,没有anchor的生成过程和修正过程,因此减少了参数量和计算量。

损失函数如下所示。前半部分是分类的focal loss(这篇文章都是在和RetinaNet做对比,很多参数设置和它一样),后半部分是IOU loss。

2.multi-level prediction with FPN

在FCOS中使用FPN主要是考虑了目标重叠的问题,而且用不同level的特征检测不同大小的目标,能很大程度上提高精度。在不同的feature map中,都去找合适的(这部分存疑)文中提到的head是涉及RetinaNet的,看完RetinaNet再理解这篇应该会容易多。

3.center-ness

center-ness是由于,检测出的许多低质量的bounding box都是由于边框离中心太远了。所以提出center-ness可以将这部分的bounding box的confidence降低(center-ness越小说明边框离中心点越远)。这个公式是在训练过程中计算的,如果在test阶段就直接从该branch得到计算后的center-ness,然后直接与label的置信度相乘,得到最终的置信度。

4.实验及结果

作者做了很多很多对比实验,来说明FPN,center-ness等组件的作用,而且绝大多数超参数都是直接用的RetinaNet的。而且效果也被证明挺不错。

RetinaNet

RetinaNet: Focal loss在目标检测中的应用

这篇文章是2018年Kaiming的提出focal loss的文章,是为了解决类别不平衡的问题。

FPN:Feature Pyramid Networks

FPN网络的结构并不复杂,包括bottom-up pathway和top-down pathway、lateral connections。通过横向连接,使得FPN在后面的预测阶段能够结合了之前的特征抽取阶段的特征。

在resnet等网络中,后面的高层语义同样也与前面的底层特征相连接。既然抽取特征的阶段也是一层一层抽取的,为什么不直接在每层顺便做预测或者后续的检测等任务呢?下面这篇文章的一句话给出了解释。因为在抽取特征阶段,不同层对应的是不同层次的语义信息。如果直接做预测,这就强行让不同层学习同样的语义信息了,效果可能不是很好。

CVPR 2017论文解读:特征金字塔网络FPN

在FPN原文中,作者把FPN分别应用在RPN和fast RCNN两步,都取得了不错的效果。

R-FCN

https://blog.csdn.net/wfei101/article/details/79284512

听名字就知道,这个full conv network为基础的检测网络,没有全连接层。如下图所示,在backbone提取的feature maps上,用k^2(C+1)个卷积核,得到一个score maps。然后利用FPN找到ROI,做ROI pooling。这种方法不像faster rcnn,需要对每个ROI分别再单独计算。

目标检测研究现状调研相关推荐

  1. 自动驾驶中多模态三维目标检测研究综述

    摘要:过去几年,我们见证了自动驾驶的快速发展.然而,由于复杂和动态的驾驶环境,目前实现完全自动驾驶仍然是一项艰巨的任务.因此,自动驾驶汽车配备了一套传感器来进行强大而准确的环境感知.随着传感器的数量和 ...

  2. 基于yolov5的交通标志牌的目标检测研究设计——思路及概念

    有需要项目的可以私信博主!!!!! 一.选题的目的.意义及研究现状 (1)选题的目的和意义 随着人们对道路安全性的重视和城市交通量的不断增加,交通标志牌作为道路交通安全的重要组成部分之一,扮演着十分重 ...

  3. 基于深度卷积神经网络的目标检测研究综述

    基于深度卷积神经网络的目标检测研究综述 人工智能技术与咨询 来自<光学精密工程> ,作者范丽丽等 摘要:作为计算机视觉中的基本视觉识别问题,目标检测在过去的几十年中得到了广泛地研究.目标检 ...

  4. 目标检测YOLO实战应用案例100讲-基于深度学习的航拍图像YOLOv5目标检测研究及应用(论文篇)

    目录 基于深度学习的航拍图像目标检测研究 航拍图像目标检测 评价指标与数据集

  5. 无人机下的目标检测研究(附论文下载)

    关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文信息:冷佳旭,莫梦竟成,周应华,叶永明,高陈强,高新波*. 无人机视角下的 ...

  6. 遥感图像目标检测研究综述

    遥感图像目标检测 遥感图像特殊性 一.目标检测研究综述 1.介绍 2.传统目标检测 3.基于深度学习目标检测 R-CNN系列为代表的两阶段算法 YOLO.SSD为代表的一阶段算法 二.多尺度目标检测研 ...

  7. 基于深度学习的目标检测研究综述

    基于深度学习的目标检测研究综述 摘要:深度学习是机器学习的一个研究领域,近年来受到越来越多的关注.最近几年,深度学习在目标检测领域取得了不少突破性的进展,已经运用到具体的目标检测任务上.本文首先详细介 ...

  8. RGB-D 显著性目标检测:全面调研(2012-2020)

    论文:RGB-D Salient Object Detection: A Survey 论文下载:RGB-D Salient Object Detection: A Survey 代码:https:/ ...

  9. 红外小目标:基于深度学习的红外小目标检测研究方法(持续更新中)

    深度学习红外小目标研究现状_2021.7.6更新 2019年 TBC-Net(TBC-Net: A real-time detector for infrared small target detec ...

  10. 基于深度学习的目标检测研究进展

    前言 开始本文内容之前,我们先来看一下上边左侧的这张图,从图中你看到了什么物体?他们在什么位置?这还不简单,图中有一个猫和一个人,具体的位置就是上图右侧图像两个边框(bounding-box)所在的位 ...

最新文章

  1. conda-forge,conda,-c的理解
  2. 从零开始学习Sencha Touch MVC应用之七
  3. 一次线上JVM调优实践,FullGC40次/天到10天一次的优化过程
  4. logstash mysql日期_logstash-input-jdbc取mysql数据日期格式处理
  5. 光伏领跑者火热前行 可靠性护航“长跑”
  6. Windows进程通信之共享内存通信(C++)
  7. 推荐一款好用的截图软件Faststone capture
  8. c语言双向链表实现航班系统,双向链表C语言实现
  9. 网络七层协议,五层协议概述
  10. opencv python 实现图片添加带透明的 logo
  11. html页面显示不全,小技巧助你解决div+css网页内容显示不完整
  12. Android5.1.1-高通msm8916平台添加Etehrnet。(驱动+上层framworks)
  13. mysql Incorrect string value \xF0\x9F\x98\x84\xF0\x9F
  14. Graph Visualization and Navigation in Information Visualization: A Survey 译文
  15. 《 硬件创业:从产品创意到成熟企业的成功路线图》——1.2 当前的技术
  16. Hack The Box-meow
  17. 考试系统之选择题评分
  18. 6-4 使用函数求素数和 (20 分)
  19. cas入门之二spring配置文件
  20. React Umi SSR SSG 使用TypeScript的最佳实践

热门文章

  1. 世界顶级企业的数据中台打造之旅
  2. 电子护照阅读器便捷通行管理系统
  3. ibm入职测试题太难了_IBM面试的IQ测试题
  4. C. Removing Smallest Multiples codeforces 1734C
  5. sk_buff 剖析
  6. 用安卓手机搭建一个可用渗透测试环境/安卓手机搭建linux环境
  7. Python数据分析及可视化-招聘网站岗位数据分析
  8. PGM学习之四 Factor,Reasoning
  9. 论文阅读:Reasoning about Object Affordances in a Knowledge Base Representation
  10. Linux权限中x是什么意思,linux里的drwxr-xr-x代表的意思