点击我爱计算机视觉标星,更快获取CVML新技术


目标检测的任务是“分类”并从图像中“定位”出物体,但长久以来,该领域的工作大多是这样:生成可能包含目标的区域,然后在该区域提取特征并分类。

显然,人眼并不是这样工作的。

人眼可以直接定位出物体,也就是对人眼来说发现目标的过程,定位和分类是一体的。

现代深度学习的方法,代表性的包括二阶段的Faster R-CNN和一阶段的SSD、RetinaNet等,使用在特定尺度图像中预先定义大量的目标框(Anchors)的方法,降低了计算量。但这也带来了超参数增加、人为调参过拟合评测数据集、前后景目标类别不平衡等问题。

但很有意思的是,近半年来,尤其以CornerNet的出现为代表,越来越多的工作开始尝试摆脱Anchors的设计,52CV曾报道过:

ECCV18 Oral | CornerNet目标检测开启预测“边界框”到预测“点对”的新思路

Grid R-CNN解读:商汤最新目标检测算法

CVPR 2019 行人检测新思路:高级语义特征检测取得精度新突破

CV君相信,无Anchor的目标检测已经悄然成为该领域的重要发展方向。

今天跟大家分享的FoveaBox则是该方向最新的成果(昨天刚刚传到arXiv),针对的是通用目标检测领域,算法方案简单,结果达到state-of-the-art,代码亦将开源,方便后续其他学者跟进,发展空间极大。

深度神经网络可以自己回归出目标包围框,Anchor并非必要,目标检测“可能”要就此进入新纪元了!

下面是论文《FoveaBox: Beyond Anchor-based Object Detector》的作者信息:

作者分类来自清华大学、北京国家信息科技研究中心、字节跳动AI实验室、宾夕法尼亚大学。

感谢~

下图为无Anchor的FoveaBox算法与RetinaNet在COCO数据集上的结果比较,RetinaNet通过改变anchors个数,精度有变化,但FoveaBox更胜一筹。

算法思想

FoveaBox的动机来自人眼的中央凹:视野中心(物体)具有最高的视力。

(物体的位置信息能够从中心反应出来——CV君的理解)

下图展示了FoveaBox目标检测的基本思想,对于可能存在目标的每个输出空间位置,FoveaBox直接预测所有目标类别存在的置信度和边界框。

FoveaBox是在RetinaNet目标检测网络基础上做的改进,我们先来看看RetinaNet的网络架构。

如下图,RetinaNet利用了特征金字塔网络检测目标,对于金字塔的每一层,都后接class  + box  子网络。最右侧上半部分为class子网络,下半部分为box子网络。

下图是FoveaBox网络的改进,class 子网络计算的是每个输出位置分别存在不同类别目标的置信度,box子网络则是直接计算每个输出位置的与类别无关的目标包围框(左上和右下顶点坐标)。

在论文第三部分从骨干网、训练时目标的尺度分配、训练时目标位置信息内陷、box 预测、网络优化和推断等详细说明了训练和推断的细节。

实验结果

作者首先研究了,FoveaBox算法与RetinaNet在变化anchor密度、目标宽高比后的精度结果,如下图(a)(b),FoveaBox比RetinaNet的最好结果还好。

因为FoveaBox具有自己生成候选目标区域的能力,作者将其与RPN网络相比较,下图(c),发现其生成的目标候选框比RPN的质量更高!

下面表格展示了,FoveaBox与目前两阶段和一阶段state-of-the-art目标检测算法在COCO数据集上检测结果比较,FoveaBox取得了几乎最好的结果,仅三个指标略低于Cascade R-CNN,但作者称许多高级目标检测技巧,FoveaBox还没有使用,后续还有提高的潜力。

下图为FoveaBox与RetinaNet的检测结果示例,可见在宽高比变化较大的目标上,FoveaBox取得了更好的结果。

论文地址:

https://arxiv.org/pdf/1904.03797v1.pdf

作者称代码将开源,还未公布地址。

加群交流

关注目标检测技术,欢迎加入52CV-目标检测群,扫码添加CV君拉你入群,

(请务必注明:目标检测)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:702781905。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

麻烦给我一个“在看”

FoveaBox:目标检测新纪元,无Anchor时代来临!相关推荐

  1. FoveaBox:目标检测新纪元,无Anchor时代来临 | 技术头条

    作者 | CV君 转载自我爱计算机视觉(ID:aicvml) 目标检测的任务是"分类"并从图像中"定位"出物体,但长久以来,该领域的工作大多是这样:生成可能包含 ...

  2. 用AI创造AI,人工智能无代码时代来临

    https://www.toutiao.com/a6680750885359845901/ 大数据文摘出品 记者:云舟 玛丽·雪莱在创作世界上第一部科幻小说<科学怪人>(又译:弗兰肯斯坦) ...

  3. 全面理解目标检测中的anchor

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨CV技术指南 编辑丨极市平台 导读 anchor是一个晦涩难懂 ...

  4. anchor free 目标检测_《目标检测》系列之二:目标检测中的Anchor机制回顾

    前段时间,YOLOv4&v5大火,很多人忽视了yolov5在anchor上的一些细节变化,因此,本文从Faster RCNN着手,逐步分析SSD.YOLOv4&v5的anchor机制. ...

  5. 无代码时代来临,程序员如何保住饭碗?赶紧看一看!

    编程语言层出不穷,从最初的机器语言到如今2500种以上的高级语言,程序员们大呼"学到头秃".程序员一边面临编程语言不断推陈出新,一边面临由于许多代码已存在,程序员编写新应用程序时存 ...

  6. 目标检测中的Anchor

    前言: 在计算机视觉四大基本任务(检测.分类.定位.分割)中,图像的目标检测受到的了研究者们越来越多的关注.今天我们就来聊一聊在目标检测中一项重要的机制--Anchor.Anchor机制在凯明大神提出 ...

  7. 前景目标检测的无监督学习

    无监督学习是当今计算机视觉领域最困难的挑战之一.这项任务在人工智能和新兴技术中有着巨大的实用价值,因为可以用相对较低的成本收集大量未标注的视频. ------ 01 概述 ------ 今天,我们介绍 ...

  8. RandomRooms:用于3D目标检测的无监督预训练方法(ICCV2021)

    论文标题:RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Obje ...

  9. 目标检测:Segmentation is All You Need ?

    点击我爱计算机视觉标星,更快获取CVML新技术 对于目标检测,从滑动窗口时代开始,我们已经习惯了候选区域特征提取然后分类的套路,深度学习时代强大的特征表示能力让我们能够探索不一样的道路,比如: ECC ...

最新文章

  1. Qt Creator添加资源
  2. php合并播放mp4文件_如何将百度的流畅版视频m3u8合并为正确的mp4文件?
  3. CSP认证 201403-1相反数[C++题解]:哈希表
  4. C语言插入排序Insertion Sort算法(附完整源码)
  5. Ibatis.net 属性字段中使用 IN 查询条件
  6. 转换文档参数_1分钟教会你将Excel转换成Word,简单高效,办公人士必备神技
  7. java 中计算时间差
  8. HTML day02(html列表与菜单的制作)
  9. 2016高管必看的五大互联网营销方法
  10. Eclipse安装svn插件的几种方式
  11. iMeta | 南医大余光创组ggtree最新文章-系统发育树存储与可视化的数据结构
  12. Qt5/6使用FFmpeg进行视频格式转换的两种方式
  13. 解决Ubuntu设置静态ip网络连接失败的问题
  14. php linux OpenOffice+JODConverter+php实现将word/ppt/excel文档转换为pdf
  15. 10 06 27 无用功
  16. 西安达刚公路机电科技有限公司董事长李太杰简介
  17. hiredis异步操作模型
  18. 找出数组中第k大小的数,输出数所在的位置
  19. unity修改asset store及其他缓存位置
  20. javaweb农产品网络交易平台设计springboot+ssm

热门文章

  1. jQuery验证表单插件——jquery-validation
  2. python父亲节符号_菲菲用python编程绘制的父亲节礼物
  3. openwrt源码分析_openwrt 15.05.1源码
  4. notepad自动对齐html代码,notepad如何存储为html格式化
  5. php学生分班,学生分班工具下载
  6. python爬取豆瓣影评生成词云的课程设计报告_简单爬取《小丑》电影豆瓣短评生成词云...
  7. python存储json数据_python 存储json数据
  8. mvc ajax返回整个页面跳转,在springmvc中的ajax发布调用之后,有什么方法可以将我的页面(jsp)重定向到另一个页面(jsp)...
  9. linux脚本是什么语言,Linux学习之Shell脚本语言的优势是什么?
  10. java未知变量的类型_Java语言中类、变量及方法的声明 | 学步园