Receptive Field Block Net for Accurate and Fast Object Detection  用于快速精确的目标检测的接受野模块

Code link: https://github.com/ruinmessi/RFBNet

摘要:目前表现最好的目标检测依赖于深度主干网络的,比如说ResNet-101 inception,得益于强大的特征表征能力但具有较高的计算消耗,相反一些轻量级的模型检测器能够实时监测,然后准确率方面存在不足,本文我们研究建立高效和准确的检测器通过手工特征机制增强轻量级模型特征,受到人类接受野的限制,提出了新的接受野模块,为了提高其区别特征和鲁棒性,构建了RFB网络框架,为了验证高效性,实验证明了两个版本展示了其在达到高精度的同时实现实时性的保持。

引言

近年来,rcnn更新迭代,fast rcnn、faster rcnn在物体检测方面表现出卓越的性能,其遵循两阶段的的流程,第一阶段先进行物体提议,第二阶段进行分类。Cnn具有期望学习到高区别特征的物体特征编码能力并对适度的位置变化鲁棒性,多数是不准确的Bbox引起,最近的研究证明了这一点,比如说 ResNet  Inception 从较深层的主干网络中提取特征,【19】构建从上到下的模型,构建特征金字塔,整合高低水平的信息,mask-rcnn 利用区域对齐层生成更加精确的区域特征,这些方法采用提高特征来取得较好的结果,然而来自深层网络附带较高计算资源 ,导致较低的速度

为了加速检测,单阶段的框架产生,物体区域提议阶段被舍弃,单阶段的YOLO和SSD展示了实时处理的能力,但是精度降低了百分之十到四十,最近的DSSD and RetinaNet提高了精度的分数,不幸的是他们的优秀表现依旧依赖于深度网络,RESNET-101其限制了效率

通过以上讨论,建立强大的检测器合理的是提高轻量级模型的特征表征能力,并不是单纯增加的模型深度而是一定程度上手工特征机制。另一方面 神经科学发现人类视觉皮质,人类接受野的尺寸是一个偏心函数,在视网膜定位图上 尽快每个人不同,在每个视网膜定位图中随着随着偏心角增加而增加。如图1所示。其强调了中心区域的重要性和提高小区域移动的敏感度。利用这种机制的浅显使用 学习到这种池化机制,在图像匹配方面表现优异。

然而常规的深度学习方法,常常设置接受野相同的尺寸应用于特征图,其可能导致区别特征和鲁棒性的丢失。Inception网络考虑了接受野的多种尺寸,通过多分支结构使用不同的卷积核,其在两阶段检测取得竞争性的结果。然而卷积核的采样来源于同一中心。ASPP相似的想法提出,其探究多尺度信息,利用多个不同膨胀率实现特征图采样在不同距离的中心采样,展现在语义分割方法的高效性。但是这些特征来自相同卷积核的特征图,相比较于雏形 最终的特征缺少区别性。可变形卷积调整空间接受野通过尺寸和形状。虽然它的采样网格是灵活的,但偏心的影响RFs没有考虑到,一个射频中的所有像素输出响应和重要的信息未强调。

受到人类视觉系统感受野的启发,本文提出接受野框架用于增强深度学习中轻量级框架的深度特征,因此能够高效且精确的检测。利用多分支结构对应接受野不同使用不同尺寸的卷积核,应用空洞卷积来实现偏心率,重整他们实现最终的输出。如图2

具有通用性和扩张性。

贡献三个:

依据 人类视觉的视网膜的离心率提出RFB模块,增强轻量级网络的深度特征

提出RFB net 网络检测器,简单高效

实验表明 取得较优的效果,具有实时处理的能力

相关工作

两阶段的检测器:R-CNN结合选择性搜索和分类模型取得较高的精度 相较于传统方法,后来的 fast rcnn   faster-rcnn mask-rcnn

单阶段检测器:YOLO SSD 多物体预测,均采用轻量级的网络用于加速,其精度要低于两阶段,后来的出现DSSD 反卷积和 Focal 损失函数,其取得高于两阶段检测的性能。然而也消耗了速度。

接受野:相关的未inception  ASSP  可变形卷积

Inception结构 利用多分支的不同卷积捕获多尺度信息,然而所有卷积核相同的中心采样,其需要更大的卷积核达到相同的覆盖率,导致其损失了重要信息。

Assp结构 使用不同的膨胀率的空洞卷积实现相同卷积核的中心采样距离,特征具有统一的分辨率 同等的对待所有位置线索,可能会导致物体和内容的混淆。

可变形卷积 单个物体的不同分辨率,和ASSP具有相同的缺点。

RFB 强调了接受野和偏心率之间的关系,通过较小的卷积核赋予中心位置的更大的权重。

3 方法

回顾人类视觉机制 介绍RFB的组成  如何模拟这种机制的,并描述网络的结构和训练配置等

视觉机制回顾

接受野模块

其为多分支结构分两部分介绍,不同卷积核的多分支结构 和膨胀池化卷积层

前者 和inception结构相同  模拟人类不同尺寸的感受野

后者 为接受野尺寸和人类视觉的离心率关系

多分支卷积层:根据在CNN中接受野的定义,其简单和自然的使用不同尺寸的卷积核实现多种感受野,其优于共享层的固定尺寸的接受野。

采用较新的结构: INCEPUTON V4  inception-Resnet v2 在Inception系列中,更具体的是 使用1*1卷积减少特征通道,加上N*N卷积,为了减少参数量和更深的非线性迭代,使用两个3*3卷积代替5*5卷积  出于相同的原因使用 1*n n*1 代替N*N的,并且后面使用短连接操作。

膨胀池化和卷积层:

概念来自DEEPLAB 又称为空洞卷积核膨胀卷积。基础的框架功能为生成高分辨率的特征,保存相同参数的情况下,捕获更大区域的内容。这种设计能够提高语义分割的表现。

被SSD  R-FCN 等使用提高速度和精度。

本文中探究空洞卷积模拟 离心率和接受野 机制,

每个分支  拥有特定卷积核尺寸的卷积层 池化或卷积 并对应相应的膨胀,卷积核的尺寸和膨胀有相似度正向函数关系,如离心率的尺寸和接受野之间的关系。 最终特征通过堆叠并联系 融合空间池化和卷积 如图1所示

RFB 网络框架如图所示

提出的网络使用 多尺度单阶段的SSD框架,嵌入并改善抽取的特征从轻量级框架更加高速和准确,由于RFB容易整合在CNN中,尽可能保留SSD框架,主要修改在于代替卷积层使用RFB,如图所示。

轻量型主干网络:

使用和SSD相同的主干网络,简言之  VGG16在ILSVRC数据集上的预训练模型,fc6 fc7是下采样参数卷积层转换的,使用池化5层 从2*2 到3*3 的改变。空洞卷积使用填塞孔 fc8全部移除,最近有人提出了优化的网络(如DarkNet 2、MobileNet 12和ShufleNet 9),我们将重点放在这个主干上,以实现与原始SSD 的直接比较

RFB 在多尺度图上:原始SSD  基础网络使用级联卷积层,在我的实现中,保持相同的级联,在RFB的版本中,使用单结构设置最初的离心率的影响。结构设置模拟偏心距的影响。的速度的大小和偏心脉冲重复频率不同的视觉地图,我们相应地调整RFB形成一个RFB-s模块的参数,模拟小型脉冲浅人类网膜代表地图,并把它在conv4-3功能,见图。图和无花果。过去几卷积层保存自特征图的分辨率太小过滤器适用于大型内核,如5 x 5。

Receptive Field Block Net 论文阅读相关推荐

  1. 论文解读 Receptive Field Block Net for Accurate and Fast Object Detection

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 PDF全 ...

  2. ECCV2018论文RBNet:Receptive Field Block Net for Accurate and FastObject Detection

    论文下载:https://arxiv.org/abs/1711.07767 源码下载:https://github.com/ruinmessi/RFBNet Abstract: 目前性能最好的目标检测 ...

  3. 【目标检测】Receptive Field Block Net for Accurate and Fast Object Detection论文理解

    摘要   目标检测器现状:   (1)目前性能最好的目标检测器依赖于深度CNN骨干,如ResNet-101和Inception,拥有强大的特征表示,但承受着高计算成本.   (2)一些基于轻量级模型的 ...

  4. Receptive Field Block Net for Accurate and Fast Object Detection(RFB)

    Receptive Field Block Net for Accurate and Fast Object Detection(RFB) paper code Abstract 受人类视觉系统感受野 ...

  5. Receptive Field Block Net for Accurate and Fast Object Detection

    Receptive Field Block Net for Accurate and Fast Object Detection 作者:Songtao Liu, Di Huang*, and Yunh ...

  6. Pooling Revisited: Your Receptive Field is Suboptimal 论文解读和感想

    Pooling Revisited: Your Receptive Field is Suboptimal 作为CVPR 2022中一篇探索新网络模块的文章,本文对于新网络的设计,特别是处理high- ...

  7. Occlusion-Aware Cost Constructor for Light Field Depth Estimation论文阅读

    文章目录 前言 一.介绍 二.相关工作 1.传统方法 2.深度学习方法 三.方法 1.LF Structure and Occlusion Analysis 2.Occlusion-Aware Cos ...

  8. YOLOv4论文阅读笔记(一)

    YOLOv4论文阅读笔记 Introduction Related work Bag of freebies Bag of Specials 近日发表的YOLOv4无疑是2020年目前最轰动的重磅炸弹 ...

  9. 目标检测论文阅读:RFB Net

    Receptive Field Block Net for Accurate and Fast Object Detection 论文链接:https://arxiv.org/abs/1711.077 ...

最新文章

  1. php http请求xml数据,php获取通过http协议post提交过来xml数据及解析xml
  2. Incomedia WebSite X5 17中文版
  3. ThoughtWorks代码挑战——FizzBuzzWhizz
  4. 程序员笔试面试后上机_hcie面试有哪些要注意的事项?
  5. 微信处罚腾讯判定其滥用原创:不要惹我 我狠起来能铁锅炖自己!
  6. SysV和BSD启动风格的比较
  7. 企业文件编号规则方法
  8. 42条风景优美至今基本完整的宁波古道(转)
  9. three.js 场景编辑器 源码解析(六)
  10. 第四章 sysrepo共享内存机制
  11. Hadoop,Spark错误:Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
  12. 优雅使用Jsdelivr/CDN加速博客访问速度
  13. 飞天5K实战经验:大规模分布式系统运维实践
  14. 2012年信息系统项目管理师下半年上午考试习题与答案解析
  15. PHP+python+nodejs+ springboot+vue 社区互助平台
  16. 2017全球智慧城市战略指数分析
  17. 如何让区块链获得人工智能的能力
  18. 使用Redis缓存优化
  19. Java生成名片式的二维码源码分享
  20. 用行列式展开计算n阶行列式【c++/递归】

热门文章

  1. 倒排索引(Inverted index)
  2. Windows电脑快捷键
  3. 关于一斤酒到底有几两的说明
  4. 10分钟教你生成超高逼格微信朋友圈
  5. 初学者如何3步入门选吉他,附上新手购琴常见问题和吉他品牌推荐
  6. C语言遥控器程序,单片机学习型遥控器程序详解(完整版)
  7. HSV对应不同颜色的灰度空间
  8. 陶哲轩是如何安排时间的
  9. 一篇文让你看懂NB-IoT、LoRa、eMTC、Sigfox及ZigBee的应用场景
  10. [渝粤教育] 西南科技大学 英语词汇学 在线考试复习资料