论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection

  • (1)Author
  • (2)Abstract
  • (3)Conclusion
  • (4)Introduction
  • (5)Methodology
    • (5.1)Faster-RCNN with ZF Net
    • (5.2)Incorporation of Global Prior
    • (5.3)Prior Maps
    • (5.4)Visual Attention Map
    • (5.5)Spectral Residual
    • (5.6)Voting Map for Distant Objects
  • (6)Experiments
  • (7)个人总结

(1)Author

  • 作 者
    Ann-Katrin Fattal, Michelle Karg, Christian Scharfenberger and Jürgen Adamy
  • 机 构
    Control Methods and Robotics, Technische Universität Darmstadt, Germany
    Vision and Image Processing Lab, University of Waterloo, Waterloo, Canada
    Continental AG, Germany
  • 时 间
    2017年

(2)Abstract

  • 本文的主要目标是解决图像中包含的远距离目标,实际上就是小目标检测不准的问题;
  • 主要的解决方案是对RPN网络进行改进,引入了“prior”来引导RPN网络找出包含潜在目标的区域,并且这个优先级是saliency-based的;
  • 引入这种机制后,RPN在做决策时不止参考feature map提供的局部信息,还要综合考虑“saliency-based prior”给出的全局信息;
  • 实验结果表明,在多个包含远距离车辆图像的数据集上取得了很好的性能。

(3)Conclusion

  • saliency-inspired方法的使用提升了RPN网络的整体性能;
  • prior的计算是无监督的方式,不需要引入额外的标签;
  • 整个框架十分简单,运行效率高,能够使用预训练的模型;
  • 在未来的研究中,作者打算把global prior分支和分类分支整合到一起,以应用于高速公路场景的小目标检测。

(4)Introduction

  • 说了些DL在自动驾驶领域应用的重要性,回顾了two-stage检测器的工作流程,指出之前的RPN网络只使用了图像的很小一部分信息;
  • 回顾前人研究,提到了多尺度特征融合策略等;
  • 第一个尝试综合全局信息到CNN中的方法是使用语义分割作为输入,Shrivastava等给出了一个框架来给RPN网络提供自上而下的分割信息,但这种方法需要像素级的标注信息,计算开销也大,因此作者想要构建一种既能引入全局信息而不用进行额外训练的方法。
  • 引入prior前后的效果对比,可以看到proposal的生成更加集中;
  • 文中还指出增加召回率的同时,减少了分类分支需要评估的bounding box的数量,从而减少训练时间。
  • 作者指出之前没有人这样做过(To the best of the authors’ knowledge, the use of saliency maps for the purpose of incorporating global information to a region proposal network has not been previously proposed or investigated.),那肯定要这样说,哈哈哈。

(5)Methodology

  • 方法的整体结构如下所示:
    可以看到从输入图像中抽取的prior信息在RPN网络中与feature map进行了融合;

(5.1)Faster-RCNN with ZF Net

  • 讲了一下用Faster RCNN作为benchmark的原因,然后为了达到自动驾驶的高效率,引入了一个ZF Net作为backbone,这一块没啥好说的;

(5.2)Incorporation of Global Prior

  • 这一部分主要讲怎么把prior map整合进去,作者提出由于prior map属于低层级的特征信息,所以应该与第五卷积(这应该指的是它的ZF Net)输出的feature map进行融合;
  • 之前的研究指出,把这个prior map放的太靠前也不会有特别好的增益,文中指出把其放在最后一个共享的层之后能产生最大的增益,这样也能使用预训练模型和防止过拟合;

(5.3)Prior Maps

  • 在本文中使用了三种方式来实现visual attention(分别是Visual Attention Map、Spectral Residual、Voting Maps),说白了就是要让目标物通过处理变得更明显,三种方法对应的效果如下:

(5.4)Visual Attention Map

  • 这个map由9种空间尺度对应的信息组成,在图像中的每个位置,计算周围环境和特征颜色、强度方差和边缘方向,并与图像的其余部分进行比较。

L. Itti, C. Koch, and E. Niebur, “A model of saliency-based visual
attention for rapid scene analysis,” IEEE Transactions on pattern
analysis and machine intelligence, vol. 20, no. 11, pp. 1254–1259,1998.

(5.5)Spectral Residual

  • 计算输入图像的对数傅里叶谱,然后用下采样图像的对数谱相减。然后将谱残差变换到空间域,并表示最终的显著图。由于与背景相比,包含小目标的区域显示出较高的空间频率,谱残差有利于引导RPN朝向包含小目标的区域,因此谱残差是较好的prior map;
  • 在嵌入式设备中,计算谱残差能够使用硬件加速。

X. Hou and L. Zhang, “Saliency detection: A spectral residual
approach,” in Computer Vision and Pattern Recognition, 2007.
CVPR’07. IEEE Conference on. IEEE, 2007, pp. 1–8.

(5.6)Voting Map for Distant Objects

  • 文章概括的太简略了,简略地让你一脸懵逼,详情计算见

A.-K. Batzer, C. Scharfenberger, M. Karg, S. Lueke, and J. Adamy,
“Generic hypothesis generation for small and distant objects,” in Intelligent
Transportation Systems (ITSC), 2016 IEEE 19th International
Conference on. IEEE, 2016, pp. 2171–2178.

主要目的还是为了照顾小目标检测

(6)Experiments

  • 三种map的在不同IoU下的效果对比:
    最有用的还是这个visual map,让我惊奇的是参考的这篇paper是1998年提出来的,不过效果提升还是很明显的;

(7)个人总结

  • 引入三类先验图来帮助RPN决策,其中一个还是物理方法做的,这比较有意思,增益也比较明显,但个人感觉可能计算量有点大;
  • 之前兼顾大小目标检测多采用多尺度特征融合、跳层提取特征这些方法来搞定,近几年引入非DL方法还是比较少见的,还是提供了一个不错的思路;
  • 这篇文章应该是非完全CV领域的研究人员做的,所以赘述有点多,有的地方吹得有点过。

论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection相关推荐

  1. 论文解读《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》

    论文:Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model  基于CNN的目标检测模 ...

  2. 论文精度笔记(五):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》

    作者单位:港大, 同济大学, 字节AI Lab, UC伯克利 文章目录 论文以及源码获取 论文题目 参考文献 1. 研究背景 2. 贡献 3. 相关工作 3.1 DSConv 3.2 MBConv 3 ...

  3. 论文笔记——C2FNet:Context-aware Cross-level Fusion Network for Camouflaged Object Detection

    Context-aware Cross-level Fusion Network for Camouflaged Object Detection 论文地址:https://arxiv.org/pdf/ ...

  4. 论文阅读笔记三十三:Feature Pyramid Networks for Object Detection(FPN CVPR 2017)

    论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要 特征金字塔是用于不同尺寸目标检测中的 ...

  5. 论文阅读 (88):Adversarial Examples for Semantic Segmentation and Object Detection

    文章目录 1. 概述 2 算法 2.1 稠密对抗生成 2.2 选择用于检测的输入提案 1. 概述 题目:用于语义分割和目标检测的对抗样本 核心点:将对抗性样本的概念扩展到语义分割和对象检测,并提出稠密 ...

  6. 论文阅读-ViTDet:Exploring Plain Vision Transformer Backbones for Object Detection

    目录 A.写在前面 B.有个工作我得说说 C.摘要拆分 D.先看看结果 E.代码细节 1.MaskRCNN部分的修改 2.数据增强部分 3.SFP的实现 F.参考文献 A.写在前面 ViTDet[1] ...

  7. 【论文阅读】【3d目标检测】Group-Free 3D Object Detection via Transformers

    论文标题:Group-Free 3D Object Detection via Transformers iccv2021 本文主要是针对votenet等网络中采用手工group的问题提出的改进 我们 ...

  8. 论文阅读--PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection

    为什么80%的码农都做不了架构师?>>>    论文地址:https://arxiv.org/abs/1608.08021 算法实现:https://github.com/Charl ...

  9. 论文阅读笔记:You Only Look Once: Unified, Real-Time Object Detection

    转载自:http://blog.csdn.net/tangwei2014/article/details/50915317 这是继RCNN,fast-RCNN 和 faster-RCNN之后,rbg( ...

最新文章

  1. 在ubuntu下安显卡驱动
  2. C#用户权限控制架构,可以控制到类【重发】
  3. Python学习笔记:异步IO(3)
  4. 다양한 저장매체의 속도를 측정
  5. Python 基础详解-列表的反转与排序!跬步千里
  6. 阿里千亿级购物节背后,淘宝智能客服架构演进之路
  7. python视频帧提取并保存_如何用python实现视频关键帧提取并保存为图片?
  8. linux$1和$ 1 区别,linux 关于$0$1$n$$$?$#笔记
  9. 24解析函数的级数表示(三)
  10. 组装自己的php框架,搭建自己的PHP框架
  11. ios8升级ios12教程_iOS Hello World示例教程
  12. ThinkPHP的CURD操作
  13. 中文文本情感分析:基于机器学习方法的思路
  14. centos 测试get请求_centos网速测试
  15. H3C交换机配置教程及H3C S5810系列交换机光模块搭配
  16. html 中数字一直往上加的动态效果,CSS动画:数字增量效果
  17. android 电视怎么投屏,安卓手机怎么投屏到电视
  18. mongodb建索引遇到的一个错误解决办法
  19. 《祝你一路顺风》-吴奇隆(吉他谱)
  20. python弧度值转角度值_python 弧度与角度互转实例

热门文章

  1. https+ip实现摄像头访问浏览器
  2. 【IoT】产品设计之品牌、LOGO和VI是什么?
  3. RNA-seq的标准化方法罗列
  4. GNU Make工具(二)Phony Targets 和 FORCE
  5. 线性表存储空间长度和线性表长度区别?
  6. 优秀的计算机编程类博客 和 文章 转
  7. SQL基础——查询基础
  8. 高效能人士的七个习惯(史蒂芬·柯维)——读书笔记
  9. asp医药连锁店管理系统
  10. 用 Java Servlet 实现文件上载(老文新发)