论文阅读：Saliency-Guided Region Proposal Network for CNN Based Object Detection

（1）Author
（2）Abstract
（3）Conclusion
（4）Introduction
（5）Methodology
- （5.1）Faster-RCNN with ZF Net
- （5.2）Incorporation of Global Prior
- （5.3）Prior Maps
- （5.4）Visual Attention Map
- （5.5）Spectral Residual
- （5.6）Voting Map for Distant Objects
（6）Experiments
（7）个人总结

（1）Author

作者
Ann-Katrin Fattal, Michelle Karg, Christian Scharfenberger and Jürgen Adamy
机构
Control Methods and Robotics, Technische Universität Darmstadt, Germany
Vision and Image Processing Lab, University of Waterloo, Waterloo, Canada
Continental AG, Germany
时间
2017年

（2）Abstract

本文的主要目标是解决图像中包含的远距离目标，实际上就是小目标检测不准的问题；
主要的解决方案是对RPN网络进行改进，引入了“prior”来引导RPN网络找出包含潜在目标的区域，并且这个优先级是saliency-based的；
引入这种机制后，RPN在做决策时不止参考feature map提供的局部信息，还要综合考虑“saliency-based prior”给出的全局信息；
实验结果表明，在多个包含远距离车辆图像的数据集上取得了很好的性能。

（3）Conclusion

saliency-inspired方法的使用提升了RPN网络的整体性能；
prior的计算是无监督的方式，不需要引入额外的标签；
整个框架十分简单，运行效率高，能够使用预训练的模型；
在未来的研究中，作者打算把global prior分支和分类分支整合到一起，以应用于高速公路场景的小目标检测。

（4）Introduction

说了些DL在自动驾驶领域应用的重要性，回顾了two-stage检测器的工作流程，指出之前的RPN网络只使用了图像的很小一部分信息；
回顾前人研究，提到了多尺度特征融合策略等；
第一个尝试综合全局信息到CNN中的方法是使用语义分割作为输入，Shrivastava等给出了一个框架来给RPN网络提供自上而下的分割信息，但这种方法需要像素级的标注信息，计算开销也大，因此作者想要构建一种既能引入全局信息而不用进行额外训练的方法。
引入prior前后的效果对比，可以看到proposal的生成更加集中；
文中还指出增加召回率的同时，减少了分类分支需要评估的bounding box的数量，从而减少训练时间。
作者指出之前没有人这样做过（To the best of the authors’ knowledge, the use of saliency maps for the purpose of incorporating global information to a region proposal network has not been previously proposed or investigated.），那肯定要这样说，哈哈哈。

（5）Methodology

方法的整体结构如下所示：
可以看到从输入图像中抽取的prior信息在RPN网络中与feature map进行了融合；

（5.1）Faster-RCNN with ZF Net

讲了一下用Faster RCNN作为benchmark的原因，然后为了达到自动驾驶的高效率，引入了一个ZF Net作为backbone，这一块没啥好说的；

（5.2）Incorporation of Global Prior

这一部分主要讲怎么把prior map整合进去，作者提出由于prior map属于低层级的特征信息，所以应该与第五卷积（这应该指的是它的ZF Net）输出的feature map进行融合；
之前的研究指出，把这个prior map放的太靠前也不会有特别好的增益，文中指出把其放在最后一个共享的层之后能产生最大的增益，这样也能使用预训练模型和防止过拟合；

（5.3）Prior Maps

在本文中使用了三种方式来实现visual attention（分别是Visual Attention Map、Spectral Residual、Voting Maps），说白了就是要让目标物通过处理变得更明显，三种方法对应的效果如下：

（5.4）Visual Attention Map

这个map由9种空间尺度对应的信息组成，在图像中的每个位置，计算周围环境和特征颜色、强度方差和边缘方向，并与图像的其余部分进行比较。

L. Itti, C. Koch, and E. Niebur, “A model of saliency-based visual
attention for rapid scene analysis,” IEEE Transactions on pattern
analysis and machine intelligence, vol. 20, no. 11, pp. 1254–1259,1998.

（5.5）Spectral Residual

计算输入图像的对数傅里叶谱，然后用下采样图像的对数谱相减。然后将谱残差变换到空间域，并表示最终的显著图。由于与背景相比，包含小目标的区域显示出较高的空间频率，谱残差有利于引导RPN朝向包含小目标的区域，因此谱残差是较好的prior map；
在嵌入式设备中，计算谱残差能够使用硬件加速。

X. Hou and L. Zhang, “Saliency detection: A spectral residual
approach,” in Computer Vision and Pattern Recognition, 2007.
CVPR’07. IEEE Conference on. IEEE, 2007, pp. 1–8.

（5.6）Voting Map for Distant Objects

文章概括的太简略了，简略地让你一脸懵逼，详情计算见

A.-K. Batzer, C. Scharfenberger, M. Karg, S. Lueke, and J. Adamy,
“Generic hypothesis generation for small and distant objects,” in Intelligent
Transportation Systems (ITSC), 2016 IEEE 19th International
Conference on. IEEE, 2016, pp. 2171–2178.

主要目的还是为了照顾小目标检测

（6）Experiments

三种map的在不同IoU下的效果对比：
最有用的还是这个visual map，让我惊奇的是参考的这篇paper是1998年提出来的，不过效果提升还是很明显的；

（7）个人总结

引入三类先验图来帮助RPN决策，其中一个还是物理方法做的，这比较有意思，增益也比较明显，但个人感觉可能计算量有点大；
之前兼顾大小目标检测多采用多尺度特征融合、跳层提取特征这些方法来搞定，近几年引入非DL方法还是比较少见的，还是提供了一个不错的思路；
这篇文章应该是非完全CV领域的研究人员做的，所以赘述有点多，有的地方吹得有点过。

论文阅读：Saliency-Guided Region Proposal Network for CNN Based Object Detection相关推荐

论文解读《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
论文:Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model 基于CNN的目标检测模 ...
论文精度笔记(五)：《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
作者单位:港大, 同济大学, 字节AI Lab, UC伯克利文章目录论文以及源码获取论文题目参考文献 1. 研究背景 2. 贡献 3. 相关工作 3.1 DSConv 3.2 MBConv 3 ...
论文笔记——C2FNet:Context-aware Cross-level Fusion Network for Camouﬂaged Object Detection
Context-aware Cross-level Fusion Network for Camouﬂaged Object Detection 论文地址:https://arxiv.org/pdf/ ...
论文阅读笔记三十三：Feature Pyramid Networks for Object Detection(FPN CVPR 2017)
论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要特征金字塔是用于不同尺寸目标检测中的 ...
论文阅读 (88)：Adversarial Examples for Semantic Segmentation and Object Detection
文章目录 1. 概述 2 算法 2.1 稠密对抗生成 2.2 选择用于检测的输入提案 1. 概述题目:用于语义分割和目标检测的对抗样本核心点:将对抗性样本的概念扩展到语义分割和对象检测,并提出稠密 ...
论文阅读-ViTDet：Exploring Plain Vision Transformer Backbones for Object Detection
目录 A.写在前面 B.有个工作我得说说 C.摘要拆分 D.先看看结果 E.代码细节 1.MaskRCNN部分的修改 2.数据增强部分 3.SFP的实现 F.参考文献 A.写在前面 ViTDet[1] ...
【论文阅读】【3d目标检测】Group-Free 3D Object Detection via Transformers
论文标题:Group-Free 3D Object Detection via Transformers iccv2021 本文主要是针对votenet等网络中采用手工group的问题提出的改进我们 ...
论文阅读--PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection
为什么80%的码农都做不了架构师?>>> 论文地址:https://arxiv.org/abs/1608.08021 算法实现:https://github.com/Charl ...
论文阅读笔记：You Only Look Once: Unified, Real-Time Object Detection
转载自:http://blog.csdn.net/tangwei2014/article/details/50915317 这是继RCNN,fast-RCNN 和 faster-RCNN之后,rbg( ...

论文阅读：Saliency-Guided Region Proposal Network for CNN Based Object Detection

论文阅读：Saliency-Guided Region Proposal Network for CNN Based Object Detection

（1）Author

（2）Abstract

（3）Conclusion

（4）Introduction

（5）Methodology

（5.1）Faster-RCNN with ZF Net

（5.2）Incorporation of Global Prior

（5.3）Prior Maps

（5.4）Visual Attention Map

（5.5）Spectral Residual

（5.6）Voting Map for Distant Objects

（6）Experiments

（7）个人总结

论文阅读：Saliency-Guided Region Proposal Network for CNN Based Object Detection相关推荐

最新文章

热门文章