论文名：A single-shot multi-level feature reused neural network for object detection
引用：Wei L, Cui W, Hu Z, et al. A single-shot multi-level feature reused neural network for object detection[J]. The Visual Computer, 2021, 37(1): 133-142.
发表于：计算机视觉
发表时间：2021年

MFRDet阅读笔记

摘要
介绍
网络架构
- SSD分析
- 多级特征重用模块
- 训练
实验
- 消融实验

摘要

作者提出一种轻量级框架，称为多级特征重用检测器（MFRDet），其精度优于两阶段方法。它还可以在不使用非常深的卷积神经网络的情况下保持与单阶段方法相当的高效率。该框架适用于重用包含在深度和浅层特征图中的信息，从而提高检测精度。
对于使用VOC 2007和VOC 2012训练集训练的Pascal VOC2007测试集，输入大小为300×300的MFRDet可以在62.5 FPS的速度下实现80.7%的mAP。对于高分辨率输入版本，MFRDet可以使用单个 Nvidia Tesla P100 GPU,以37.0 FPS的速度获得**82.0%**的映射。该框架显示了具有高FPS的最先进的mAP，优于大多数其他现代对象检测器。

介绍

由于浅层和深层特征映射之间语义信息的不平衡，许多现代检测器无法在小对象中获得良好的性能。所提出的MFRDet可以在不影响检测器速度的情况下获得更充分的高层语义多尺度特征信息。作为一种多尺度算法，MFRDet与其他多尺度算法不同，后者仅利用不同尺度的特征映射进行检测。MFR模块提供了一种基于融合的高效重用机制，保证了浅层特征图中有丰富的高层语义信息。

YOLO减少了对相同对象的重复检测，这大大提高了效率，并说明了实时处理的能力。
SSD利用多尺度卷积层进行检测，相对快速且鲁棒。然而，SSD无法在小对象检测中获得相当出色的分数。

网络架构

SSD分析

作者通过分析提出：SSD直接从每一层生成结果，而不重视深层和浅层之间的连接。
高分辨率特征层几乎没有语义信息，但包含大量全局信息。低分辨率特征地图具有仅包含部分信息的高语义特征。因此，SSD没有充分利用局部细节特征和全局语义特征。

多级特征重用模块

图1b中显示了最常见的特征金字塔模式之一。作者认为这样虽然会提升网络的检测能力，但是却包含多个特征合并过程，导致大量的额外计算。

本文提出了一种轻量级、高效的多级特征重用（MFR）模块（如图1d所示）。该模块能够充分利用不同尺度下的特征映射，将深度和浅层特征结合起来，提高检测性能。特征重用模块可以简要说明如下：

其中，S表示 conv4_3, conv5_3,fc7，以及conv8_2, conv9_2,conv10_2, conv11_2层。Ti是将每个源层更改为相同分辨率的变换层之一。Ψt函数用于重用转换后的特征图，生成新更新的重用特征块Xt。然后，Ψr生成新的金字塔特征图。

Xf是参与预测的fc7、conv8_2、conv9_2、conv10_2、conv11_2层。最后，损失函数Ψl，c将预测Xf中的局部损失和置信度损失。

作者给出：

S的选择
传统SSD中，作者部署了conv4_3、fc7和另外四个SSD层进行预测。六个选定特征图的比例包括38×38、19×19、10×10、5×5和1×1。这些不同的层在原始SSD中视为相互独立，我们不同意。
我们认为，小尺度特征地图中存在的语义信息在尺度转换后仍然适用于上升检测。选择了六个预测层和conv5_3层作为我们的源层进行重用。从表中，我们可以得出一个明确的结论，即重复使用conv3_3将削弱检测精度，高分辨率特征地图没有足够的高层语义信息，因此放弃了对其信息的重用。
Ti的转换策略
在传统SSD中，比例为38×38、语义信息较少的浅层conv4_3负责小目标识别。conv4_3层被设置为基本层，需要包含更深层的语义信息。策略根据特征图的标准而不同。首先，将Conv 1×1应用于每个源层以降低特征维数。然后，在Conv 1×1层之后，通过双线性插值将比例小于38×38的层（四个SSD_层和fc7层）放入相同大小的38×38。这样，所有源要素都将转换为相同的大小。
Ψt的选择

说白了就是：
1… SSD对小目标检测不友好，所以想再加个检测小目标的预测特征层。通过消融实验，将预测特征层在原来的基础上加了conv5_3，之所以没选conv3_3，是因为它没有足够的高层语义信息。
2… 原论文以conv4_3开始作为特征预测层，其尺度大小为3838。高分辨率的特征图对应感受野小，用于预测小目标物体。（解释一下“高分辨率的特征图对应感受野小”。3838的特征图对应原图300300，就是原图每8个像素现在视为一个像素检测。最后一个特征层尺度为11，也就是对应原图的300300，通过这一个像素“观察”原来300像素的图）。所以将所有比3838尺度小的都先进行1*1的点卷积缩小通道，再通过双线性插值将比例小于38×38的层放入相同大小的38×38。
3… 将相同尺度的特征进行融合的方法有加和和拼接，经过表实验，选择拼接

训练

我们实现了基于Pytorch’框架的MFRDet检测器。

MFRDet在训练目标上保持了与SSD相似的超参数，包括数据增强、硬负挖掘、默认框的比例和纵横比以及损失函数。
我们有几种不同的策略。首先，将随机擦除机制引入数据增强。
部署了与传统nms算法复杂度相同的soft-nms，以有效减少误报测试结果。

实验

数据集：Pascal VOC 以及COCO
实验设备：MFRDet是在Ubuntu 16.04操作系统下使用Pytorch 0.4.0开发的。单卡NVIDIA Tesla P100 GPU with CUDA 9.0 and cudnn 7.

消融实验

结论：

重用的层不是越多，结果就越好。在VOC2007上，加上conv3_3mAP是79.5,去掉则增加到80.7，移除conv5_5,则减少0.2
concat比sum提升0.2的mAP
添加的批次归一化层可以假设精度提高约0.4%（表2）。需要指出的是，批量归一化对检测速度影响不大。
双线性插值和级联对增强网络性能有显著贡献。

我们的MFRDet算法的结构如下：首先，我们利用VGG16作为骨干网络来减少计算内存。
所有源层的尺寸由涉及256个通道的1×1卷积变换。然后，通过双线性插值操作将交替源层的大小更改为38×38。然后，将新生成的特征映射连接在一起。最后，添加一个批量归一化层进行归一化

【论文阅读笔记】MFRDet：A single-shot multi-level feature reused neural network for object detection相关推荐

论文阅读笔记二十八：You Only Look Once: Uniﬁed,Real-Time Object Detection(YOLO v1 CVPR2015)...
论文源址:https://arxiv.org/abs/1506.02640 tensorflow代码:https://github.com/nilboy/tensorflow-yolo 摘要该文提出 ...
论文阅读笔记： (2022.05, icra) Traffic Context Aware Data Augmentation for Rare Object Detection in Autonom
这篇文章是nullmax发到icra上的, 主要讲了用domain迁移的方法制作稀有场景的数据集,数据已经开源:ROD - Nullmax Rare Object Dataset 一.目的,主要贡献 ...
论文阅读笔记：《Hyperspectral image classification via a random patches network》（ISPRSjprs2018）
论文阅读笔记:<Hyperspectral image classification via a random patches network>(ISPRSjprs2018) 论文下载地址 ...
深度学习论文阅读目标检测篇（三）：Faster R-CNN《 Towards Real-Time Object Detection with Region Proposal Networks》
深度学习论文阅读目标检测篇(三):Faster R-CNN< Towards Real-Time Object Detection with Region Proposal Networks&g ...
论文翻译之Enriched Feature Guided Refinement Network for Object Detection
摘要我们提出了一个单阶段检测框架,该框架解决了多尺度目标检测和类不平衡的问题.我们没有设计更深层的网络,而是引入了一种简单而有效的特征丰富化方案来生成多尺度的上下文特征.我们进一步引入了一种级联的优 ...
论文精度笔记(五)：《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
作者单位:港大, 同济大学, 字节AI Lab, UC伯克利文章目录论文以及源码获取论文题目参考文献 1. 研究背景 2. 贡献 3. 相关工作 3.1 DSConv 3.2 MBConv 3 ...
论文阅读笔记：ProjectionNet: Learning Efficient On-Device Deep Networks Using Neural Projections
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录前言介绍相关工作神经投影网络(Neural Projection Networks) Pro ...
论文阅读笔记三：R2CNN：Rotational Region CNN for Orientation Robust Scene Text Detection(CVPR2017)...
进行文本的检测的学习,开始使用的是ctpn网络,由于ctpn只能检测水平的文字,而对场景图片中倾斜的文本无法进行很好的检测,故将网络换为RRCNN(全称如题).小白一枚,这里就将RRCNN的论文拿来拜 ...
论文阅读笔记《Learning for Disparity Estimation through Feature Constancy》
0. 摘要立体匹配算法通常由四个部分组成,包括:匹配代价计算,代价聚合,视差计算和视差优化.现有的基于CNN 的方法知识采用CNN解决了这四步中的一部分,或者使用不同的网络处理不同的步骤,使得它 ...

【论文阅读笔记】MFRDet：A single-shot multi-level feature reused neural network for object detection