论文解读 Receptive Field Block Net for Accurate and Fast Object Detection

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。

书的购买链接
书的勘误，优化，源代码资源

PDF全文地址：http://tensorinfinity.com/paper_117.html

论文解读 Receptive Field Block Net for Accurate and Fast Object Detection

ECCV 2018

随着深度神经网络的发展,目前性能最佳的目标检测模型都依赖于深度的CNN主干网，如ResNet-101和Inception，虽然强大的特征表示有利于性能的提升，但却带来高额的计算成本。相反的，一些轻量级的检测模型可以实时的处理检测问题，但随之带来的是精度的牺牲。在这篇论文文中，作者探索了一种替代方案，通过使用人工设计的网络模块(hand-crafted mechanism)强化轻量级特征来构建快速准确的检测模型。受人类视觉系统中感受野（RF）结构的启发，作者提出了一种新颖的RF模块（RFB），它通过模拟RF的大小和偏心率之间的关系增强了特征的可辨性和模型的鲁棒性。作者进一步将RFB组装到SSD的顶部，构建RFB检测模型。为了评估其有效性，作者在两个主要基准数据集上进行了实验，结果表明RFB Net能够在保持实时速度的同时达到与拥有较深主干网的检测模型同级别的性能。

一. 概述

近年来，基于区域(Region-baesd)的卷积神经网络（R-CNN）及其衍生网络(如Fast R-CNN和Faster R-CN等)在Pascal VOC，MS COCO和ILSVRC等主要的比赛和基准测试中不断提升着目标检测的最高性能。这一类检测模型将整个网络划分为两个阶段并构建了一种特有的流水线(pipeline)结构，其中第一阶段是对图像内各类别目标的所有可能位置进行候选框粗略估计(region proposal)，第二阶段使用基于CNN的特征提取器及分类器对每个估计进行分类和校准。通常认为在这些方法中，CNN构建的特征表示起着至关重要的作用.通过CNN学习的特征是一种对于目标的编码,这种编码通常拥有较高的区分度和良好的鲁棒性。很多最新的研究都证实了CNN在目标检测中的重要作用, 例如，ResNet和DenseNet使用越来越深的网络提取图像特征; FPN引入了一种自上而下的架构来构建特征金字塔, 从而集成了浅层和高层语义信息; 最新的Mask R-CNN使用RoIAlign层以产生更精确的区域特征。所有的这些网络都通过改进特征提取的方法来获得更优的结果. 但是由于它们都没有跳出使用更深层神经网络的定势思维，因而结论便是计算成本的不断累加和检测速率的减低。

为了加快检测速度，单阶段(one-stage)检测框架被提出并广泛使用. 其与two-stage检测模型的不同点在于one-stage模型舍弃候选区域生成(Region proposal)的阶段。虽然YOLO和SSD的实验结果证明了one-stage模型可以做到实时的目标检测，但它们与最新的two-stage检测模型相比精度却有着10％到40％的下降。尽管最新的Deconvolutional SSD（DSSD）和RetinaNet大大改善了one-stage模型的精度，使其几乎可以和two-stage检测模型媲美，但不幸的是它们性能的提升也来源于对更深层神经网络的利用, 这也同样影响着检测速度。

根据上面的讨论作者认为, 为了构建快速而强大的检测模型，合理的替代方案是通过引入某些人工设计的机制来增强轻量级网络的特征表示，而不是顽固地加深模型。另一方面，神经科学中的一些发现表明，在人类视觉皮层中，群智感受野（pRF）的大小是其视网膜图中偏心率的函数，且如图一所示随着偏心率而增加. 这个结论同样证明了更靠近中心的区域在识别物体时拥有更高的比重或作用，并且大脑在对于小的空间变化时具有不敏感性。一些现有的网络机制其实碰巧也在使用这一假设, 如pooling机制等等, 且这些机制或多或少的都在图像领域展现出了各自的能力和效果。

图1.群智感受野（pRF）属性的规律。（A）pRF大小可以看作人类视网膜图中偏心率的函数，其中两个趋势是明显的：（1）pRF大小随着每个图中的偏心率而增加，以及（2）图之间的pRF大小有差异。（B）基于（A）中的参数的pRF的空间阵列:每个圆的半径是在适当的偏心率下的表观RF尺寸。

目前现有的深度学习模型通常在特征图上使用常规采样网格将RF设置为相同尺寸，但是这可能会导致特征可辨性和鲁棒性的一些损失。Inception考虑了多种尺寸的RF，它通过使用具有不同卷积核的多分支CNN来实现这一功能,虽然Inception的一系列变体在目标检测（基于区域的框架中）和分类任务中实现了较为可观的结果,但是Inception的问题在于所有卷积核都在同一中心进行采样。类似的想法也出现在膨胀卷积网络中，膨胀卷积网络利用Atrous空间金字塔池（ASPP）来获取多尺度信息,在顶部特征图上应用了几个具有不同比率的并行卷积以改变与中心的采样距离，结果显示这一模块在语义分割中发挥着重要作用。但是上述特征针对先前的卷积层均具有相同的分辨率，并且与传统卷积层相比,其所产生的特征往往不那么独特。可变形CNN试图根据物体的尺度和形状自适应地调整RF的空间分布。尽管其采样网格是灵活的，但没有考虑RF的偏心率的影响: RF中的所有像素对输出响应贡献相同并且不重视最重要的信息。

受人类视觉系统中RF结构的启发，本文提出了一个新颖的模块: 感受野模块（RFB），加强了从轻量级CNN模型中学到的深层特征，使检测模型更加快速且准确。如图2所示: 具体来说，RFB利用具有与不同尺寸的RF相对应的不同卷积核的多分支池，应用膨胀卷积层来控制它们的偏心率，并将它们重新整合以生成最终表示。作者将RFB模块组装在SSD 上, 构建了一个新的one-stage检测模型（RFB Net）。得益于这样一个简单的模块，RFB Net展现出了相当不错的结果: 在精度可以与最新的基于更深层神经网络的检测模型相媲美的同时, 保持了原始轻量级检测模型的高速度。此外，由于对网络架构施加的限制很少, RFB可以作为一种通用模块嵌入到绝大多数网路当中。

图2 通过将多个分支与不同的卷积核和膨胀卷积组合来构建RFB模块。多个卷积核类似于不同大小的pRF，而膨胀卷积为每个分支分配单独的偏心率以模拟pRF的大小和偏心率之间的比率。通过将所有分支合并进行1*1卷积变换，产生RF的最终空间阵列，其机理类似于图1所示的人类视觉系统。

本文的贡献可以归纳如下:

作者提出了RFB模块模拟人类视觉系统中pRF的大小和偏心度的函数关系，旨在增强轻量级CNN网络的深层特征。
作者通过简单地用RFB替换SSD的顶部卷积层, 提出了基于RFB Net的检测模型。
它显示出显著的性能增益，同时仍然保持计算成本的可控性。 RFB Net在保证实时处理速度的同时, 在Pascal VOC和MS
COCO上实现了state-of-the-art的结果,作者最终将RFB链接到MobileNet来表明RFB的泛化能力。

二. 相关工作

Two-stage detector:

R-CNN直接结合了选择性搜索等提取候选框的步骤，并通过CNN模型对它们进行分类，与传统方法相比在准确度上做到了显著的提升，这开启了目标检测的深度学习时代。它的一些变体（如fast R-CNN，faster R-CNN）更新了two-stage的模型结构并不断的实现着更高的检测性能。除此之外，为了进一步提高检测精度, 更多领域的有效拓展也被不断的提出: 如R-FCN，FPN，Mask R-CNN等。

One-stage detector:

最具代表性的one-stage检测模型是YOLO和SSD, 它们基于整个特征图预测多个对象的属性和位置, 由于它们均采用轻量级的backbone进行加速，因而精度往往明显落后于two-stage的检测方法。

最近更先进的one-stage检测模型（如DSSD和RetinaNet）通过更深层的ResNet-101替代其原始轻量级backbone，并应用某些技术(如反卷积或Focal loss), 取得了可以媲美甚至优于two-stage检测方法的精度, 但是这种性能提升的代价是: 从一定程度上放弃了one-stage方法最为引以为傲的检测速度。

Receptive Field:

在本文的研究中，作者的目标是在提高one-stage检测模型性能的同时不产生太多的计算负担。因而与应用非常深的backbone不同, RFB通过模仿人类视觉系统中RF的作用机制，增强了基于轻量级模型的特征表示。实际上对于CNN中RF的研究已经广泛存在于深度学习领域，其中最相关的研究是便Inception家族，ASPP和可变形CNN。

图3.空间RF的四种典型结构。（a）显示Inception中多个大小的卷积。（b）演示了ASPP中类似雏菊的pooling策略。（c）采用可变形卷积，根据物体特性产生自适应卷积核。（d）说明了RFB的机制。每个结构的颜色图是从训练模型中的一个对应层导出的有效RF，在（a）和（b）中，我们调整原始Inception和ASPP中的RF尺寸以进行公平比较。

Inception块采用具有不同卷积核大小的多个分支来捕获多尺度信息, 但是所有卷积核都在同一个中心进行采样，这需要更大的卷积核才能达到相同的采样覆盖率，因而会丢失一些关键细节。对于ASPP，扩张卷积改变了与中心的采样距离，但是这些特征具有来自相同卷积核大小的先前卷积层的相同分辨率，且在所有位置上平等地处理特征，这可能导致目标和上下文之间的混淆。可变形的CNN针对不同对象学习到了完全不同的分辨率位置分布，遗憾的是它与ASPP具有相同的缺点。RFB与它们的不同点在于: RFB突出了感受野大小和偏心率之间的关系，其中较大的权重分配给较小卷积核靠近中心的位置，表明它们比周围的特征点更为重要(图3列举了四种典型空间RF结构的差异)。另一方面,采用Inception和ASPP来改进one-stage检测模型的研究尚未出现成果，而RFB则展示了在这个问题上独特的优势。

三. 方法

在本节中，作者重新探究人类视觉大脑皮层，介绍RFB组件以及模拟这种机制的方法，并描述RFB网络检测模型的架构及其训练/测试数据表。

Visual Cortex Revisit:

在过去的几十年中，通过使用功能性磁共振成像（fMRI）, 人类从技术上使测量人类大脑活动成为可能，RF模型已成为用于预测反应和阐明大脑计算的重要感官科学工具。由于人类神经科学仪器经常观察到许多神经元的汇集反应，因此这些模型通常被称为pRF模型。基于fMRI和pRF建模，可以研究皮质中许多视觉感应图的关系。在每个皮质图上，研究人员发现pRF大小与离心率之间存在正相关，而相关系数在视觉图中有所不同(如图1所示)。

Receptive Field Block:

本文所提出的RFB是一种多分支的卷积模块,它的内部结构可以分为两个部分：具有不同卷积核的多分支卷积层后接膨胀池化或膨胀卷积。前者的部分与原始网络相同，负责模拟多种尺寸的pRF，后者的部分再现了人类视觉系统中pRF尺寸与偏心率之间的关系,图2展示了RFB及其对应的空间池区域图。我们将在下面详细阐述这两部分及其功能。

Multi-branch convolution layer:

根据CNN中RF的定义，相比于共享相同尺度的RF, 应用不同的卷积核来实现多尺寸RF是一种更自然和简单的方式。

作者选择最新的Inception版本进行模块化修改(即Inception系列中的Inception V4和Inception-ResNet V2)。具体来说，首先作者在每个分支中采用瓶颈结构，包括一个用以减少特征图中通道数量的11卷积层和一个nn卷积层。第二，为了减少参数和构建更深层的非线性映射, 作者使用两个堆叠的33个卷积层代替55卷积层。出于同样的原因，作者使用1n加n1卷积层来代替原始n*n卷积层。最后，作者结合使用了ResNet和Inception-ResNet V2 中的支路模块(shortcut)。

Dilated pooling or convolution layer:

这个概念最初被Deeplab提出并被命名为astrous卷积, 该结构的基本目的是生成更高分辨率的特征图，在保持相同数量参数的情况下做到在更大的区域提取特征。这种设计已迅速被证明能够胜任语义分割任务，并且以提高速度或精度的目的逐渐被应用到一些检测模型当中，如SSD和R-FCN。

图4. RFB和RFB-s的架构。 RFB-s使用更多具有较小核的分支, 用于模拟人类浅层视网膜图中的较小pRF。

在本文中，作者利用了膨胀卷积来模拟pRF在人类视觉皮层中的离心率的影响。从图4中我们可以看到应用多分支卷积层和膨胀卷积层的两个组合。每个分支有两个组成部分，分别是具有特定核大小的卷积层和拥有相应膨胀率的池化或卷积层。卷积核大小和膨胀率与视觉皮层中pRF的大小和离心率具有相似的正比例函数关系。最后所有分支的特征图被拼接合并到相同的特征空间(如图1所示)。

RFB的特定参数(例如内核大小、每个分支的膨胀率和分支数量)在检测模型的每个位置都有一定程度上的差异，这些差异将在下一节中详细介绍。

RFB Net Detection Architecture:

作者所提出的RFB网络检测模型重用了SSD的多尺度和one-stage框架，其中嵌入了RFB模块以改善从轻量级主干网中提取的特征，使得检测模型可以更准确和高速。由于RFB的特性可以轻松集成到CNN中，所以SSD的架构可以被最大限度的保留, 仅仅用RFB代替顶部卷积层便可实现网络结构的升级，图5给出了网络中更多的细节。

图5. RFB-Net300的流水线。在conv4_3后拼接了具有较小RFs的RFB-s，原始RFB和具有2stride的双层RFB拼接在fc输出之后。

Lightweight backbone:

作者使用与SSD完全相同的主干网, 该网络是在ILSVRC CLS-LOC数据集上预先训练的VGG16架构，其中fc6和fc7层被转换为具有次级采样参数的卷积层， pool5层从22-stride2变为33- stride 1,并且去除所有pooling层和fc8层。尽管最近提出了许多成熟的轻量级网络（例如DarkNet，MobileNet和ShuffleNet），但作者为了与原始SSD进行直接对比,仍然使用上述的backbone。

Lightweight backbone:

在原始的SSD中，主干网由一系列卷积层组成，在各个网络深度中形成一系列特征图，这些特征图具有连续递减的空间分辨率和递增的感受野。在本文的实现中,作者保持了相同的SSD级联结构，将一些分辨率较大特征图所在的卷积层替换为RFB模块。在RFB的一些主要版本中，作者使用单一的结构设置来模仿偏心率的影响。根据特征图之间pRF大小和偏心率的不同，我们相应地调整RFB的参数以形成RFB-s模块并将其置于conv4_3层之后，如图4和图5所示, 这个模块实际上是模拟了人类浅层视网膜图中较小的pRF。而网络中的最后几个卷积层被保留，原因是这些网络层的输出特征图分辨率太小所以无法应用像5*5这样大尺度的卷积核。

Training Settings:

作者基于Pytorch设计实现了RFB Net检测模型，主要是利用了ssd.pytorch repository提供的开源基础架构。作者为了尽可能跟SSD保持相同的训练策略，使用了包括数据增强，hard negtive挖掘，相同默认框设置，以及相同的损失函数定义（如:使用用于定位的平滑L1损失和用于分类的softmax损失函数），但为了适应RFB的训练,作者在学习率策略上略有调整, 另外所有新添加的卷积层均使用MSRA方法进行初始化.更多的训练细节在之后的实验部分会给出。

四.实验

作者对与20个类别的Pascal VOC 2007和80个类别的MS COCO数据集分别进行了实验. 在VOC 2007中，作者设置交并比（IoU）阈值为0.5，而在COCO中，作者使用多种阈值对数据集和结果进行更全面的分析。实验结果的评估指标使用平均精度（mAP）。

Pascal VOC 2007:

在本文的实验中，作者将2007 trainval set和2012 trainval set合并, 作为一个完整数据集对RFB Net进行训练。网络最初设置batchsize为32, 初始学习率为1e-3，虽然这些参数的默认设置与原始的SSD一样，但结果却显示损失函数存在较大的震荡, 训练过程很不稳定。于是作者使用“预热(warmup)”策略，在前5个epoch逐渐将学习率从1e-6提高到4e-3, 之后回归原本的学习策略, 在上述策略的基础上, 作者选择0.0005的权重衰减和0.9的动量参数总共训练了250个epoch。

表1显示了本文的结果与一些state of the art模型在VOC2007测试集上的对比。表中SSD300 *和SSD512 *是与RFB Net使用了相同数据集拓展与数据增强技术(如缩小图像以创建更多小例子)后SSD的训练结果。为了做到公平的比较，作者使用与RFB Net完全相同的环境(Pytorch-0.3.0和CUDNN V6)复现了SSD。通过集成RFB层作者发现,即使是最原始的RFB Net(即RFB Net300)，也有着优于SSD和YOLO的实验结果(mAP为80.5％)，与此同时也保持了SSD300的实时速度。通过表格我们也可以看到, RFB Net甚至可以达到与最新的two-stage检测模型(R-FCN)相同的精度。 RFB Net512是在放大了输入尺寸的情况下的实验结果,最终实现了82.2％的mAP，优于大多数one-stage和two-stage检测模型.虽然它拥有较深的backbone, 但仍然保持着很高的速度。

表1. PASCAL VOC 2007测试集上检测方法的比较。所有数据信息都是在Geforce GTX Titan X（Maxwell架构）的GPU上计算得到。

Ablation Study:

RFB module:

为了更好地理解RFB，我们研究了每个组件在网络设计中的意义，并将RFB与一些类似的结构进行了比较,结果总结在表2和表3中。如表2所示，应用了新的数据增强方法的原始SSD300达到了77.2％mAP, 但通过简单地使用RFB-max池化替换最后一个卷积层，我们便可以把结果提升至79.1％(1.9％的增益)，这表明RFB模块在检测中是有效的。

表2.各种结构在VOC 2007测试集上实验的有效性

Cortex map simulation:
正如上一节提到的，我们调整RFB参数以模拟大脑皮层图中pRF的大小和偏心率之间的比率, 这种调整使RFB最大池化性能提高0.5％（从79.1％提高到79.6％），RFB膨胀卷积性能提高0.4％（从80.1％提高到80.5％），这同样证实了本文所依据的人类视觉系统的机制（表2）。

More prior anchors:

原始SSD仅在conv4_3，conv10_2和conv11_2位置处的特征图关联4个默认框，并为所有其他层关联6个默认anchor。但是最近的研究表明:浅层特征对于检测小物体起着至关重要的作用, 因此作者假设如果在浅层特征图（如conv4_3）中添加更多anchor，那么检测模型的性能(特别是小物体检测的性能)往往会由一定程度的增加。在实验中，作者在conv4_3处放置了6个默认框，实验表明这对于原始SSD模型的性能没有任何影响，但对于RFB模型却有0.2％的提升（从79.6％到79.8％）（表2）。
表3: 不同模块在VOC2007和MS COCO数据集上的对比

Dilated convolutional layer:

在最早的实验中，为了避免产生额外的参数, 作者选择膨胀池化作为RFB的下采样方式,但是这些固定的池化策略限制了多尺度RF特征的融合。而后的实验选择膨胀卷积替代池化，作者发现它在不降低预测速度的情况下将准确度提高了0.7％（从79.8％提高到80.5％）（表2）。

Microsoft COCO:

为了进一步验证所提出的RFB模块，本文在MS COCO数据集上也进行了实验。作者使用trainval35k set（train set + val 35k set）进行训练，并将batchsize设置为32. 作者在保留原始SSD策略的情况下，减小了默认框的大小, 原因是COCO数据集中相比PASCAL VOC包含更多小尺度的物体。在训练开始时，作者同样使用了“预热(warmup)”技术，在前5个epoch逐渐将学习率从1e-6提高到2e-3，然后在80和100个epoch之后将其降低10倍,在120个epoch的时候结束训练。

从表4中可以看出，RFB Net300在test-dev set上达到了30.3％/ 49.3％的精度，大幅度超过了SSD300 的baseline，甚至和采用ResNet-101作为基础网络的R-FCN(输入为6001000)拥有相同的预测结果。

对于更’宽’的模型，RFB Net512的表现略差但仍然可以与最新的one-stage模型Reti- naNet500（33.8％对34.4％）相媲美。值得注意的是, RetinaNet利用了深度ResNet-101-FPN作为backbone, 且设计了全新的损失函数使学习重点放在困难的样本上, 但RFB Net仅仅采用轻量级的VGG模型作为backbone. 从速度上比较我们也可以看到, RFB Net512预测一张图片平均消耗30 ms，而RetinaNet却需要90ms。

另外从表格中我们可以看出使用高达800像素尺度作为输入的RetinaNet800获得了最高精度（39.1％）。众所周知，较大的输入图像尺寸通常会获得更高的性能，但本文的研究重点在于高速度下的高精度实现,因而这项结果并不在本文的研究范围。

本文还考虑另外的一些网络构建策略：（1）在应用RFB-s模块之前对conv7_fc特征图进行上采样并与conv4_3拼接，引入了类似于FPN的思想; （2）在所有RFB层中添加7*7卷积核的分支. 从表4中我们也可以看到，这两个策略进一步的提高了性能，使得本文的实验结果获得了最高34.4％的精度（写做RFB Net512-E），而计算成本仅略微的有所上升。

表4. COCO test-dev 2015数据集的检测性能。除了RetinaNet，Mask R-CNN和FPN实验在Nvidia M40 GPU上，其余几乎所有方法都是在Nvidia Titan X（Maxwell架构）GPU上测量的。

五.讨论

Inference speed comparison:

在表1和图6中列举了RFB Net和一些state-of-the-art检测模型的速度对比。在本文的实验中，检测模型在不同数据集上的预测速度有一定的差异，原因是MS COCO拥有80个类别，平均物体密集的增加使得模型在NMS步骤花费了更多的时间。从表1中可以看出, RFB Net300是拥有最高准确率的实时检测模型（80.5％mAP），其在Pascal VOC上的运行速度为83 fps，并且RFB Net512仍可以以38 fps的速度为Pascal VOC提供更准确的结果。在图6中，作者绘制RFB Net的速度/准确度trade-off曲线，并将其与RetinaNet等其他应用于MS COCO test-dev set上的检测模型作比较。该图表明本文提出的RFB网络不仅在所有实时检测模型中拥有最高的检测精度,同时保持着优于所有单阶段检测模型的高速度（66 fps）。

图6. MS COCO test-dev上的速度（ms）与精度（mAP）的关系。

Other lightweight backbone:

虽然我们使用的backbone是一个简化的VGG16版本，但与最近的轻量级网络(如MobileNet，DarkNet和ShuffleNet)相比仍然具有大量参数。为了进一步测试RFB模块的泛化能力，作者将RFB拼接到MobileNet-SSD上, 并使用相同的训练策略在MS COCO数据集上进行训练和评估。表5表明了:RFB在以MobileNet为backbone的模型上仍能通过增加少量参数而获得准确度的提升, 这意味着RFB Net在低计算能力的设备上有着很大的应用前景。

表5.使用MobileNet作为backbone的检测模型在MS COCO minival2014上的准确度。

Training from scratch:

作者还注意到RFB模块的另一个有趣的特性: 即可以从头开始有效地训练物体检测模型。最近的研究发现, 不使用预训练backbone的检测模型其训练将会是一项艰巨的任务，在two-stage的检测模型中, 所有的网络结构均无法在脱离预训练的条件下完成训练任务, 在one-stage的检测模型中, 虽然部分模型做到了收敛,但却只能取得低于使用预训练backbone的训练结果。深度监督物体检测器（DSOD）提出了一种轻量级的结构，无需预先训练即可在VOC 2007测试集上实现77.7％的mAP，但其在使用预训练网络时不会提升性能。作者从零开始在VOC 2007 + 2012训练集上训练了RFB Net300，并在相同的测试集上达到了与DSOD类似的77.6％的mAP. 但值得注意的是,如果在RFB Net上使用预训练版本,性能将会提升至80.5％。

六.结论

在本文中，作者提出了一种快速而强大的目标检测模型。与单纯加深网络深度不同，作者模仿人类视觉系统中的RF结构, 通过引入人工设计的机制,即感受野模块（RFB）来增强轻量级网络的特征表示. RFB模块模拟了RF的大小和偏心率之间的关系，从而产生出更具辨别力和鲁棒性的特征。RFB可以设置在基于轻量级CNN的SSD顶部，由此构建的RFB Net在Pascal VOC和MS COCO数据集上均取得了显著的性能提升, 总的来说: RFB Net在保留了轻量级模型处理速度优势的同时, 取得了可以与最新检测框架相媲美的检测精度。

参考文献

Brown, M., Hua, G., Winder, S.: Discriminative learning of local image descriptors.TPAMI (2011)
Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. arXiv preprint arXiv:1606.00915 (2016)
Chen, L.C., Papandreou, G., Schro_, F., Adam, H.: Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587 (2017)
Dai, J., et al.: Deformable convolutional networks. In: ICCV (2017)
Everingham, M., Van Gool, L., Williams, C.K., Winn, J., Zisserman, A.: The pascal visual object classes (voc) challenge. IJCV (2010)
Fu, C.Y., et al.: Dssd: Deconvolutional single shot detector. arXiv preprint arXiv:1701.06659 (2017)
Girshick, R.: Fast r-cnn. In: ICCV (2015)
Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: CVPR (2014)
He, K., Gkioxari, G., Doll_ar, P., Girshick, R.: Mask r-cnn. In: ICCV (2017)
He, K., Zhang, X., Ren, S., Sun, J.: Delving deep into recti_ers: Surpassing humanlevel performance on imagenet classi_cation. In: ICCV (2015)
He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition.In: CVPR (2016)
Howard, A.G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., Andreetto, M., Adam, H.: Mobilenets: E_cient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861 (2017)
Hu, P., Ramanan, D.: Finding tiny faces. In: CVPR (2017)
Huang, D., Zhu, C., Wang, Y., Chen, L.: Hsog: a novel local image descriptor based on histograms of the second-order gradients. IEEE Transactions on Image Processing 23(11), 4680{4695 (2014)
Huang, J., et al.: Speed/accuracy trade-o_s for modern convolutional object detectors. In: CVPR (2017)
Kim, K.H., Hong, S., Roh, B., Cheon, Y., Park, M.: Pvanet: Deep but lightweight neural networks for real-time object detection. arXiv preprint arXiv:1608.08021 (2016)
Li, Y., He, K., Sun, J., et al.: R-fcn: Object detection via region-based fully convolutional networks. In: NIPS (2016)
Li, Y., Qi, H., Dai, J., Ji, X., Wei, Y.: Fully convolutional instance-aware semantic segmentation. In: CVPR (2017)
Lin, T.Y., Doll_ar, P., Girshick, R., He, K., Hariharan, B., Belongie, S.: Feature pyramid networks for object detection. In: CVPR (2017)
Lin, T.Y., Goyal, P., Girshick, R., He, K., Doll_ar, P.: Focal loss for dense object detection. In: ICCV (2017)
Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll_ar, P.,Zitnick, C.L.: Microsoft coco: Common objects in context. In: ECCV (2014)
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.Y., Berg, A.C.: Ssd:Single shot multibox detector. In: ECCV (2016)
Luo, W., et al.: Understanding the e_ective receptive _eld in deep convolutional neural networks. In: NIPS (2016)
Redmon, J., Divvala, S., Girshick, R., Farhadi, A.: You only look once: Uni_ed, real-time object detection. In: CVPR (2016)
Redmon, J., Farhadi, A.: Yolo9000: Better, faster, stronger. In: CVPR (2017)
Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object detection with region proposal networks. In: NIPS (2015)
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z.,Karpathy, A., Khosla, A., Bernstein, M., et al.: Imagenet large scale visual recognition challenge. IJCV (2015)
Shen, Z., Liu, Z., Li, J., Jiang, Y.G., Chen, Y., Xue, X.: Dsod: Learning deeply supervised object detectors from scratch. In: ICCV (2017)
Simonyan, K., Vedaldi, A., Zisserman, A.: Learning local feature descriptors using convex optimisation. TPAMI (2014)
Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. In: NIPS (2014)
Szegedy, C., Io_e, S., Vanhoucke, V., Alemi, A.A.: Inception-v4, inception-resnet and the impact of residual connections on learning. In: AAAI (2017)
Szegedy, C., Vanhoucke, V., Io_e, S., Shlens, J., Wojna, Z.: Rethinking the inception architecture for computer vision. In: CVPR (2016)
Szegedy, C., et al.: Going deeper with convolutions. In: CVPR (2015)
Tola, E., Lepetit, V., Fua, P.: A fast local descriptor for dense matching. In: CVPR
(2008)
Uijlings, J.R., Van De Sande, K.E., Gevers, T., Smeulders, A.W.: Selective search for object recognition. IJCV (2013)
Wandell, B.A., Winawer, J.: Computational neuroimaging and population receptive _elds. Trends in Cognitive Sciences (2015)
Weng, D., Wang, Y., Gong, M., Tao, D., Wei, H., Huang, D.: Derf: distinctivee_cient robust features from the biological modeling of the p ganglion cells. IEEE Transactions on Image Processing 24(8), 2287{2302 (2015)
Winder, S.A., Brown, M.: Learning local image descriptors. In: CVPR (2007)
Zhang, X., Zhou, X., Lin, M., Sun, J.: Shu_enet: An extremely e_cient convolutional neural network for mobile devices. arXiv preprint arXiv:1707.01083 (2017)