快速论文解读|CVPR2020|EfficientDet:Scalable and Efficient Object Detection)

1、背景描述

在目标检测中，为了增强网络的特征表达能力，我们一般都需要特征融合方法，常用的特征融合方法一般为FPN或者PAN，本文提出这两种方法存在一些不足之处以及提出了新的特征融合方法BiFPN：
（1）常见的网络特征融合部分（FPN和PAN等）通常是将低分辨率（高分辨率）的特征resize成高分辨率（低分辨率）与相应的高分辨率（低分辨率）特征融合，但是高层和低层特征的融合对输出特征的贡献度存在不平等；
（2）为了得到不同尺度大小的网络，通常方法是增加网络的大小和输入图像的大小，但这种方式并没有权衡网络精度和模型大小时并没有考虑到网络输入分辨率、宽度以及深度的综合影响。

2、本文方法

针对上述不足,文中提出了BiFPN和联合缩放方法（Compound Scaling），BiFPN考虑到不同特征融合对于输出特征的重要性；联合缩放方法（Compound Scaling） 综合考虑图像输入分辨率、网络宽度和深度这些因素，权衡了准确率和效率。如图1所示为本文的整体结构图：

图1 EfficientDet结构图

上图中左侧backbone采用了一个高效的EfficientNet的骨干网络，文中提出的第二种方法(联合缩放)也是借鉴于此，在计算资源受限的情况下，我们并不知道怎样调整输入分辨率、网络宽度和深度中才能够达到最优，因此EfficientNet提出了同时缩放这些变量；图中的中间部分(Neck)为本文提出的BiFPN；图中的右侧部分(Head)为检测网络中的预测部分，通常预测位置信息和类别信息。

2.1 BiFPN

2.1.1 权重特征融合

在目标检测中，常见的特征融合方式为FPN和PAN，如图3所示，分别为FPN和PAN，其中FPN为自顶向下方式，将具有高语义信息的低分辨率特征resize成多细节性的高分辨率特征在与同分辨率大小的特征融合；PAN在FPN的基础上多了自底向上的特征融合。其中，P7特征图都是经过Conv和resize之后和P6相加，对于融合后的特征图而言，这两个特征图(P7和P6)的贡献相同，不能够根据现有的数据集充分利用特征的信息进行预测。为了解决这一问题，BiFPN在特征融合前为每一个特征设置了一个权重系数 ϕ\phiϕ ，根据网络损失可以动态调整不同特征的重要性，增强融合后特征的的表征能力。

图2 FPN(左)和PAN(右)

2.1.2 跨尺度连接

FPN和PAN都是one-way流的方式，为了进一步促进特征之间的融合，提高目标检测的性能，文中提出了跨层多尺度的融合方式，主要灵感来源于NAS-FPN，但NAS-FPN的训练既耗时又耗GPU资源，因此作者设计了BiFPN，在现有的基础结构上进行修改，也就是移除了网络中只有一条边输入的节点(如图3中的蓝色节点)，因为如果只有一条边输入，则代表这个节点具有较少的贡献。如图3所示，分别代表NAS-FPN和BiFPN，其中紫色线段为BiFPN中的跨尺度连接线，增强了特征之间的融合；

图3 NAS-FPN(左)和BiFPN(右)

2.2 联合缩放(Compound Scaling)

为了权衡模型的精度和速度，常用的网络调整策略是通过单独调节网络的输入分辨率或者堆叠更多的FPN层，但在最近的图像分类中发现联合缩放网络的宽度、深度和输入分辨率具有的更好的性能。因此本文将这种方法运用到目标检测中，用来调节特征融合网络(Neck)部分的宽度和深度、预测网络(Head)部分的宽度和深度。如式(1)~(3)所示，分别表示特征融合网络的宽度和深度、预测网络的宽度和深度、骨干网络输入图像分别率的调节：
WBiFPN=64∗(1.35)ϕ,DBiFPN=3+ϕ(1)W_{BiFPN}=64*(1.35)^\phi , \quad D_{BiFPN}=3+\phi \tag{1}WBiFPN=64∗(1.35)ϕ,DBiFPN=3+ϕ(1),

DBox=DClass=3+⌊ϕ/3⌋(2)D_{Box}=D_{Class}=3+\lfloor\phi/3\rfloor \tag{2}DBox=DClass=3+⌊ϕ/3⌋(2)

RInput=512+ϕ∗128(3)R_{Input}=512+\phi*128 \tag{3}RInput=512+ϕ∗128(3)

受这种方法的启发，本文对目标检测网络的BackBone的输出分辨率、宽度和深度、BiFPN(Neck)的深度和宽度、预测网络(Head)的宽度和深度同时缩放。如表1所示，根据系数的不同，系数从0到7共有8个EfficientDet版本。

表1 不同的EfficientDet版本

3、实验结果

3.1 不同检测网络精度对比

如上表所示，在模型参数量和浮点运算率更少的情况下，EfficientDet的测试精度都达到了最高。不得不说，一方面依赖于通过强大的计算资源搜索出的EfficientNet骨干网络，另一方面是本文提出的BiFPN，更加灵活地运用到不同特征图的信息。

3.2 模型内存和速度对比

如上图所示，在COCO数据集上，相对于其他检测网络，EfficientDet运用更少的参数量(4X-9X)、GPU延迟率(2X-4X)和CPU延迟率(5X-11X)的情况下，取得了更高的AP。

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。

EfficientDet:Scalable and Efficient Object Detection

1、背景描述

2、本文方法

2.1 BiFPN

2.1.1 权重特征融合

2.1.2 跨尺度连接

2.2 联合缩放(Compound Scaling)

3、实验结果

3.1 不同检测网络精度对比

3.2 模型内存和速度对比

相关链接

EfficientDet:Scalable and Efficient Object Detection相关推荐

最新文章

热门文章