快速论文解读|CVPR2020|EfficientDet:Scalable and Efficient Object Detection)

1、背景描述

  在目标检测中,为了增强网络的特征表达能力,我们一般都需要特征融合方法,常用的特征融合方法一般为FPN或者PAN,本文提出这两种方法存在一些不足之处以及提出了新的特征融合方法BiFPN
 (1)常见的网络特征融合部分(FPN和PAN等)通常是将低分辨率(高分辨率)的特征resize成高分辨率(低分辨率)与相应的高分辨率(低分辨率)特征融合,但是高层和低层特征的融合对输出特征的贡献度存在不平等
 (2)为了得到不同尺度大小的网络,通常方法是增加网络的大小和输入图像的大小,但这种方式并没有权衡网络精度和模型大小时并没有考虑到网络输入分辨率、宽度以及深度的综合影响

2、本文方法

  针对上述不足,文中提出了BiFPN联合缩放方法(Compound Scaling)BiFPN考虑到不同特征融合对于输出特征的重要性;联合缩放方法(Compound Scaling) 综合考虑图像输入分辨率、网络宽度和深度这些因素,权衡了准确率和效率。如图1所示为本文的整体结构图:

图1 EfficientDet结构图

  上图中左侧backbone采用了一个高效的EfficientNet的骨干网络,文中提出的第二种方法(联合缩放)也是借鉴于此,在计算资源受限的情况下,我们并不知道怎样调整输入分辨率、网络宽度和深度中才能够达到最优,因此EfficientNet提出了同时缩放这些变量;图中的中间部分(Neck)为本文提出的BiFPN;图中的右侧部分(Head)为检测网络中的预测部分,通常预测位置信息和类别信息。

2.1 BiFPN

2.1.1 权重特征融合

  在目标检测中,常见的特征融合方式为FPN和PAN,如图3所示,分别为FPN和PAN,其中FPN为自顶向下方式,将具有高语义信息的低分辨率特征resize成多细节性的高分辨率特征在与同分辨率大小的特征融合;PAN在FPN的基础上多了自底向上的特征融合。其中,P7特征图都是经过Conv和resize之后和P6相加,对于融合后的特征图而言,这两个特征图(P7和P6)的贡献相同,不能够根据现有的数据集充分利用特征的信息进行预测。为了解决这一问题,BiFPN在特征融合前为每一个特征设置了一个权重系数 ϕ\phiϕ ,根据网络损失可以动态调整不同特征的重要性,增强融合后特征的的表征能力。

图2 FPN(左)和PAN(右)

2.1.2 跨尺度连接

  FPN和PAN都是one-way流的方式,为了进一步促进特征之间的融合,提高目标检测的性能,文中提出了跨层多尺度的融合方式,主要灵感来源于NAS-FPN,但NAS-FPN的训练既耗时又耗GPU资源,因此作者设计了BiFPN,在现有的基础结构上进行修改,也就是移除了网络中只有一条边输入的节点(如图3中的蓝色节点),因为如果只有一条边输入,则代表这个节点具有较少的贡献。如图3所示,分别代表NAS-FPN和BiFPN,其中紫色线段为BiFPN中的跨尺度连接线,增强了特征之间的融合;

图3 NAS-FPN(左)和BiFPN(右)

2.2 联合缩放(Compound Scaling)

  为了权衡模型的精度和速度,常用的网络调整策略是通过单独调节网络的输入分辨率或者堆叠更多的FPN层,但在最近的图像分类中发现联合缩放网络的宽度、深度和输入分辨率具有的更好的性能。因此本文将这种方法运用到目标检测中,用来调节特征融合网络(Neck)部分的宽度和深度、预测网络(Head)部分的宽度和深度。如式(1)~(3)所示,分别表示特征融合网络的宽度和深度、预测网络的宽度和深度、骨干网络输入图像分别率的调节:
WBiFPN=64∗(1.35)ϕ,DBiFPN=3+ϕ(1)W_{BiFPN}=64*(1.35)^\phi , \quad D_{BiFPN}=3+\phi \tag{1}WBiFPN​=64∗(1.35)ϕ,DBiFPN​=3+ϕ(1),

DBox=DClass=3+⌊ϕ/3⌋(2)D_{Box}=D_{Class}=3+\lfloor\phi/3\rfloor \tag{2}DBox​=DClass​=3+⌊ϕ/3⌋(2)

RInput=512+ϕ∗128(3)R_{Input}=512+\phi*128 \tag{3}RInput​=512+ϕ∗128(3)

  受这种方法的启发,本文对目标检测网络的BackBone的输出分辨率、宽度和深度、BiFPN(Neck)的深度和宽度、预测网络(Head)的宽度和深度同时缩放。如表1所示,根据系数的不同,系数从0到7共有8个EfficientDet版本。

表1 不同的EfficientDet版本

3、实验结果

3.1 不同检测网络精度对比


  如上表所示,在模型参数量和浮点运算率更少的情况下,EfficientDet的测试精度都达到了最高。不得不说,一方面依赖于通过强大的计算资源搜索出的EfficientNet骨干网络,另一方面是本文提出的BiFPN,更加灵活地运用到不同特征图的信息。

3.2 模型内存和速度对比


  如上图所示,在COCO数据集上,相对于其他检测网络,EfficientDet运用更少的参数量(4X-9X)、GPU延迟率(2X-4X)和CPU延迟率(5X-11X)的情况下,取得了更高的AP。

免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。

相关链接

论文链接:https://arxiv.org/abs/1911.09070
代码链接: https://github.com/google/automl/tree/master/efficientdet

EfficientDet:Scalable and Efficient Object Detection相关推荐

  1. EfficientDet: Scalable and Efficient Object Detection 论文学习

    Abstract 模型效率在计算机视觉领域愈发重要.本文中,作者系统地研究了神经网络结构设计,提出了多项关键优化以提升模型效率.首先,作者提出了一个加权的双向特征金字塔网络(BiFPN),使得多尺度特 ...

  2. 论文阅读:EfficientDet: Scalable and Efficient Object Detection

    文章目录 1.论文总述 2.各式各样的FPN及其效果 3.BiFPN设计的心路历程 4.Weighted Feature Fusion 4.EfficientDets家族的网络结构图 5.Compou ...

  3. Paper之EfficientDet: 《Scalable and Efficient Object Detection—可扩展和高效的目标检测》的翻译及其解读—续篇

    Paper之EfficientDet: <Scalable and Efficient Object Detection-可扩展和高效的目标检测>的翻译及其解读 导读:2019年11月21 ...

  4. Paper之EfficientDet: 《Scalable and Efficient Object Detection—可扩展和高效的目标检测》的翻译及其解读

    Paper之EfficientDet: <Scalable and Efficient Object Detection-可扩展和高效的目标检测>的翻译及其解读 导读:2019年11月21 ...

  5. EfficientDet: Scalable and Efficient Object Detection---论文阅读(1)

    Google最新的目标检测方法,目前应该是最快最好的深度学习目标检测器,优于YOLOv3.Mask R-cnn,能实现高帧率,低FLOPS运算.本文对该论文整体进行大致的整理. Abstract Bi ...

  6. Object Detection(目标检测神文)

    目标检测神文,非常全而且持续在更新.转发自:https://handong1587.github.io/deep_learning/2015/10/09/object-detection.html,如 ...

  7. Object Detection经典代码与文章

    转载自Object Detection Papers Deep Neural Networks for Object Detection paper: http://papers.nips.cc/pa ...

  8. 目标检测经典论文——R-FCN论文翻译(中英文对照版):Object Detection via Region-based Fully Convolutional Networks

    目标检测经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为纯中文版,中英文对照版请稳步:[R-FCN纯中文版] R-FCN: Object Detection via Regio ...

  9. 目标检测-- DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling

    DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling ICCV2017 An easily extended ...

最新文章

  1. Spring Cloud构建微服务架构—服务消费Ribbon
  2. SAP Cloud for Customer使用工作流(workflow)实现邮件自动通知功能
  3. 没有动任何配置文件,今天就出现了修改的JSP内容在页面不体现。依然是老的页面内容...
  4. 合成孔径雷达_合成孔径雷达(SAR)基础:汇总
  5. 月薪23333元!淘宝招募“首席鉴雕官”,只需天天哈哈哈哈哈
  6. c++ time.h 用法
  7. python中kmeans怎么导入数据集_通过Python实践K-means算法
  8. w8的计算机管理打不开,Win8.1系统打不开控制面板怎么办 win8.1无法打开控制面板如何解决...
  9. Android 键盘映射
  10. 关于KDIFF3的使用
  11. cocos creator全局开关音效设置之静音开关
  12. tkinter运行时出现无响应问题
  13. 我在印尼工作的日子-基本环境
  14. 随记 C#读取TXT文件乱码
  15. Rockchip 休眠唤醒 开发指南
  16. JavaScript提取非行间样式
  17. Kumo的目标是让你离不开它!
  18. 2022年数维杯国际大学生数学建模挑战赛C题如何利用大脑结构特征和认知行为特征诊断阿尔茨海默病解题过程
  19. saoml流控开心版补丁
  20. 使用变量时,单引号、双引号、反向单引号的区别

热门文章

  1. 小白也能理解的MTCNN(上)
  2. 自助建站系统完美教程
  3. 视频教程-【吴刚】UI扁平化图标设计初级入门标准教程-UI
  4. 10.23T3 杨辉三角上做莫队
  5. 题353.2022暑期天梯赛训练-7-10 银行排队问题之单队列多窗口服务 (25 分)
  6. 陀螺仪误差分析与选型
  7. PAT乙级卡拉兹(Callatz)猜想
  8. WDK学习笔记第一周
  9. (转)最新谷歌浏览器无法启用扩展程序问题
  10. 往企业家蜕变的过程中该如何拥抱失败 9 - 有所为而有所不为