前言

特征金字塔是解决多尺度目标检测的有效方式,但是在特征金字塔中,不同层级的特征中所包含的语义信息相差很大,这可能会无法得到最优的检测结果。为了解决这个问题,人们提出了很多不同的特征融合策略,目的是使不同层级的特征图的表示能力保持一致。但是这些方法基本上都是直接将分辨率相同的特征进行相加,没有很好地考虑特征金字塔的内在属性。本文认为,在尺度维度上进行卷积比直接将特征图相加要自然的多。比如在特征金字塔中,尺度相邻的特征图之间应该具有很强的关联性,但目前的特征融合方法并没有考虑这种关联性。基于此,本文提出金字塔卷积PConv(pyramid convolution),PConv是在尺度维度上的3-D卷积,它能够捕获特征金字塔尺度间的相互作用,关联相近的特征图。

除此之外,本文还证明RetinaNet中的head其实是PConv卷积核为1时的一个特例,这样的PConv很适合从高斯金字塔(Gaussian pyramid)中提取尺度不变的特征。那么对于特征金字塔来说如何呢?遗憾的是,特征金字塔与高斯金字塔是不同的,因此需要对PConv做出一些修改,使其能够适应特征金字塔。 本文采取的方式是,固定金字塔底部PConv的内核大小,然后随着内核在尺度维度上的扩展而变形,也就是采用了可变形卷积(deformable convolution)的思想。对PConv的这种修改使其在对特征金字塔的高层进行卷积时,能够通过对齐内核来自适应特征的尺度变化,保持层间尺度均衡,形成尺度均衡的金字塔卷积SEPC(scale-equalizing pyramid convolution)。 SEPC能够从特征金字塔中提取出尺度不变的特征,并且由于可变形卷积仅应用在特征金字塔的高层,因此计算消耗几乎不会增加。


PConv

PConv是横跨尺度和空间维度的3-D卷积,如下图(a)所示,如果将每个层级的特征图表示为一个点,那么PCovn可以表示为NNN个不同的2-D卷积。

不同层级的特征图之间存在大小不匹配的问题,随着层级的升高,特征图的空间大小会随之减小,也就是不同层级的特征图大小是不同的。为了处理不同尺度的特征图,PConv在处理不同的特征图时使用不同的步长。本文设N=3N=3N=3,那么第一个卷积核的步长为2,最后一个卷积核的步长为0.5,最后PConv的输出为:

lll表示特征层级,w1,w0w_1,w_0w1​,w0​和w−1w_{-1}w−1​是三个独立的2-D卷积核,∗s2*_{s2}∗s2​表示步长为2的卷积。其中步长为0.5的卷积需要进一步的处理,具体来说就是,先由步长为1的卷积进行替换,然后再进行双线性上采样,那么式(1)可以被进一步表示为:

对于金字塔中的最底层(l=1l=1l=1)来说,式(2)的最后一项是没有必要的;而对于最顶层(l=Ll=Ll=L)来说,式(2)的第一项是没有必要的。虽然每层都有3个卷积操作,但PConv的总计算量大约为RetinaNet中原始head(FPN)的1.5倍。


如上图(a)所示,RetinaNet head可以看作是N=1N=1N=1的PConv,可以将4个conv head替换为N=3N=3N=3的PConv,堆叠的PConv能够逐渐提升相关性,并且不会带来过多额外的计算消耗。但是每个PConv仍然会引入一些额外的计算,为了尽可能减少计算量,可以让分类分支和定位分支共享这4个PConv,然后为了区分分类任务与定位任务,可以再额外分别添加一个常规卷积层,如上图(b)所示,前面是由分类和定位分支共享的combined head,后面是额外添加的conv。这种设计产生的计算量甚至比原始RetinaNet head的还要少。

另外,PCnov使用共享的BN层,并且收集的是特征金字塔中所有层级的特征图的统计信息,而不是单一层,因此方差会变得很小,尤其是对于尺寸较小的高级特征图。这样,即使用很小的batch size也能够训练BN层。


SEPC

在PConv中,每个层级的2-D卷积核的大小都是一样的,这对于高斯金字塔来说是合理的(模糊程度不严重并且高斯核的大小接近特征图的缩放比例),PConv能够从高斯金字塔中提取尺度不变的特征。如下图(a)所示,在使用N=1N=1N=1的PConv从高斯金字塔中提取特征时,使用大小相同的卷积核就能在不同层级中捕获不同尺度的目标。

但是,使用同样大小的卷积核并不适用于特征金字塔,如上图(b)所示,可以看到,层级较高的特征图的模糊程度要严重的多,这是由于多层卷积以及两个特征图之间的非线性操作的存在。因此使用固定大小的卷积核很难提取尺度不变的特征。为此,本文提出SEPC,借助可变形卷积的思想,直接预测较高层级的卷积核的偏移值。如上图(b)所示,最底层特征图的卷积核大小固定为3×33 \times 33×3,当处理较高层级的特征图时,需要基于当前层预测一个变形偏移(deformation offset),这样的话,高层在使用可变形卷积之后能够自适应不同的模糊程度,保持特征图的尺度均衡,然后就可以接着被PCnov进行卷积操作,从而提取尺度不变的特征。

使用SEPC可以带来以下好处:

  1. 由于可变形卷积的自适应能力,特征金字塔两层间较大的模糊程度得以被解决;
  2. 消除特征金字塔和高斯金字塔之间的差异;
  3. 仅在高层使用可变形卷积不会带来过多的计算消耗。

实验结果

下图是PConv在不同single-stage检测器上的性能,使用的数据集是COCO-minival。可以看到,都较原来有所提升。

下表是PConv与其他特征融合策略的对比。


结论

本文提出的PConv是在特征金字塔上进行尺度和空间维度上的3-D卷积,它能够融合尺度间的关系。在空间维度上,每层的步长是不同的,与每个层级的特征图的大小成正比;在尺度维度上,由于每个层级的特征图的模糊程度是不同的,因此需要借助可变形卷积的思想来调整每层卷积核的大小,也就是SEPC,它可以使特征图的尺度保持均衡,从而提取尺度不变的特征。

Scale-Equalizing Pyramid Convolution for Object Detection 论文笔记相关推荐

  1. Feature Pyramid Networks for Object Detection 论文笔记

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/Jesse_Mx/article/details/54588085 论文地址:Feature Pyra ...

  2. Scale-Equalizing Pyramid Convolution for Object Detection论文阅读

    摘要 特征金字塔是一种提取不同尺度特征的有效放法.该方法的发展主要集中在不同层次的上下文融合,而很少涉及特征金字塔的层间相关性. 早期的计算机视觉方法通过定位空间与尺度维度上的特征极值来提取尺度不变特 ...

  3. Feature Pyramid Networks for Object Detection论文翻译——中英文对照

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 翻译论文汇总:https://github.com ...

  4. Feature Pyramid Networks for Object Detection论文翻译——中文版

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 翻译论文汇总:https://github.com ...

  5. CVPR2020-SEPC-单阶段目标检测提升4个点 | Scale-Equalizing Pyramid Convolution for Object Detection

    启发应该是来源于SIFT中高斯金字塔带来的尺度不变性.论文出来很久了,感觉的确创新点很强,效果也是爆炸! 论文地址:http://openaccess.thecvf.com/content_CVPR_ ...

  6. PointAugmenting: Cross-Modal Augmentation for 3D Object Detection论文笔记

    PointAugmenting: Cross-Modal Augmentation for 3D Object Detection(point-level fusion) CVPR2021 1.摘要+ ...

  7. Towards High Performance Video Object Detection论文笔记

    这篇文章可以说是很牛逼的又快有准的文章,对比之前的这个团队的deep feature fow(快)和Flow-guided feature aggregation(准),这篇文章可以说是又快又准.但是 ...

  8. (IoU-Net)Acquisition of Localization Confidence for Accurate Object Detection 论文笔记

    前言 在大部分目标检测方法中,分类和定位的处理方法是不同的.给定一个proposal,预测的每个类标签的概率就作为这个proposal的分类置信度(classification confidence) ...

  9. [2017CVPR]Mimicking very efficient network for object detection 论文笔记

    目录 出发点 Method 总结 出发点 作者的出发点是,现有的检测backbone都是分类那边过来的,但是这些网络分类效果好,检测不一定就是最好的.假如我想要设计并找到一个更有效的网络,我们都需要预 ...

最新文章

  1. Spring AOP源码分析(六)Spring AOP配置的背后
  2. java读取Properties文件及赋值
  3. visio中UML在活动图中指示判定
  4. Tomcat相关目录及配置文件总结
  5. GitHub上Java的Bloom Bloom实现
  6. 那些年,在nodejs上踩过的坑
  7. Linux学习之打印进程树
  8. python控制语句_Python流程控制语句
  9. HTML设置不生效的原因,CSS中hover出现不生效的几个原因 ?
  10. 如何批量处理Word中的图片大小
  11. Spring Aop(八)——advisor标签
  12. 匿名内部类使用外面的类为什么要用final型
  13. AD2017破解步骤
  14. 无线Wi-fi中继设置
  15. 陈玉琴老师的中医理学
  16. 计算机网络信息安全毕业设计题目,网络信息安全系统毕业设计
  17. google广告分类
  18. php 刮奖,php抽奖概率算法(刮刮卡,大转盘),抽奖刮刮卡_PHP教程
  19. 计算机经常无法打印机,为什么我电脑连接打印机老是出现这种情况~重启也不行...
  20. 算例在线帮 | 某型无厚度翅片水冷板散热的Fluent仿真分析

热门文章

  1. python+django口腔牙诊所管理系统nodejs+vue+elementui
  2. 华为手机通过adb安装APK提示“签名不一致,该应用可能已被修改”
  3. eap方法 华为手机怎么连wifi_安卓手机如何接入公司网络的wifi设置步骤
  4. 科讯CMS--使用sql标签在商品内容页调用品牌详情,如品牌名称,图片,介绍等...
  5. 以下关于linux文件系统中inode,linux文件系统—inode及相关概念.docx
  6. mac python3_mac安装python3和homebrew
  7. js 日期加一年_?Day.js 2KB时间库 和Moment.js一样的API
  8. 计算机电源的输出电压包括,计算机电源的基础知识简介
  9. J-Link弹出The connected J-Link is defective解决方法
  10. Go实现md2亿次加密