论文提出PConv为对特征金字塔进行3D卷积,配合特定的iBN进行正则化,能够有效地融合尺度间的内在关系,另外,论文提出SEPC,使用可变形卷积来适应实际特征间对应的不规律性,保持尺度均衡。PConv和SEPC对SOTA的检测算法有显著地提升 ,并且没有带来过多的额外计算量

来源:晓飞的算法工程笔记 公众号

论文: Scale-Equalizing Pyramid Convolution for Object Detection

  • 论文地址:https://arxiv.org/pdf/2005.03101.pdf
  • 论文代码:https://github.com/jshilong/SEPC

Introduction


  特征金字塔是解决物体尺度问题的重要手段,但是不同level的特征图其实存在较大的语义差距。为了消除这些语义差距,很多研究专注于如何加强特征的融合,但这些研究大都直接将特征图缩放相加,没有很好地考虑特征金字塔的内在属性。受尺度空间理论(多尺度提取特征点)的启发,论文提出PConv(pyramid convolution),使用3-D卷积来关联相近的特征图,挖掘尺度间的相互作用。考虑到特征金字塔的层间特征变化较大,层间各点的对应无规律,论文提出SEPC(scale-equalizing pyramid convolution)对特征金字塔的高层特征进行可变形卷积,能够自适应实际的尺度变化,保持层间尺度均衡。
  论文的主要贡献如下:

  • 提出轻量级金字塔卷积PConv,对特征金字塔进行3-D卷积来挖掘内在尺度的关联性。
  • 提出尺度均衡的金字塔卷积SEPC来减少特征金字塔与高斯金字塔间差异(论文证明了PConv在高斯金字塔上具有尺度不变性)。
  • 该模块能够提升SOTA single-stage目标检测算法的性能,而且几乎不影响推理速度。

Pyramid convolution


  PConv(pyramid convolution)其实是个3-D卷积,横跨尺度和空间维度,如图4a所示,PConv可表示为N个不同的2-D卷积。

  但不同pyramid level的特征图大小是不同的,为了容纳不同的尺寸,在PConv在处理不同的特征图时使用不同的stride,论文采样N=3N=3N=3,首个卷积核的stride为2,最小的的卷积核的stride为0.5。

  PConv可表示为公式1,w1w_1w1​、w0w_0w0​和w−1w_{-1}w−1​为3个独立的2-D卷积核,xxx为输入的特征图,∗s2*_{s2}∗s2​代表stride为2的卷积核。

  stride为0.5的卷积核先对特征图双线性上采样2倍,再用stride为1的卷积核进行处理。PConv也使用zero-padding,对于底层和顶层的pyramid level仅需使用公式2的其中两项即可,PConv的计算量大约为原始FPN的1.5倍。

Pipeline

  如图5a所示,RetinaNet可看作是N=1N=1N=1的PConv,将4个Conv head替换成N=3N=3N=3的PConv head,堆叠的PConv能够有效地逐步提高相关性,而且不会带来过多的额外计算。但为了尽可能减少计算量,可以选择分类和定位分支先共享4层PConv,再额外分别添加一层普通卷积层,如图5b所示,这样设计的计算量甚至比原生的RetinaNet还要少,具体计算可以看原文Appendix 1。

Integrated batch normalization (BN) in the head

  PConv使用共享的BN层,统计feature pyramid中所有特征图,而不是单图统计。由于统计来自于pyramid内所有的特征图,方差会变得更小。这样,即使使用很小的batch size也可以很好地训练BN层(方差较稳定)。

Scale-equalizing pyramid convolution


  PConv对于不同的level都使用固定的卷积核大小,在高斯金字塔上(模糊程度不严重且高斯核接近特征图缩放比例),PConv能够提取尺度不变的特征,具体证明可以看原文Appendix 3。
  但实际中,由于多层卷积和非线性操作的存在,特征金字塔的模糊程度比高斯金字塔要严重得多(特征的缩放程度可能跟特征图大小不成比例),使用固定的卷积核大小很难提取尺度不变的特征。为此,论文提出SEPC(scale-equalizing pyramid convolution),对除最底层外的高层特征使用可变形卷积,单独预测一个offset,能够自适应各层的模糊程度,保持特征图间的尺度均衡,从而提取尺度不变的特征。
  SEPC主要有以下好处:

  • 可变形卷积的自适应性能够处理特征金字塔较大的层间模糊程度。
  • 消除特征金字塔与高斯金字塔间的差异(论文证明PConv能够对高斯金字塔提取特征不变的特征)。
  • 由于高层特征的卷积计算量相对于低层减少了4倍(面积减少),对高层加入可变形卷积仅带来少量额外的计算量。

  SEPC分为两个版本,SEPC-full对图5b的Combined head和Extra head加入SEPC,而SEPC-lite则仅对Extra head加入SEPC。

Experiments


Single-stage object detectors

Effect of each component

Comparison of different BN implementations in the head

  BN层的输出y=γx−μσ+βy=\gamma \frac{x-\mu}{\sigma} + \betay=γσx−μ​+β,γ\gammaγ和β\betaβ为参数,μ\muμ和σ\sigmaσ为统计结果,图7的三种BN的对比,其中Integrated BN(iBN)为论文提出的共享BN,全部参数和统计共享

Comparison with other feature fusion modules

Comparison with state-of-the-art object detectors

Extension to two-stage object detectors

CONCLUSION


  论文提出PConv为对特征金字塔进行3D卷积,配合特定的iBN进行正则化,能够有效地融合尺度间的内在关系,另外,论文提出SEPC,使用可变形卷积来适应实际特征间对应的不规律性,保持尺度均衡。PConv和SEPC对SOTA的检测算法有显著地提升,并且没有带来过多的额外计算量。



如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

SEPC:商汤提出使用3D卷积从FPN中提取尺度不变特征,涨点神器 | CVPR 2020相关推荐

  1. SEPC:使用3D卷积从FPN中提取尺度不变特征,涨点神器 | CVPR 2020

    作者 | VincentLee 来源 | 晓飞的算法工程笔记 公众号  特征金字塔是解决物体尺度问题的重要手段,但是不同level的特征图其实存在较大的语义差距.为了消除这些语义差距,很多研究专注于如 ...

  2. CVPR 2020丨8比特数值也能训练模型?商汤提出训练加速新算法

    本文转自AI科技评论. 本文介绍的是CVPR2020入选论文<Towards Unified INT8 Training for Convolutional Neural Network> ...

  3. CVPR2020 | 8比特数值也能训练模型?商汤提出训练加速新算法

    点击上方"AI算法修炼营",选择加星标或"置顶" 标题以下,全是干货 本文转自:商汤科技 计算机视觉顶会CVPR 2020将于6月14日-19日在美国西雅图举行 ...

  4. 【AI周报】AI与冷冻电镜揭示「原子级」NPC结构;清华、商汤提出「SIM」方法兼顾语义对齐与空间分辨能力

    01 # 行业大事件 施一公等团队登Science封面:AI与冷冻电镜揭示「原子级」NPC结构,生命科学突破 今日,<Science>杂志以封面专题的形式发表了 5 篇论文,共同展现了通过 ...

  5. CVPR 2020 |商汤提出应对尺度变化的目标检测新算法

    在CVPR 2020上,为了更好的解决物体检测中的尺度问题,商汤EIG算法中台团队重新设计了经典的单阶段检测器的FPN[1]以及HEAD结构,通过构造更具等变性的特征金子塔,以提高检测器应对尺度变化的 ...

  6. 三维网格精简算法java版_ISMAR 2020 | 商汤提出手机端实时单目三维重建系统

    导读:商汤研究院和浙江大学CAD&CG国家重点实验室合作研发了一个手机端实时单目三维重建系统Mobile3DRecon.与现有的基于RGBD的在线三维重建或离线生成表面网格的系统不同,该系统结 ...

  7. AAAI 2021 | 商汤提出BSN++: 时序动作提名生成网络

    摘要 · 看点 在 AAAI 2021 上,商汤科技城市计算研发团队提出了基于互补边界回归和尺度平衡交互建模的时序动作提名生成网络(BSN++),针对现有方法存在大量边界噪声.缺乏提名之间的关系建模以 ...

  8. CVPR 2021 | 商汤提出最强时序动作提名修正网络:TCANet

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:商汤学术 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 摘 ...

  9. 商汤提出手机端实时单目三维重建系统,实现逼真AR效果和交互

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源:商汤泰坦公开课 摘要 · 看点 商汤研究院和浙江大学 CAD&CG 国家重点实验室合作研 ...

最新文章

  1. 小学教师计算机国培培训总结,小学教师国培个人研修总结
  2. SSIS - 5.优先约束
  3. android listview item 圆角,ListView圆角 实现方法(一)
  4. Javascript Patterns--读书笔记8 (Factory)
  5. 用Gogland开发Go程序
  6. hpuoj--校赛--与学妹滑雪(最短路+精度判断)
  7. 在.NET中执行Async/Await的两种错误方法
  8. qt获取QString中第一个汉字
  9. 现代偏微分方程第1章预备知识复习题
  10. 【转】VO BO PO 介绍
  11. iOS 控制器View加载顺序详细版
  12. 科研_今天,我们怎么做科研?
  13. 记录|深度学习100例-卷积神经网络(CNN)minist数字分类 | 第1天
  14. android 手机通过蓝牙连接条形码扫描枪后自动断开连接,Android手机(设备)连接扫描枪扫码遇到的问题...
  15. DNS服务器的安装与配置
  16. STM32之EXTI——外部中断
  17. 52单片机蜂鸣器葫芦娃c语言代码,arduino上实现葫芦娃播放
  18. 电脑重装系统后Word表格自动换行的方法
  19. 2018应届毕业生找工作经历
  20. 邮箱验证(验证码验证)

热门文章

  1. 红芯事件:当创新开始变的水土不服
  2. <论文阅读>Inertial-Only Optimization for Visual-Inertial Initialization
  3. RA8875控制寄存器详解
  4. 2022-2027年中国灭火器行业市场调查研究及投资战略研究报告
  5. oracle只存两天的数据,Oracle去重而保存时间最新的数据
  6. 计算机程序设计(c++)第2周编程作业
  7. MyShop-优雅的微信小程序商店
  8. 淘宝美工设计行业发展前景好嘛?做淘宝美工需要掌握什么知识
  9. DBCO-PEG-NHS, 可溶于水,有多种分子量供选择
  10. C语言int search类型,C语言的一些高级议题