论文地址:https://arxiv.org/abs/2103.10643

CE-FPN

  • 介绍和相关工作
  • 方法
    • 子像素跳跃融合
    • 子像素上下文增强
    • 通道注意力指导模块
  • 实验

介绍和相关工作

目前的检测器中,FPN是一个关于多尺度的问题的良好解决方法。FPN中通过从高层像底层的语义信息传播来构建多尺度特征图,通过融合浅层表示和深层语义,基于FPN的检测方法提升明显。

但是FPN存在两个明显的问题:

  1. 特征融合时的信息衰减
  2. 跨尺度融合时的混叠效应

下图(a)为传统的FPN,采用1X1卷积来减少输出特征CiC_iCi​的通道维度,间接损失了通道信息。例如从2048通道到256通道时,高层特征图的信息被大幅减少了。(b),(c)两种方法为了减少通道损失带来的影响做了改进,而非直接利用CiC_iCi​,并且通过实验侧面证明了这种可以提高检测的结果。

底层和高层的信息对于检测是相互补充的,而自上而下的特征融合过程中这些信息也会被稀释。PAFPN提出了新颖的融合方法来充分利用每层特征。尽管如此,高层语义特征的表示能力也为充分利用于大的感受野。

并且不同层的语义信息可能存在区别,直接使用差值的方法进行跨尺度融合可能会造成混叠的问题。混杂的综合特征可能会混淆定位和识别任务。受Non-local注意力的启发,可以用注意力来设计优化融合后的混叠特征,增强辨别性。

本篇论文,作者就提出了新颖的成分来解决以上问题。

首先,受子像素卷积的启发,提出了一个子像素跳跃融合方法,充分利用原始跨尺度backbone输出的丰富通道信息(图1(d))。

其次提出了一个子像素级的上下文增强模型用于对更高级别的特征图进行提取和整合不同的上下文信息。子像素卷积是先为低分辨率图片增加通道维度后进行一个上采样的方法,对于FPN高层以及有足够的通道信息,可以直接进行子像素卷积。相较于直接使用1X1卷积上采样,能够减少通道的损失。

最后,提出了一个简单有效的通道增强模块,优化最终每层整合的特征,只有一点点的计算力,可以缓解混叠问题。

作者将整个模型成为CE-FPN,用于替代FPN,并且取得了很好的成绩。

方法

总体框架如下,CE-FPN获得四级特征,表示为{C2,C3,C4,C5}\{C_2, C_3, C_4, C_5\}{C2​,C3​,C4​,C5​},分别相较于原图的{4,8,16,32}\{4, 8, 16, 32\}{4,8,16,32}缩放。{F2,F3,F4}\{F_2, F_3, F_4\}{F2​,F3​,F4​}为通过1X1卷积获得的256维通道的特征。特征金字塔{P2,P3,P4}\{P_2, P_3, P_4\}{P2​,P3​,P4​}通过FPN中的自上而下的方法获得,未加入FPN中语义特征最高级别的F5F_5F5​和P5P_5P5​,因为重复的特征融合不仅会造成更严重的混叠效果,而且会造成不必要的计算负担。通过差值和最大池化获得整合图III,检测在模型获得的最终结果{R2,R3,R4,R5}\{R_2, R_3, R_4, R_5\}{R2​,R3​,R4​,R5​}执行,代替FPN的输出结果。

子像素跳跃融合

FPN中,使用残差网络作为backbone获得输出通道数{256,512,1024,2048}\{256,512,1024,2048\}{256,512,1024,2048}输出结果,高层特征{C4,C5}\{C_4,C_5\}{C4​,C5​}包含丰富的语义信息。如下图(a),通过1X1卷积来减少CiC_iCi​通道维度但是会造成通道信息丢失,最近的基于FPN的工作致力于充分利用PIP_IPI​,但是对于CiC_iCi​没有充分利用。

基于此,通道信息更丰富的{C4,C5}\{C_4,C_5\}{C4​,C5​}可以用来改善最终特征金字塔的结果。利用子像素卷积,通过对通道维度的像素进行移动,增强宽和高的维度信息。将原本大小为H×W×C⋅r2H×W×C·r^2H×W×C⋅r2的特征图变为rH×rW×CrH×rW×CrH×rW×C:
rrr表示上采样因子,FFF为输入特征,PS(F)x,y,c\mathcal {PS}(F)_{x,y,c}PS(F)x,y,c​表示坐标(x,y,c)(x,y,c)(x,y,c)的输出特征。

如提上图(b)所示,低分辨率图像通道需要首先被增加后使用子像素卷积进行上采样,高分辨率图像不需要。{C4,C5}(1024,2048)\{C_4,C_5\}(1024,2048){C4​,C5​}(1024,2048)通道数足够进行子像素卷积。引入子像素跳跃融合(SSF)来进行不减少通道的情况下上采样低分辨率图像进行特征融合(上图©)。SSF将{C4,C5}\{C_4,C_5\}{C4​,C5​}组合进FiF_iFi​:

φφφ表示1X1卷积减少通道维度,iii代表特征金字塔索引级别。φˉ\bar φφˉ​表示通道变换。子像素卷积的因子rrr设为2,用于扩大两倍空间维度进行融合。φˉ\bar φφˉ​使用1X1卷积或者分离操作改变通道维度,进行两倍子像素上采样。若通道维度符合要求,φˉ\bar φφˉ​执行映射。然后通过和FPN中相同的元素级求和和最近邻上采样,通过FiF_iFi​获得PiP_iPi​。SSF同时实现上采样和通道融合,利用高级别特征{C4,C5}\{C_4,C_5\}{C4​,C5​}的通道信息来增强特征金字塔表示能力。

然后SSF可以认为是C5C_5C5​到F4F_4F4​和C4C_4C4​到F3F_3F3​的两个额外连接,通过同时进行上采样和通道融合,利用{C4,C5}\{C_4,C_5\}{C4​,C5​}增强特征金字塔表示能力。

子像素上下文增强

在FPN结构中,低级的特征最终会整合不同语义特征获得不同的上下文信息,而高级别特征不会,只包含单一尺度,为从低级语义特征中获利。并且高分辨率的输入图片需要神经元拥有大的感受野来捕捉大的目标的信息。为解决这两个问题,作者提出了一个子像素上下文增强(SCE)来在C5C_5C5​上使用更大的感受野探索更多的语义信息。提取的上下文信息组合进III,SCF是延续SSF的设计思想,来丰富C5C_5C5​通道信息。

SCE的主要思想是利用大范围局部信息和全局上下文信息产生更具辨别性的特征。假设输入图C5C_5C5​为2w×2H×8C2w\times 2H\times 8C2w×2H×8C,输出整合后的特征4w×4h×C4w\times 4h\times C4w×4h×C,C=256C=256C=256,实现如下图:

最终获得的特征图通过像素级加法整合进特征图III。通过三种缩放拓展特征表示,SCE有效的过大了C5C_5C5​的感受野,微调了III的表示能力。由此FPN中最高处信息被充分利用,节点F5F_5F5​和P5P_5P5​就可以去除。

通道注意力指导模块

为了减轻混叠的负面影响,一个直观的解决方案是在特征金字塔上开发注意模块。然而,在金字塔的每一层执行独立的注意力模块是计算昂贵的,因为一些检测器采用6级金字塔甚至更多。并且期望不同层次的注意机制能够从其他层次的信息中学习,由此作者提出了通道注意力指导模块(CAG)指导金字塔去消除重叠影响。CAG只通过整合图III提取通道权重,然后乘以不同的输出特征。

如上图所示,首先通过全局平均池化和最大池化分别聚合获得两个不同空间上下文信息,然后分别送入FC层,通过像素级别的求和和一个sigmoid函数获得最终的通道注意力:

CA(x)CA(x)CA(x)代表通道注意力函数,σσσ代表sigmoid函数,iii代表金字塔级别索引。(结合公式感觉pipline图画错了…)

实验

CE-FPN: Enhancing Channel Information for Object Detection相关推荐

  1. FPN:feature pyramid networks for object detection

    论文:feature pyramid networks for object detection 论文链接 论文概述: 作者提出的多尺度的object detection算法:FPN(feature ...

  2. (FPN)Feature Pyramid Networks for Object Detection

    摘要 特征金字塔是识别系统中用于检测不同尺度目标的基本组件.但最近的深度学习目标检测器已经避免了金字塔表示,部分原因是它们是计算和内存密集型的.在本文中,我们利用深度卷积网络内在的多尺度.金字塔分级来 ...

  3. object detection

    原地址:https://handong1587.github.io/deep_learning/2015/10/09/object-detection.html Object Detection Pu ...

  4. Object Detection(目标检测神文)

    目标检测神文,非常全而且持续在更新.转发自:https://handong1587.github.io/deep_learning/2015/10/09/object-detection.html,如 ...

  5. Object Detection经典代码与文章

    转载自Object Detection Papers Deep Neural Networks for Object Detection paper: http://papers.nips.cc/pa ...

  6. Feature Pyramid Networks for Object Detection 总结

    最近在阅读FPN for object detection,看了网上的很多资料,有些认识是有问题的,当然有些很有价值.下面我自己总结了一下,以供参考. 1. FPN解决了什么问题? 答: 在以往的fa ...

  7. 论文阅读笔记三十三:Feature Pyramid Networks for Object Detection(FPN CVPR 2017)

    论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要 特征金字塔是用于不同尺寸目标检测中的 ...

  8. 两阶段3D目标检测网络 SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud

    本文介绍一篇两阶段的3D目标检测网络:SIENet. 这里重点是理解本文提出的 Hybrid-Paradigm Region Proposal Network 和 Spatial Informatio ...

  9. 【深度学习】FPN(特征金字塔)简介:Feature Pyramid Networks for Object Detection

    [深度学习]FPN(特征金字塔):Feature Pyramid Networks for Object Detection 提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论 博文 ...

  10. 【论文阅读】【三维目标检测】BirdNet: a 3D Object Detection Framework from LiDAR Information

    文章目录 BirdNet 数据预处理 处理网络 后处理 实验 评价 BirdNet: a 3D Object Detection Framework from LiDAR Information 西班 ...

最新文章

  1. 百度关键词研究: 应避免的5个错误!
  2. 【C#】【APK】APK文件解析AXML-层层深入APK文件解析之一
  3. Zookeeper知识学习
  4. IE8下submit表单没反应
  5. Python学习之urlib模块和urllib2模块学习
  6. Express + Element-ui 实现图片/文件上传
  7. vue.js单页面应用实例
  8. 【HDU - 3466 】Proud Merchants(dp,背包问题,巧妙排序)
  9. python网络爬虫系列(三)——cookie的原理、保存与加载
  10. 鸿蒙系统的升级名单,定档6月2日!鸿蒙“首批”升级名单公布,共计11款华为机型!...
  11. grid++中打印表格时怎么让每页有打印表头_一张表学习EXCEL(七):打印也有方法...
  12. pdfFactory 7PDF 虚拟打印机官方注册码版下载
  13. 山东济南计算机比赛,第十二届齐鲁软件大赛及首届济南市计算机科技奖颁奖盛典举行...
  14. Vision Transformer综述翻译
  15. Collections、Set、Map、斗地主排序
  16. tfidf关键词提取_基于深度学习的个性化商品评论标签提取
  17. 用计算机亩换算成平方,亩换算平方(平方米换算亩计算器)
  18. 如何解决mac拔掉耗电量太大的设备以重新启用usb设备
  19. 浙江大学招生目录新增一整个联合学院,包含人工智能,计算机专硕!
  20. suds对接web service

热门文章

  1. 485集线器,485Hub、485分配器、485共享器、三级浪涌保护,485星型接法设备 1拖4...
  2. 集合(Collection)的详细笔记
  3. WhatsApp使用教程
  4. DVB-S/S2天线及信号相关知识
  5. 使用两个路由器级连实现共用一个宽带
  6. 机器学习、深度学习、神经网络还傻傻分不清吗?
  7. NameSilo域名解析管理工具
  8. 【技能图谱免费下载】进阶数据库工程师 你需要Get这些技能
  9. 网站PHP框架之Laravel5.5(十一)数据库版本控制数据迁移工具migration详解
  10. 2022年G1工业锅炉司炉考试试题及答案