简介

目前密集目标检测器很受欢迎,其速度很快且精度不低,不过这种这种基于点的特征虽然使用方便,但会缺少关键的边界信息。旷视于 ECCV2020 发表的这篇 BorderDet,其中的核心就是设计了 Border Align 操作来从边界极限点提取边界特征用于加强点的特征。以此为基础设计了 BorderDet 框架,该框架依据 FCOS 的 baseline 插入 Border Align 构成,其在多个数据集上涨点明显。Border Align 是适用于几乎所有基于点的密集目标检测算法的即插即用模块。

  • 论文标题

    BorderDet: Border Feature for Dense Object Detection

  • 论文地址

    https://arxiv.org/abs/2007.11056

  • 论文源码

    https://github.com/Megvii-BaseDetection/BorderDet

介绍

目前大多数 point-based 的目标检测算法(如 SSD、RetinaNet、FCOS 等方法)都使用特征图上的 single-point 进行目标的回归和分类,但是,single-point 特征没有足够的信息表示一个目标实例,主要是因为缺乏边界信息。此前有很多方法来补充 single-point 的表示能力,但是这些方法往往带来较大计算量的同时并没有引入太多有用的信息,反而带来一些无用的背景信息。这篇文章设计了新的特征提取操作 BorderAlign 来直接利用边界特征优化 single-point 特征,以 BorderAlign 为拓展配合作为 baseline 的 FCOS,提出新的检测框架 BorderDet,实现 SOTA。

本文的贡献文中列了不少,但在我看来,只有一个核心:分析密集目标检测器的特征表示,发现边界信息对 single-point 特征的重要性,并设计了一个高效的边界特征提取器 BorderAlign。 其他的贡献都是顺理成章的附属产物。

BorderAlign

BorderAlign 的提出是基于大量的实验对比的,我这边就按照作者的思路来进行阐述。首先,采用如上图不同的特征增强方式在 FCOS 的基础上评估效果,结果如下表,根据效果最好的二四两行,发现,只使用边界上中心点做增强效果媲美 region-based 的方法。因此,得出结论,point-based 方法做目标检测确实缺乏完整的目标特征,但从完整的边界框中密集提取特征是没必要且冗余的,高效的边界特征提取策略可以获得更好的特征增强效果。

针对上述结论,一种高效显式自适应提取边界特征的方法,BorderAlign 被提出。如下图所示,一个5C5C5C的 border-sensitive 特征图作为输入,其中4C4C4C维度对应边界框的四条边,另外CCC维度对应原始 anchor 点的特征。对于一个 anchor 点预测的边界框,对其四个边界在特征图上的特征做池化操作,由于框的位置是小数,所以采用双线性插值取边界特征。

这里具体的实现如下:假设输入的 5 个通道表示(single point, left border, top border, right border, bottom border),那么对 anchor 点(i,j)(i, j)(i,j)对应的 bbox 各边均匀采样NNN个点,NNN默认是 5,如下图所示。采样点的值采用上面所说的双线性插值,然后通过逐通道最大池化得到输出,每个边只会输出值最大的采样点,那么每个 anchor 点最后采用 5 个点的特征作为输出,所以输出也是5C5C5C维度的。

输出特征图相对输入特征图,各通道计算式如下,(x0,y0,x!,y1)(x_0, y_0, x_!, y_1)(x0​,y0​,x!​,y1​)为 anchor 点预测的 bbox。

显然,BorderAlign 是一种自适应的通过边界极限点得到边界特征的方法。文章中对其进行了一些可视化工作,下图所示的边上的小圆圈是边界极限点,大圆圈是不同 channel 上预测的边界极限点。

BAM(Border Alignment Module)

该模块用于修正粗糙的 detection 结果,因而必须保证输入输出是同维张量,而其中的 BorderAlign 需求的是 5 个通道,所以必然要经历降维、特征增强、升维的过程,为了验证 border feature 的效果,BAM 采用 1x1 卷积实现维度变换。

BorderDet

上图的框架采用 FCOS 作为 baseline,上面是分类分支,下面是回归分支,coarse cls score 和 coarse box reg 表示 FCOS 的输出。在四个卷积层后引出一个分支做 BorderAlign 操作,也就是进入 BAM 模块,该模块需要 bbox 位置信息,所以看到 coarse box reg 送入两个 BAM 中。最终这两个 BAM 预测得到 border cls score 和 border box reg,和检测器原始输出组合变为最终输出。

最后补充一点,BorderDet 在推理时对两种分类结果进行直接的相乘输出,而对于 bbox 定位则使用 border 定位预测对初步定位的 bbox 进行原论文中公式(2)的反向转换,对所有的结果进行 NMS 输出(IOU 阈值设置为 0.6)。

实验

论文进行了非常丰富的消融实验以对比 BorderAlign 的效果。

各分支效果

相比其他特征增强效果

和其他经典的特征增强手段相比,BorderAlign 在速度(使用 CUDA 实现了 BorderAlign)和精度上都有突破。

集成到检测器涨点效果

有比较明显的改进。

和主流检测器对比

可以看到,即使不使用多尺度策略,BorderDet 和当前 SOTA 相比效果也是不遑多让的。

总结

边界信息对于 OD 问题十分重要,BorderDet 的核心思想 BorderAlign 高效地将边界特征融入到目标预测中,而且能够 PnP 融入到各种 point-based 目标检测算法中以带来较大的性能提升。

参考文献

[1]Qiu H, Ma Y, Li Z, et al. BorderDet: Border Feature for Dense Object Detection[J]. arXiv preprint arXiv:2007.11056, 2020.

[2]https://zhuanlan.zhihu.com/p/163044323

BorderDet论文解读相关推荐

  1. 自监督学习(Self-Supervised Learning)多篇论文解读(下)

    自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等 ...

  2. 自监督学习(Self-Supervised Learning)多篇论文解读(上)

    自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题.所以 ...

  3. 可视化反投射:坍塌尺寸的概率恢复:ICCV9论文解读

    可视化反投射:坍塌尺寸的概率恢复:ICCV9论文解读 Visual Deprojection: Probabilistic Recovery of Collapsed Dimensions 论文链接: ...

  4. 从单一图像中提取文档图像:ICCV2019论文解读

    从单一图像中提取文档图像:ICCV2019论文解读 DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regressi ...

  5. 点云配准的端到端深度神经网络:ICCV2019论文解读

    点云配准的端到端深度神经网络:ICCV2019论文解读 DeepVCP: An End-to-End Deep Neural Network for Point Cloud Registration ...

  6. 图像分类:CVPR2020论文解读

    图像分类:CVPR2020论文解读 Towards Robust Image Classification Using Sequential Attention Models 论文链接:https:// ...

  7. CVPR2020论文解读:手绘草图卷积网络语义分割

    CVPR2020论文解读:手绘草图卷积网络语义分割 Sketch GCN: Semantic Sketch Segmentation with Graph Convolutional Networks ...

  8. CVPR2020论文解读:3D Object Detection三维目标检测

    CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...

  9. CVPR2020论文解读:三维语义分割3D Semantic Segmentation

    CVPR2020论文解读:三维语义分割3D Semantic Segmentation xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3D ...

最新文章

  1. 思科3750开启策略路由功能
  2. Ubuntu 调试的时候,不能查看变量值
  3. linux elf命令,linux strings 命令——ELF文件格式与“链接和装载”
  4. JS魔法堂:doctype我们应该了解的基础知识
  5. linux nc命令用法举例
  6. 【收藏】如何避免everything每次都重建索引
  7. 数据结构34:二叉树前序遍历、中序遍历和后序遍历
  8. vue结合ueditor富文本编辑器(换肤分离)
  9. @Async join
  10. 【转】电脑GPS导航软件下载,教你把笔记本做成GPS
  11. CentOS 8 安装 Docker  报错  requires containerd.io >= 1.4.1, but none of the providers can be installed
  12. 网络(6)-TCP/IP对拥塞控制、滑动窗口如何实现可靠性?
  13. vue的实例属性$options
  14. LeetCode Search a 2D Matrix
  15. python求解非递减排序的数组的一个旋转的最小元素
  16. 计算机毕业设计 SSM+Vue教师考核系统 教师绩效考核系统 学校教师考核系统 教师绩效考核管理系统Java Vue MySQL数据库 远程调试 代码讲解
  17. mysql 认证介绍,MySQL认证介绍 (转帖)
  18. the info.plist in the package must contain the CFBundleShortVersionString key.
  19. Photoshop使用技巧
  20. 杨永智:创业者需具备的六大基因 五大攻略(下)

热门文章

  1. MyBatis 缓存详解-一级缓存的不足
  2. SpringMVC的请求-文件上传-客户端表单实现
  3. Request_获取请求头数据
  4. MyBatis使增删改不刷新二级缓存
  5. SpringBoot回顾
  6. Ribbon-3使用配置文件自定义Ribbon Client
  7. Bootstrap组件_巨幕,页头,缩略图
  8. 对原生ajax的理解
  9. 按键改变元素背景颜色 链式编程的原理 评分案例 each方法的使用
  10. 线程池 Executors2