Introduction & problem

目前主流的SSD,RetinaNet,FCOS的目标检测主要的pipleline就是在多尺度的特征图上做分类和回归,而这种single-point(直接对特征图点),并不能有足够多的信息去完整表达实例以及实例的边界信息。 之前也有很多work比如说roialign 或者deformable Conv 也是利用了bounding box 里边的其他的信息,但是往往许多是冗余的,不是显式的或者不直接。之前没有工作是显式的直接提取边界的特征信息。

自己的理解:之前就是预测出来的框直接是结果了,只是用了特征图上该点的信息。那么输出出来的这个框中的有效信息还能不能再利用呢?显然是可以的,但是怎么去利用是一个关键,对于细节的定位来说去找到边界的信息直观上是很重要的,然后拿到边界的特征信息再作用回生成该框的特征图的对应点,就相当于对信息的又一次利用,再去那这个加强后的点去预测。这个过程就对应于文章的singer point inhancement.

Motivation

首先通过FCOS为pipleline做了一系列的实验证实,通过对bounding box区域特征的提取enhancement singer point的方法确实work,如下图。

增强的方法就对bounding box 进行采样,然后根据不同的采样方法进行特征提取(取最大值)通过add操作到singer point,就不仅仅有之前网络提取的特征,还有对应的bounding box的更加细节特征,发现(d)所示只对边界中心点进行提取,采样点很少的情况下,也能够达到和提取整个region特征点的效果一样。

沿着这个思路,present 了一个Border Align Moudle,提取边界点的峰值点加强于singer point,如第一幅图的(a)

Idea

  • 首先,使用FCOS一样的流程,Coarse Cls Score and Coarse Box Reg 就是之前网络输出粗糙的分类以及回归参数。有了回归参数就相当于有了对应的于该点的Anchor框。将这个回归参数fed到提出的Border alignment Moudle 里。
  • Border alignment Moudle 为了保证实验的严谨性,只是用了1X1 Conv 进行升维,将通道数上升至5C,每C个通道表示原始的singer point,left ,top,right,bottom五个feature sensitive map。然后对应的BorderAlign模块取出之前FCOS生成的每一个点生成的回归参数,找到对应anchor的边界
  • 下图就是对应的channel对应5C的sensitive图,为啥时5C作者后边也给了对比实验。
  • 对于每一个singer point,分别对应每一个边界取对应该边界的Channel上去进行采样N个点。然后做Channel wise maxpooling,那么每一个边界的输出相当于是1x1xC,分别对应origin,左右上下五个通道,然后将五个得到的结果concat之后放到singer point对应的位置,所以输出也是WH5C。然后再1*1 Conv降维。就和之前的特征图一样了,这一个流程就相当于是做一次特征图的增强了,对应的singer point就包含了对应chanor 边框的extrame点的feature。
  • 损失函数:就是两次检测的回归分类的loss之和。

Experiments

验证该模块对于分类以及回归的各自的影响,从表格中看对于Iou高的情况更加work,说明边框的信息更加能够对于Iou的提升。

第二个消融实验室采样点个数的选取。

第三个是对于升维的卷积通道到底是5*C还是C一个探讨

第四个是对于chanel wise maxpooing的验证

第五个就是关于bounding box中各种singer point inhancement的方式比较

第六个实验就是模块work对iou的影响,可以看出对于iou阈值大的情况提升还是非常明显

对模型的general验证

state of the art 方法展示

Conclusion

提出了一种目标检测算是新的思路,通过对边界框信息的提取能够能加有效的提取目标,也提出了一种全新的边界提取模块,也是一种泛化性能好并且复杂度很低的网络。

BorderDet(论文解读)相关推荐

  1. BorderDet论文解读

    简介 目前密集目标检测器很受欢迎,其速度很快且精度不低,不过这种这种基于点的特征虽然使用方便,但会缺少关键的边界信息.旷视于 ECCV2020 发表的这篇 BorderDet,其中的核心就是设计了 B ...

  2. 自监督学习(Self-Supervised Learning)多篇论文解读(下)

    自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等 ...

  3. 自监督学习(Self-Supervised Learning)多篇论文解读(上)

    自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题.所以 ...

  4. 可视化反投射:坍塌尺寸的概率恢复:ICCV9论文解读

    可视化反投射:坍塌尺寸的概率恢复:ICCV9论文解读 Visual Deprojection: Probabilistic Recovery of Collapsed Dimensions 论文链接: ...

  5. 从单一图像中提取文档图像:ICCV2019论文解读

    从单一图像中提取文档图像:ICCV2019论文解读 DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regressi ...

  6. 点云配准的端到端深度神经网络:ICCV2019论文解读

    点云配准的端到端深度神经网络:ICCV2019论文解读 DeepVCP: An End-to-End Deep Neural Network for Point Cloud Registration ...

  7. 图像分类:CVPR2020论文解读

    图像分类:CVPR2020论文解读 Towards Robust Image Classification Using Sequential Attention Models 论文链接:https:// ...

  8. CVPR2020论文解读:手绘草图卷积网络语义分割

    CVPR2020论文解读:手绘草图卷积网络语义分割 Sketch GCN: Semantic Sketch Segmentation with Graph Convolutional Networks ...

  9. CVPR2020论文解读:3D Object Detection三维目标检测

    CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...

  10. CVPR2020论文解读:三维语义分割3D Semantic Segmentation

    CVPR2020论文解读:三维语义分割3D Semantic Segmentation xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3D ...

最新文章

  1. 《最后的守护者》的开发技术猜想
  2. [转]IPython介绍
  3. CentOS添加明细路由
  4. G-SYNC技术是什么
  5. python办公自动化案例-用python进行办公自动化都需要学习什么知识呢?
  6. Confluence 6 数据库 JDBC 驱动
  7. python set集合与列表_python set集合的添加、删除、修改和访问操作/frozenset 集合,集合内置方法完整列表-立地货...
  8. 浅谈我的UI设计之路
  9. [技术杂谈][转载]cuda下载官方通道
  10. 2.2中文分词和新词识别
  11. 总结安卓应用市场App首发活动规则
  12. Android那些事!
  13. 双重差分模型能做固定效应吗_双重差分法的平行趋势假定
  14. 车载播放器 android,KX万能播放器
  15. 软件设计模式--软件设计演变过程
  16. Math.log()是以常数e为底数的对数
  17. 新闻页面数据分页and添加新闻评论
  18. python:实现叠加图片(附完整源码)
  19. 计算机组成原理中的主机,计算机组成原理-pc机的主机
  20. 微信小程序tab切换(点击标题切换,滑动屏幕切换)

热门文章

  1. C++ 复制构造函数或者拷贝构造函数
  2. Retrofit 找不到 GsonConverterFactory
  3. Django框架(十)--常用字段、参数、元信息、多对多关联关系
  4. shell中十种实现自加的方法
  5. Struts2中Action接收参数
  6. HDU5583 上海赛铜牌题
  7. C语言的变量的内存分配
  8. amp 保留指定位c语言,C语言位运算符学习
  9. ELFhash - 优秀的字符串哈希算法
  10. S-T平面图中利用最短路求最小割(BZOJ 1001)