作者丨孙明珊

学校丨哈尔滨工业大学(深圳)硕士生

研究方向丨目标检测

研究动机

Grid R-CNN 是一种将传统两阶段检测算法中对于矩形框坐标回归转换成由 FCN 构建物体网格点的方法,由于同一水平线上网格点的互相纠正作用以及相邻网格点空间信息的融合,其探测结果质量高。然而,其速度并不理想,因此 plus 版本在该基础上作了速度和精度提升。

在 Grid R-CNN 中对于一个物体来说,它所有的网格点共享一个相同的特征表达区域,并且此区域过于冗余。为此,Grid R-CNN Plus 将网格分支的输入尺度从原来的 56x56 降低为 28x28,对于每个网格点,新的输出代表了原来大概四分之一的区域,该方法较 Grid R-CNN 不仅提升了速度还提升了精度,除此之外,还从网格分支网络的结构减重、RoI 采样策略以及 NMS 等方面下手来提升模型速度。


研究方法


Grid R-CNN回顾

Grid R-CNN 这篇论文由商汤提出,主要对 Faster R-CNN 框架中定位框回归支路的更改,将以往通过回归方式实现 proposal 位置修正的方法,改为通过全卷积网络来实现目标定位框的精确修正。
如上图 (b) 的 3x3 个点,网格点的位置由像素级确定。因此,较之前的回归算法,网络就可以获得更多监督信息。但是由于点位置的预测和局部特征没有直接的关系,比如矩形框左上角的点和其相邻的背景区域点拥有类似的特征,也就是超出物体的角点像素的局部特征相似性。
针对上述问题,采用了多点监督的方式,通过在一个网格中定义目标点,可以获得更多信息来减少一些由于单点监督导致的不准确性。比如左上角的点可以由上边界中点和左边界中点进行校准。
除此之外,为了充分利用网格点的信息,提出了一种信息融合的策略。具体来说,对一个网格点来说,其多个相邻点的特征会被融合成一个特征图,这个融合后的特征图用于相应网格点的预测,使网格点的位置更加精准。
最后,为了弥补真实网格点超出 proposal 范围的问题,将 proposal 区域扩大以包含绝大多数网格点,扩大的计算公式由下图左边方式转换成右边方式:

总而言之,Grid R-CNN 的三个创新点:

  • 多点监督策略

  • 网格点特征融合策略

  • 增大区域映射

网格点特定表示区域
对于 Grid RCNN Plus 来说,对速度提升效果最明显的就是网格点的特征表达区域,只有正样本(IOU>0.5)才会被送入 Grid branch,因此有些真实标签会被限制在监督图的一个小区域内。如下图所示:

在一个 3x3 的 grid point中,真实标签只会出现在监督热图的左上方区域,但这样是不对的,对于一个物体来说,它的所有的 grid points 共享一个相同的特征表达区域。
为了解决这个特征表达区域的问题,首先,将 grid branch 的输入尺度从原来的 56x56 降低为 28x28,对于每个 grid point,新的输出代表了原来大概四分之一的区域。经过这样处理后,每个 grid point 的表达可以近似的视为一个归一化的过程。
轻量网格分支
由于最后的输出尺度降低一半,那我们可以同时将 grid branch 中的其他特征图分辨率也降低,比如 14x14 到 7x7。细节来说,通过前面的 RPN+ROI Align 产生一个固定的 feature map 14x14,接着使用一个步长为 2 的 3x3 卷积核,然后再使用 7 个步长为 1 的 3x3 卷积核从而产生 7x7 分辨率的特征图。紧接着我们将这个特征分成 N 组(默认为 9 ),每一组关联一个 grid point,接着使用两个组反卷积将特征图尺度变为 28x28,注意 group deconvolution 可以加速上采样的过程。
另外一个好处是,由于我们对每个 grid point 的表达进行了归一化,因此他们变得更加 closer, 导致在特征融合时不需要使用很多的卷积层来覆盖这个间隙。在 Plus 版本,只使用了一个 5x5 depth-wise 卷积层来代替原来的 3 个连续的卷积层。
跨图片采样策略
由于 grid branch 在训练时只使用正样本,所以不同采样 batch 正样本数量也会不同,这种差异性会对精度产生影响,比如,有些图像的正样本很多,但有些图像的正样本数很少。
在 Plus 版本,作者使用了跨图片的采样策略,具体讲,从两个图片中一共采集 192 个 positive proposal,而不再是每张图片采集 96 个 positive proposal。这样就会使训练更具有鲁棒性。
一次性 NMS 
原来的 Grid RCNN 需要两次 NMS,第一次是 proposal 的生成,只选择前 125 个样本进行边框矫正,第二次是做最后的分类,尽管只是一小部分的 proposal,进行 80 类的 NMS 还是很慢,所以在 Plus 版本,直接移除了第二个 NMS,同时将第一个 NMS 的 IOU 阈值设置为 0.3,分类阈值设置为 0.03,只选择前 100 个 proposal 进行进一步的分类和回归。

实验结果


与 Faster R-CNN, Grid R-CNN 在 COCO 数据集上的结果如上表所示,可见精度和速度都有提升,可见这些策略是有效果的。

总结

原版的 Grid R-CNN 对 Faster RCNN 做了很多精度上的优化,但是速度却慢于 Faster R-CNN,于是 Grid R-CNN Plus 就速度优化在四个方面进行了改进:

  • 网格点特定表示区域

  • 轻量网格分支

  • 跨图片采样策略

  • 一次性 NMS

点击以下标题查看更多往期内容:

  • 全新缺失图像数据插补框架—CollaGAN

  • 盘点:悉尼科技大学入选CVPR 2019的8篇论文

  • 最新Anchor-Free目标检测模型—FoveaBox

  • 天秤座R-CNN:全面平衡的目标检测器

  • PFLD:简单高效的实用人脸关键点检测算法

  • DCGAN到SELF-MOD:GAN的模型架构发展一览

  • 基于骨架表达的单张图片三维物体重建方法

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文 & 源码

从Grid R-CNN到Grid R-CNN Plus:基于网格的目标检测演化相关推荐

  1. 基于CNN目标检测方法(RCNN,Fast-RCNN,Faster-RCNN,Mask-RCNN,YOLO,SSD)行人检测,目标追踪,卷积神经网络

    一.研究意义 卷积神经网络(CNN)由于其强大的特征提取能力,近年来被广泛用于计算机视觉领域.1998年Yann LeCun等提出的LeNet-5网络结构,该结构使得卷积神经网络可以端到端的训练,并应 ...

  2. 脉冲神经网络在目标检测的首次尝试,性能堪比CNN | AAAI 2020

    译者 |  VincentLee 来源 | 晓飞的算法工程笔记 脉冲神经网络(Spiking neural network, SNN)将脉冲神经元作为计算单元,能够模仿人类大脑的信息编码和处理过程.不 ...

  3. 如何使用CNN进行物体识别和分类_基于CNN目标检测方法(RCNN系列,YOLO,SSD)

    转载自:基于CNN目标检测方法(RCNN,Fast-RCNN,Faster-RCNN,Mask-RCNN,YOLO,SSD)行人检测 一.研究意义 卷积神经网络(CNN)由于其强大的特征提取能力,近年 ...

  4. rcnn 回归_基础目标检测算法介绍:CNN、RCNN、Fast RCNN和Faster RCNN

    每次丢了东西,我们都希望有一种方法能快速定位出失物.现在,目标检测算法或许能做到.目标检测的用途遍布多个行业,从安防监控,到智慧城市中的实时交通监测.简单来说,这些技术背后都是强大的深度学习算法. 在 ...

  5. cnn 句向量_深度学习目标检测Fast R-CNN论文解读

    前言 我们知道,R-CNN存在着以下几个问题: 分步骤进行,过程繁琐.Selective Search生成候选区域region proposal->fine tune预训练网络->针对每个 ...

  6. r语言把两个折线图图像放到一个图里_图像目标检测算法总结(从R-CNN到YOLO v3)...

    基于CNN 的目标检测是通过CNN 作为特征提取器,并对得到的图像的带有位置属性的特征进行判断,从而产出一个能够圈定出特定目标或者物体(Object)的限定框(Bounding-box,下面简写为bb ...

  7. windows 下载 R 和 R studio,以及R语言基本使用

    目录 一. 安装与入门介绍 1. windows 下载 R 和 R studio 2. 常见问题的对应包查询 3. 解决RStudio 打开文件中文乱码 4. 相关包 5. 获取帮助.工作目录.保存 ...

  8. Grid R-CNN解读:商汤最新目标检测算法,定位精度超越Faster R-CNN

    作者 | 周强 来源 | 我爱计算机视觉 Grid R-CNN是商汤科技最新发表于arXiv的一篇目标检测的论文,对Faster R-CNN架构的目标坐标回归部分进行了替换,取得了更加精确的定位精度, ...

  9. 基于 CNN 特征区域进行目标检测

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 目标检测是目前计算机视觉领域最热门的技术之一,该领域的研究一直在以 ...

最新文章

  1. Snap和Flatpak 通吃所有发行版的打包方式。
  2. 康力优蓝发布新品:让AI教育从概念变成现实!
  3. 工具坐标6点法_轻松学机器人系列之各坐标系关系
  4. [CODEVS 3037] 线段覆盖 5
  5. 很用心的为你写了 9 道 MySQL 面试题,建议收藏!
  6. 漂亮的页面过渡动画源码
  7. Integer int比较大小
  8. SAP License:SAP菜单修改
  9. 云计算正在“抹杀”开源?
  10. 如何让隐藏在大数据背后的价值发挥出来?
  11. opencv 图像轮廓特征 图像面积,轮廓周长,外接矩形、最小外接矩形、最小外接圆、拟合椭圆
  12. IE无法打开新链接的问题
  13. python大数据培训好不好
  14. 135编辑器的html,135编辑器
  15. 天涯社区离线阅读器(实现只看楼主功能)
  16. 用c 语言乘法运算结果,c中的基本运算
  17. 改命术:怎么赚50万以上的问题
  18. Android 交流分享汇总
  19. 汇编语言程序教程:从入门到精通!
  20. 慢慢买 | 比价API电商数据采集定制

热门文章

  1. 【转】Python操作MongoDB数据库
  2. More is better
  3. TCP系列42—拥塞控制—5、Linux中的慢启动和拥塞避免(二)
  4. Resource接口,及资源
  5. 技术分享(持续更新)
  6. 把一个一维数组转换为in ()
  7. 使用AOP动态调用WebService
  8. lamda list 分组_java8lambda表达式对集合分组并且排序(记一次性能优化案例)
  9. Collections.sort()泛型集合排序的使用,和自定义类实现Comparable<T>接口重写compareTo(T o)方法完成Collections.sort()排序,以及自定义排序规则
  10. 游戏引擎和编程语言的关系