作者丨文永亮

学校丨哈尔滨工业大学(深圳)

研究方向丨目标检测、GAN

本文解读的是一篇发表于 AAAI 2019 的 paper,文章提出了一种 R-DAD 的方法来对 RCNN 系列的目标检测方法进行改进。



研究动机


目前主流的目标检测算法分为 1 stage 和 2 stage 的,而 2 stage 的目标检测方法以 Faster-RCNN 为代表是需要 RPN(Region Proposals Network)生成 RoI(Region of Interests,感兴趣区域)的,文章认为正是因为被遮挡了的或者不精确的 Region Proposals 导致目标检测算法的不准确。

作者的想法动机其实很简单,就是假如一辆车的左边被人遮挡了,那么这辆车的右边带来的信息其实才是更可信的。基于这个想法,文章提出 R-DAD(Region Decomposition and Assembly Detector),即区域分解组装检测器,来改善生成的 Region Proposals。

R-DAD的网络结构

文章以 Faster-RCNN 的网络结构为例,修改成它提出的 R-DAD 结构:

R-DAD 网络架构主要分成两个模块 MRP 和 RDA:

1. MRP(Multi-Scale Region Proposal)模块,用来改善 RPN 生成的 Region Proposals 的准确率。

 图1. MRP模块,框内分别对应S=0.7,1,1.2的Region Proposals

MRP 表面意思就是生成多尺度的 Region Proposal,方法很简单,就是使用传统的 RPN 生成一些建议框,然后用不同的缩放因子(文章使用了 5 种缩放因子作为一组 s=[0.5,0.7,1,1.2,1.5])对生成出的建议框进行不同比例的缩小放大,从而提高 Region Proposals 的多样性。

如图一,生成了不同尺度的区域,有一些仅仅是局部有一些是大于目标本身的,但是这也带来了一个问题,就是原来的 Region Proposals 已经可以说是极大的数量了,再乘以五倍,想要网络能够完全利用这些建议框是不切实际的,作者最后还添加了 RoI 的采样层,对分数低的和跟 ground truth 重叠率低的进行了筛选。

由 MRP 网络生成的各种 Region Proposals 可以进一步适应目标之间因为空间变化所导致的特征变化,提高结构的鲁棒性。

2. RDA(Region Decomposition and Assembly)模块,作者也称它为 mutil-region-based appearance model,即基于多区域的外观模型,它可以同时描述一个物体的全局外观和局部外观,RDA 分为目标分解和目标区域集成的两部分,目标分解如图二所示,把一个目标分为上下左右四个方向的分解部分。

一般会先用线性插值两倍上采样之后再分解,后面作者给出了表格表示这样效果更好。左右刚好是特征图的左右一半,上下也同理,都会送入 RAB 模块,RAB 模块如图三所示:

 图3. RAB模块

其实就是下面这个函数:

其中 p 代表着上下左右的每一个部分或者组合后的部分如左-右 (l/r)、下-上 (b/u) 和 comb(l/r 与 b/u 的组合),*是卷积操作,f() 是 ReLU 单元。最后再取 max,是为了融合的信息,生成同样大小的

最后就是代表着全局信息的 scale 为 1 生成的 Region Proposals,一起送进 RAB 模块。这样整个网络结构就可以做到既捕捉到局部信息的同时,也不丢失全局信息。

RAB 模块是一个类似 maxout 的单元,理论上它可以逼近任何连续的函数,所以我们使用 RAB 而不是直接使用 ReLU。这表明可以通过配置不同的分层地组合 RAB 模块来表示各种各样的目标特征。

损失函数

对每一个框 (box) d,我们都会通过 IoU 筛选出跟 GT (ground truth) 最匹配的 d*,如果 d 跟任何的 d* 的 IoU 超过 0.5,给予正标签,若在 0.1 到 0.5 之间的,给予负标签。R-DAD 的输出层对每一个框 d 都有四个参数化坐标和一个分类标签。对于 box regression 来说,我们与以往目标检测的参数化一致如下:

同理,是用来评估预测框和 GT 的差距的。

跟训练 RPN 网络相似,R-DAD 也需要最小化分类损失和回归损失,如下:

实验结果

文章中做了各种设置的组合,关于 MRP 里缩放因子的组合、是否有 RDA 模块以及是否上采样,得分如下表所示:

与 Faster-RCNN 对比,作者使用了 VOC07trainval 和 VOC12trainval 数据集训练,再在 VOC07test 上测试,并且用了不同的特征提取器(VGG、ZF、Res101),得分均比 Faster-RCNN 高。

在速度方面均比 Faster-RCNN 慢。

与没有上下区域分解集成的 R-DAD 对比,有上下分解集成的误判率低很多,因为它在复杂情形下被遮挡物体会更有选择地相信得到的信息。

R-DAD的优点

1. 文章提出因为我们最大化目标在横向空间位置上局部特征的语义响应,与使用支持小区域的最大池化相比,在没有深层次结构的情况下,我们可以改善特征位置的空间不变性。我的理解就是作者取了上下左右四个方向的特征模板,最后对四个方向进行了融合语义信息,利用了横向空间上的空间不变性,揭示了不同方向上的语义关系。

2. 在复杂场景下,如有目标对象被另一目标对象遮挡时,通过左右上下模板筛选出来的特征是更符合真实场景的,这样的 Region Proposals 也更加可信。

3. 同时描述了全局特征和局部特征的语义信息,在 RAB 的组装上具有很强的可操作性,通过配置分层式地组装 RAB 模块,以及修改特征模板,特征的表达会更加灵活。

点评

这个区域分解集成的算法令我觉得跟以前传统的人脸识别算法提取 Haar-like 特征有点异曲同工之处,同样都是把特征图分成上下两部分,然后做特征提取操作,都是定义了特定的特征模板,这就很容易理解为什么作者要做 multi scale 的操作了,因为在以前使用 Haar/SIFT/HoG 的时候,往往都需要使用 muti scale 来检测。

但是 R-DAD 为什么对特征只分成上下各一半,左右各一半这种特征模板,文章并没有给出令人信服的理由。尽管如此,这也是一个对目标检测的改进方向,通过 MRP 和 RDA 模块代替了之前的单纯的 RPN 网络,而且在不使用 FPN (Feature Pyramid Networks) 的情况下取得了不错的 mAP,这样看来 R-DAD 是 2 stage 目标检测系列的另一种技巧,综合了横向空间上的语义信息。

点击以下标题查看更多往期内容:

#投 稿 通 道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 |阅读原文 | 获取最新论文推荐

AAAI 2019 论文解读 | 基于区域分解集成的目标检测相关推荐

  1. AAAI 2019 论文解读:卷积神经网络继续进步

    机器之心 卷积神经网络(CNN)近年来已经取得了很大的成功,但研究者仍在进一步推进研究前沿,提出新的思路和方法.在本文中,技术分析师 Joshua Chou 将解读三篇有关卷积神经网络的 AAAI 2 ...

  2. ICCV 2019 论文解读 | 基于层次解析的Image Captioning

    ©PaperWeekly 原创 · 作者|蔡文杰 学校|华南理工大学 研究方向|计算机视觉 目前大多数的 image captioning 模型采用的都是 encoder-decoder 的框架.本文 ...

  3. IJCAI 2019 论文解读 | 基于超图网络模型的图网络进化算法

    作者丨张云喆 单位丨暗物智能科技 研究方向丨NLP推理.数学符号推理 研究背景 现实生活中很多的数据可以用图(graph)来建模,比如社交网络数据,paper 引用数据等.对于 AI 而言,一个常见的 ...

  4. 【论文解读】R-CNN 深入浅出理解目标检测开山之作

    R-CNN是CNN处理目标检测问题的开山之作,其中的区域提议,难例挖掘,非极大值抑制等等方法沿用至今..整个打下了two-stage模型的框架.但我并不推荐研究R-CNN的实现,因为选择性搜索部分与现 ...

  5. AAAI 2018论文解读 | 基于置信度的知识图谱表示学习框架

    作者丨谢若冰 单位丨腾讯微信搜索应用部 研究方向丨知识表示学习 知识图谱被广泛地用来描述世界上的实体和实体之间的关系,一般使用三元组(h,r,t)(head entity, relation, tra ...

  6. AAAI 2018论文解读 | 基于文档级问答任务的新注意力模型

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  7. CVPR 2019 论文解读 | 基于多级神经纹理迁移的图像超分辨方法 (Adobe Research)

    基于多级神经纹理迁移的图像超分辨方法 超分辨(Super-Resolution)图像恢复旨在从低分辨模糊图像中恢复出高分辨的清晰图像,是计算机视觉中的一个重要任务,在工业界有非常强的应用前景.CVPR ...

  8. 【论文解读】Faster R-CNN 实时目标检测

    前言 Faster R-CNN 的亮点是使用RPN来提取候选框:RPN全称是Region Proposal Network,也可理解为区域生成网络,或区域候选网络:它是用来提取候选框的.RPN特点是耗 ...

  9. 基于深度学习的目标检测算法思维导图

    在计算机视觉领域,目标检测一直是一种处于非常火热 的状态,尤其是卷积神经网络CNN出现后,出现了各种基于CNN的目标检测算法,在此根据所看到或者所了解的论文进行个人汇总,以思维导图的模式进行记录整理, ...

最新文章

  1. 通过Cookie实现客户端与服务端会话的维持;
  2. Shader Compiler 界面进展2
  3. ubuntu18.04利用fdisk找到磁盘空闲区,新建分区,挂载
  4. 软件工程之四则运算开发感悟与收获
  5. surfire 单元测试 使用了mock字节码再生和注入, UseSplitVerifier防止字节码校验
  6. linux 全球用户数量,全球Linux用户市场占有率升至2.78%
  7. java while语句_Java while循环
  8. AM5728通过GPMC接口与FPGA高速数据通信实现
  9. Vue绑定style的使用方式(令组件复用)
  10. 【博弈论】取棋子游戏
  11. Mesh平滑处理的几种算法比较
  12. Python学习---综合练习之Craps赌博游戏
  13. qt textbrowser的边界框怎样改变颜色_专访天使投资人续沛川:用深度思考打破人生边界,拥有张力一生...
  14. [ML](回归和分类)
  15. 福利啊,精品资源大放送
  16. 在线文档查看器GroupDocs.Viewer 9月新版V17.9发布 | 附下载
  17. rails 代码结构详解
  18. c++里面的protect和public、private有什么区别?
  19. k-medoid(k中心点)聚类算法Python实现
  20. 移动端草海的渲染方案(一)

热门文章

  1. Android集成Firebase(含Analytics功能)
  2. android http pos 请求和gson解析处理head头信息
  3. hadoop3: mkdir: cannot create directory `/usr/local/hadoop/bin/../logs’: Permission denied
  4. 【转】Java内存与垃圾回收调优
  5. 在写移动端时,a标签或者input标签等 在手机上点击背后会有阴影的解决办法
  6. bbs mysql_简单BBS程序(需MySQL支持)
  7. js 只准输入数字_js验证如何限制文本框只能输入数字
  8. ios图片放大之后如何不模糊_图片怎样放大后不模糊 图片放大不失真的方法步骤...
  9. linux系统死亡之平台,又一个Linux发行版宣告死亡
  10. d盘莫名其妙被占空间 win10_Win10不好用?你不可不知的Win10技巧