转载自:

http://blog.csdn.net/cv_family_z/article/details/46864473

摘要:SPPNet和Fast R-CNN降低了网络学习特征的时间,SS由于需耗时1~2s,EdgeBoxes
耗时约0.2s,提取proposal的方法成为检测的瓶颈。本文提出了Region Proposal Networks(RPNs)实现实时提取proposals,它能与检测网络共享全图像卷积特征。RPNs是一个能够预测某位置上的目标bbox和objectness的全卷积网络。对于VGG-16网络,检测系统在GPU上的速度为5fps。VOC2007的mAP为73.2%,每幅图像大约300个proposals。

灵感:基于区域的检测使用的卷积特征图,如FRCN,同样可以用来生成proposals。在这些卷积层之后,作者通过增加两个卷积层构建了RPNs,一个将卷积图编码为低维(256d)向量,另外一个在每个卷积图的位置上生成一个objectness score和k个proposals的回归bbox,k=9。

RPNs网络
RPNs将图像作为输入,输出带有objectness score的bbox。使用一个小的网络在最后一个卷积层输出的卷积特征图上产生区域proposals,这个小网络与输入的特征图以n*n的窗口进行全连接,每个滑动窗之后映射到一个低维向量(ZF5-256d,VGG-512d),之后将向量送入两个全连接的子层:一个bbox回归层和一个bbox分类层。网络的结构如下图所示:

平移不变的锚点
每一个滑动窗滑过的位置有k个proposals,cls子层输出每个proposal的object\non-object的2k个scores,reg子层输出对应坐标的4k个节点。k个proposals根据k个锚点进行参数化,每个锚点是对应尺度和长宽比的中心,文中使用3个尺度,3个长宽比,得到9个锚点。如果特征图大小为W×H,则共有WHk个锚点。

Proposals学习的损失函数
按照以下规则对锚点分配二值类别标记。正样本标记:(1)与groundtruth的IoU最高的锚点,(2)与任意groundtruth IoU>0.7的锚点,某个groundtruth有可能对应几个正锚点。负样本:与groundtruth的IoU<0.3的锚点。其余的锚点不在训练使用的范围内。使用FRCN的multi-task loss最小化目标函数,某个锚点box的损失函数为:

式中pi 是锚点i为物体的预测概率,Lcls 是而分类object/non-object的softmax loss。

优化
RPN是一个全卷积网络,可使用bp及SGD训练,使用FRCN中的image-centric进行训练,为了避免样本偏斜,每幅图采样256个样本计算loss,正负样本为1:1。

Region proposal与目标检测共享卷积特征
使用交替优化学习共享特征的4步训练法:
1)训练RPN,使用ImageNet初训练的网络进行end-to-end的微调;
2)使用FRCN及RPN生成的proposal训练一个检测网络,该步未共享特征;
3)使用检测网络初始化RPNs训练,固定共享的卷积层只微调为RPN新增的层;
4)固定共享层,微调FRCN的全连接层

实现细节
使用单尺度图像训练RPNs和FRCN,缩放图像使得短边为600像素。对于每个锚点,三个尺度对应的box面积分别为1282,2562 和5122,3个长宽比分别为1:1,1:2,2:1,学习到的平均proposal大小如下表所示:

对于1000×600 的输入图像,约有20k个锚点,如果忽略cross-boundary的锚点,约有6k个用来训练。检测时,基于cls score使用NMS将proposal压缩至2k个,之后用top-N个proposal来检测。

实验结果
使用SS,EB,RBN生成proposal的实验结果及ablation的实验结果如下表所示:

ablation实验结果表明共享卷积特征mAP能提升1.2%,主要是在共享的第三步使用了微调的检测特征来微调RPN。

每一步的运行时间如下表所示

Faster R-CNN相关推荐

  1. Faster R CNN

    Faster R CNN 3 FASTER R-CNN 我们的Faster R CNN 由两个模块组成,第一个模块是 proposes regions 的全卷积网络,第二个是使用 proposed r ...

  2. 经典神经网络 | Faster R-CNN论文解析

    论文题目:Faster R-CNN: T owards Real-Time Object Detection with Region Proposal Networks 论文链接:https://ar ...

  3. 万字深度好文!视觉-语言(VL)智能:任务、表征学习和大型模型

    来源:AI科技评论 编译:Jocelyn 编辑:陈彩娴 本文对视觉-语言(VL)智能按时间顺序进行了全面调研,并将这一领域的发展总结为三个阶段: 第一个阶段是2014-2018年,其间,专门的模型被设 ...

  4. 【AI视野·今日CV 计算机视觉论文速览 第162期】Fri, 27 Sep 2019

    AI视野·今日CS.CV 计算机视觉论文速览 Fri, 27 Sep 2019 Totally 55 papers ?上期速览✈更多精彩请移步主页 Interesting: TODO(rjj): de ...

  5. 【AI视野·今日CV 计算机视觉论文速览 第160期】Wed, 25 Sep 2019

    AI视野·今日CS.CV 计算机视觉论文速览 Wed, 25 Sep 2019 Totally 39 papers ?上期速览✈更多精彩请移步主页 Interesting: ?Interactive ...

  6. tensorflow 人面关键点识别_人工智能算法-图像识别项目

    电缆缺陷检测 各省市电网,需要建立一套完善的电缆线部件缺陷检测的平台,为各省市的电缆线部件 缺陷提供智能化的解决方案,进一步确保电网系统的安全运行.现在有些省市的电网缺陷部 件的检测仍采用人工查缺的方 ...

  7. 万字深度好文!VL最强总结!

    点击 机器学习算法与Python学习 ,选择加星标 精彩内容不迷路 本文转自AI科技评论 本文对视觉-语言(VL)智能按时间顺序进行了全面调研,并将这一领域的发展总结为三个阶段: 第一个阶段是2014 ...

  8. 【AI视野·今日CV 计算机视觉论文速览 第159期】Tue, 24 Sep 2019

    AI视野·今日CS.CV 计算机视觉论文速览 Tue, 24 Sep 2019 Totally 67 papers ?上期速览✈更多精彩请移步主页 Interesting: ?基于层次点和边缘交互的网 ...

  9. 关于数学建模、机器学习与深度学习的思考

    2016年5月,开始接触水利行业的洪水预警工作,然后就进入了数学建模的过程,进行洪水与降雨分析,后续经过了机器学习与深度学习的跑坑,对数学工具在现实工程进行作用进行总结. 数学建模:通过数学公式为手段 ...

  10. Learning Spatio-Temporal Transformer for Visual Tracking——精读笔记

    本篇精读笔记,对原文重要部分做了严格翻译,如摘要和总结.对正文部分做了提炼,对重点部分突出标注.对参考文献做了分类.本文内容较长,如果时间有限可以直接跳到感兴趣的小节阅读. 论文地址:https:// ...

最新文章

  1. iOS蓝牙开发---CoreBluetooth[BLE 4.0] 初级篇[内附Demo地址]
  2. leetcode算法题--完全平方数★
  3. 用GDAL/OGR去读shapefile
  4. python中不同类型的数据不能相互运算_Python第三课——数据类型与运算(2)
  5. CVPR2021 最具创造力的那些工作成果!
  6. 中国 AI 的“黄埔军校”?MSRA 被曝停招“国防七子”及北邮学生
  7. Spring事件监听机制
  8. android8.1dolby,努比亚X刷杜比音效教程-按推理支持绝多数安卓8和安卓9系统
  9. MT4API外汇跟单软件使用分享
  10. Linux:计算机网络基础
  11. 5G时代的到来对直播的影响
  12. mysql数据库 timeout_MYSQL数据库SQL查询超时的设置方法(关于timeout的处理)
  13. docker安装wechat微信、wxwork企业微信脚本整理
  14. python范例_最佳Python代码范例
  15. (持续更新)一些黑科技和技巧
  16. openEuler网络配置+换源+桌面环境ukui等基本环境部署
  17. DMS应用性能管理案例分析(二)
  18. pdf文档转化为doc文档 (转载)
  19. js使用BOS Uploader上传视频到百度云
  20. java吃货联盟系统源码_java-吃货联盟订餐系统

热门文章

  1. 以安全模式启动firefox
  2. 基于R的信用评分卡模型解析
  3. 这六段代码隐藏着深度学习的前世今生!
  4. 解密谷歌机器学习忍者项目,如此培养人工智能人才
  5. 布道微服务_06微服务调用的监控
  6. Spring Boot2.x-09 基于Spring Boot 2.1.2 + Mybatis使用自定义注解实现数据库切换
  7. Spring MVC-08循序渐进之国际化(基于Session-SessionLocaleResolver)
  8. Oracle优化09-绑定变量
  9. mysql查询时给字段加内容,mysql数据库查询之对应库对应表中的注释信息查询以及加字段查询...
  10. RocketMQ:NameServer架构设计以及启动关闭流程源码分析