• 论文 《Training Region-based Object Detectors with Online Hard Example Mining》
  • 链接 https://arxiv.org/pdf/1604.03540.pdf

Astract

摘要主要讲了四点:

  • (1) 训练过程需要进行参数的空间搜索
  • (2) 简单样本与难分辨样本之间的类别不平衡是亟需解决的问题
  • (3) 自动地选择难分辨样本来进行训练不仅效率高而且性能好
  • (4) 提出了OHEM算法,不仅效率高而且性能好,在各种数据集上表现优越

1 Introduction

(1) 分类器

由于目标检测套用图像分类的分类思想,但图像分类的数据集和目标检测的数据集存在天然的差距,目标检测的目标框和背景框之间存在严重的不平衡。

在滑动窗口检测器尤为严重,在DPM中甚至达到1:100,000,虽然在其他检测器中有所减缓,但依然高达1:70

(2) hard negative mining

参考:深度学习之 hard negative mining (难例挖掘)

当然,这个类别不平衡问题并不是新问题,之前有个hard nagetive mining的算法是解决这个类别不平衡问题的,它的关键思想是逐渐地增加分辨错误的样本。这个算法需要迭代地交替训练,用样本集更新模型,然后再固定模型 来选择分辨错的目标框并加入到样本集中在传统目标检测中,用SVM做分 类器也用到hard negative mining这个算法来训练;在一些浅层的神经网络和 提升决策树中也用hard negative mining来进行训练。除此之外,使用深度学习的目标检测算法也用到了hard negative mining

(3) why current state-of-the-art object detectors do not use hard negative mining?

那为什么不用hard negative mining,这主要是技术上的难度,hard negative mining需要交替地训练,而这对于使用线上优化的算法来说是不可能的,例如SGD(随机梯度下降算法)。使用SGD来训练网络需要上万次更新网络,如果每迭代几次就固定模型一次,这样的速度会慢得不可想象

(4) online hard example mining(OHEM)

那OHEM是怎样解决类别不平衡的呢,OHEM是选择损失较大的候选ROI, 具体为什么选择损失较大的候选ROI,这个后面再仔细说

作者总结了一下,使用了OHEM之后,不仅避免了启发式搜索超参数,而且提高了mAP。作者发现,训练集越大越困难,OHEM的效果就越好

2 Related work

我们来回顾一下相关的工作

(1) Hard example mining

a. SVMs

优化SVMs时,维持一个工作样本集。交替训练,先训练模型收敛于当前的工作集,然后固定模型,去除简单样本(能够轻易区分的),添加困难样本(不能够区分的),这样的训练方式能使模型达到全局最优

b. non-SVMs

除了优化SVMs类的模型,也优化非SVMs类的模型,例如浅层神经网络和提升决策树

(2) ConvNet-based object detection

基于卷积网络的检测模型已经得到了很大的发展,例如R-CNN、OverFeat。 OverFeat是基于滑动窗口的检测模型,R-CNN是基于选择性搜索的检测模型。 除此之外,还有Fast R-CNN,作者的研究工作就是在Fast R-CNN上展开的

(3) Hard example selection in deep learning

在深度学习方面相关的研究工作有三篇论文,这三篇论文的关注点在于图像分类或者图像识别,而OHEM关注点在目标检测

3 Overview of Fast R-CNN

我们回顾一下Fast R-CNN网络框架,如下图

(1) framework

图片和候选框做为Fast R-CNN的输入,Fast R-CNN分为两部分,一部分是卷积网络,包括卷积和池化层,另一部分是RoI网路,包括RoI池化层、全连接层和两个损失层(一个是分类,一个检测框回归)

(2) inference

在测试的时候,图片输入到卷积网络得到特征层,选择性搜索算法得到RoIs, 对于每个RoI,得到其对应的特征向量,然后每个特征向量输入到全连接层并得到两个输出,一个是概率,一个检测框的坐标

(3) 那为什么选择Fast R-CNN做为基础的目标检测器呢?

作者给出了几点原因:

a. more broadly applicable

Fast R-CNN由两部分组成,一是卷积网络,二是RoI网络,而这种结构也被其他的检测模型沿用,例如SPPnet 和 MR-CNN

b. allow for training the entire conv network

虽然Fast R-CNN和SPPnet、MR-CNN在结构上相似,但Fast R-CNN允许更新整个卷积网络,而SPPnet、MR-CNN却固定住卷积网络

c. SVM or not

SPPnet、MR-CNN使用SVM做分类器,Fast R-CNN不使用SVM

(4) How it trains

Fast R-CNN是使用SGD来优化模型的,每个RoI的损失包括分类损失和回归损失,其中不断降低分类损失使得模型分类更准确,不断降低回归损失使得预测标注框更准确。

SGD是以mini-batch为单位来更新模型的。对于每个mini-batch,先从数据集中取N张,然后每张图片采样B/N个RoIs

a. Foreground RoIs

一个RoIs怎样才算作一个目标RoI(也就是含有目标的RoI)呢,在R-CNN, SPPnet, and MR-CNN等把RoI与真实框的交叉比(IOU)大于等于0.5即判定为目标RoI,在本文中也是这样的设置

b. Background RoIs

而如果要被判定为背景RoI,则要求该RoI与真实框的交叉比大于等于 bg_lo这个阈值并且小于0.5。虽然这样的设置能加快收敛和检测准确度, 但这样的设置会忽略不怎么出现但又十分重要的比较难分辨的背景。因此,在本文的OHTM方法中,作者去掉了这样的设置。

c. Balancing fg-bg RoIs

为了解决目标框和背景框之间的不平衡,Fast R-CNN设置在一个 mini-batch中,它们之间的比例是1:3。作者发现,这样的一个比例对于Fast R-CNN的性能是十分重要的,增大或者减小这个比例,都会使模型的性能有所下降,但使用OHEM便可以把这个比例值去掉。

4 Our approach

作者认为Fast R-CNN之前选择RoI的方法不仅效率低而且也不是最优的,于是作者提出了OHEM,OHEM不仅效率高而且性能也更优

(1) Online hard example mining

我们知道,基于SVM的检测器,在训练时,使用hard example mining来选择样本需要交替训练,先固定模型,选择样本,然后再用样本集更新模型, 这样反复交替训练直到模型收敛

a. main observation

作者认为可以把交替训练的步骤和SGD结合起来。之所以可以这样,作者认为虽然SGD每迭代一次只用到少量的图片,但每张图片都包含上千个RoI,可以从中选择hard examples,这样的策略可以只在一个mini-batch中固定模型,因此模型参数是一直在更新的。

更具体的,在第t次迭代时,输入图片到卷积网络中得到特征图,然后把特征图和所有的RoIs输入到RoI网络中并计算所有RoIs的损失,把损失从高到低排序,然后选择B/N个RoIs。这里有个小问题,位置上相邻的RoIs通过RoI网络后会输出相近的损失,这样损失就翻倍。作者为了解决这个问题,使用了NMS(非最大值抑制)算法,先把损失按高到低排 序,然后选择最高的损失,并计算其他RoI这个RoI的IoU(交叉比),移除IoU大于一定阈值的RoI,然后反复上述流程直到选择了B/N个RoIs。

(2) Implementation details

how to implement OHEM in the FRCN detector

主要有两种方法

a. An obvious way

直接修改损失层,然后直接进行hard example selection。损失层计算所有的RoIs,然后按损失从大到小排序,当然这里有个NMS(非最大值抑制) 操作,选择hard RoIs并non-hard RoIs的损失置0。虽然这方法很直接,但效率是低下的,不仅要为所有RoI分配内存,还要对所有RoI进行反向传播,即使有些RoI损失为0。

b. A better way


为了解决这个问题,作者提出了上面这样的架构。这个架构有两个相同的RoI网络,不同的是其中一个只可读,另一个可读可写。我们看到(a) 是只可读的,只对所有RoI做前向计算,所以只需分配内存给前向计算操作,(b)既可读也可写,对被选择的hard RoIs不仅做前向计算也做反向传播计算。

对于一次SGD迭代,计算过程如下:先计算出特征图,可读RoI网络对所有RoI执行前向计算并计算每个RoI的损失,然后选择hard RoIs。把这些hard RoIs输入到可读可写的RoI网络中执行前向前向计算和反向传播更新网络,并把可读可写的RoI网络的参数赋值给只可读的网络,一次迭代就完成了。

这个方式和第一种方式在内存空间是差不多的,但第二种方式的速度快了两倍。

5 Analyzing online hard example mining

(1) Experimental setup

在本文的实验中使用两种标准的卷积网络,一种是VGG_CNN_M_1024,另一种是VGG16。论文实验使用的超参数沿用Fast R-CNN的默认设置。

(2) OHEM vs. heuristic sampling

为了检验hard example mining的重要性,我们做了两组实验,一组Fast R-CNN 带有hard example mining,bg_lo=0.1,另一组没有hard example mining,即 bg_lo=0。我们发现,对于VGGM网络,mAP降低2.4点,VGG16基本没变化。而使用OHEM,相对于使用了hard example mining的Fast R-CNN,mAP 提高了2.4点,相对于没有使用hard example mining的Fast R-CNN,mAP提 高了4.8点。

(3) Robust gradient estimates

而在实验中,存在一个这样的疑虑,每个mini-batch只取两张图片会不会造成梯度不稳定和收敛慢,因为在一张图片中选择RoI会使RoIs之间的相关性很大。Fast R-CNN的作者认为在训练过程不存在这样的问题,而在OHEM中,由于是在一张图片中选择损失大的RoI,这样可能造成RoIs之间的相关性更大。为了解答这个疑虑,我们把N设置为1,通过做实验发现,传统的Fast R-CNN大概降低一个点,而OHEM却没有太大变化,这说明使用了OHEM的Fast R-CNN是鲁棒的。

(4) Why just hard examples, when you can use all?

那为什么只选择hard examples呢,因为easy examples的损失很小,对梯度影响很小。为了用事实说话,作者做了一个这样的实验,把mini-batch的B分别设置为128和2048,结果表明,B为2048的相对于128的,mAP提高了一个点。不过,这提高的一个点对于使用了OHEM的Fast R-CNN来说是无关紧要的,因为OHEM的mAP提高更大,并且用更小的mini-batch收敛速 度会更快。

(5) Better optimization

作者为了分析使用了不同训练方法的Fast R-CNN的训练损失的情况,做了这样的实验,每优化20K步就记录一下所有RoIs的平均损失,结果显示, bg_lo=0(即没有使用hard example mining)的训练损失最高,bg_lo=0.1(使用 hard example mining)的损失有所降低,增大mini-batch(即设置bg_lo=0, B=2048),损失更低,最后,使用了OHEM的Fast R-CNN损失最低,这表明 Fast R-CNN使用了OHEM会训练得更好。

(6) Computational cost

使用了OHEM的Fast R-CNN相对于没有使用OHEM的Fast R-CNN在内存和每迭代一次所花的时间都有所增加,不过,作者认为这一点增加影响不大。

6 Conclusion

  • (1) 简化训练过程
  • (2) 更好的训练收敛和检测准确度的提高

深度学习之 OHEM (Online Hard Example Mining)相关推荐

  1. 深度学习难分样本挖掘(Hard Mining)

    来源:深度学习这件小事 本文约1500字,论文复现了一遍建议阅读5分钟 本文为你介绍关于难分样本的挖掘,如何将难分样本抽取出来. 最近看了几篇文章关于难分样本的挖掘,如何将难分样本抽取出来,通过训练, ...

  2. DNA/RNA基序挖掘中的深度学习研究进展(A survey on deep learning in DNA/RNA motif mining)

    摘要 DNA/RNA基序挖掘是基因功能研究的基础.DNA/RNA基序挖掘在识别DNA或RNA蛋白结合位点方面起着极其重要的作用,有助于理解基因调控和管理的机制.在过去的几十年里,研究人员一直致力于设计 ...

  3. 基于深度学习的目标检测研究进展

    前言 开始本文内容之前,我们先来看一下上边左侧的这张图,从图中你看到了什么物体?他们在什么位置?这还不简单,图中有一个猫和一个人,具体的位置就是上图右侧图像两个边框(bounding-box)所在的位 ...

  4. 52 个深度学习目标检测模型汇总,论文、源码一应俱全!(附链接)

    来源:AI有道 本文约2000字,建议阅读5分钟 本文给你总结52个深度学习检测模型. 标签:计算机视觉 目标检测作为计算机视觉中的一个重要分支,近些年来随着神经网络理论研究的深入和硬件 GPU 算力 ...

  5. 52 个深度学习目标检测模型汇总,论文、源码一应俱全

    本文约2000字,建议阅读5分钟 本文给你总结52个深度学习检测模型. 标签:计算机视觉 目标检测作为计算机视觉中的一个重要分支,近些年来随着神经网络理论研究的深入和硬件 GPU 算力的大幅度提升,一 ...

  6. 深度学习在目标视觉检测中的应用进展与展望

    作者:张慧,王坤峰,王飞跃 来源:王飞跃科学网博客 摘要:目标视觉检测是计算机视觉领域的一个重要问题,在视频监控.自主驾驶.人机交互等方面具有重要的研究意义和应用价值.近年来,深度学习在图像分类研究中 ...

  7. 基于深度学习的目标检测算法综述(从R-CNN到Mask R-CNN)

    深度学习目标检测模型全面综述:Faster R-CNN.R-FCN和SSD 从RCNN到SSD,这应该是最全的一份目标检测算法盘点 基于深度学习的目标检测算法综述(一) 基于深度学习的目标检测算法综述 ...

  8. 【深度学习】基于深度学习的目标检测研究进展

    原文出处:http://chuansong.me/n/353443351445 开始本文内容之前,我们先来看一下上边左侧的这张图,从图中你看到了什么物体?他们在什么位置?这还不简单,图中有一个猫和一个 ...

  9. 目前最全:52 个深度学习目标检测模型汇总,论文、源码一应俱全!

    文章来源:https://zhuanlan.zhihu.com/p/115035951 作者:红色石头 目标检测作为计算机视觉中的一个重要分支,近些年来随着神经网络理论研究的深入和硬件 GPU 算力的 ...

最新文章

  1. No serializer found for class org.hibernate.proxy.pojo.javassist.JavassistLazyInitializer解决方法
  2. 本地搭建docker私服
  3. 阿里云前端周刊 - 第 11 期
  4. UNL/EVE关联putty和wireshark
  5. 进程间的通信方式(二):管道Pipe和命令管道FIFO
  6. jbutton 数组创建 java_java-将JButton数组添加到JPanel(按钮不可见)
  7. 一维数组和二维数组的区别_数组指针和指针数组的区别
  8. 远程拷贝 linux服务器,linux scp 服务器远程拷贝(示例代码)
  9. 从一张截图看秒开缓存的强大功效
  10. 转:在windows中将tree命令加入git-bash中
  11. vc中控件字体的设置(转)
  12. C语言把二进制转换为十进制数的方法和示例
  13. 数据库内存故障恢复一例
  14. 总结Criteria的简要使用概述(Hibernate5.2+)
  15. 使用Arduino和HCSR04超声波传感器进行简单的超声波悬浮
  16. 面向组件编程之Unity 11.Quaternion.LookRotation 转自lijing_hi
  17. 数字孪生城市优秀案例汇编 附下载
  18. Darker and Darker
  19. 能让你效率翻倍的文字扫描识别软件有哪些?这几款就很不错
  20. 推荐程序员笔记软件cherrytree

热门文章

  1. 开发者应该了解的API技术清单!
  2. 科目三电子路考操作流程
  3. 职场心理:12个建议或许能改变你的一生(图)
  4. 从Xbox和Zune中学到的四门创业课
  5. PMT_Header-节目映射表的数据结构2
  6. API Gateway——KONG简单入门
  7. 解决 java.net.ConnectException: Connection refused: connect 异常
  8. Request的getHeader()和getParameter()的区别
  9. Linux Crontab 任务管理工具命令以及示例
  10. 第二章 mybatis使用注解实现in查询(mysql)