Acquistion Location Confidence for accurate object detection

本论文主要是解决一下两个问题:

1、分类得分高的预测框与IOU不匹配,(我猜应该是训练数据集导致的)

2、基于回归的边框修正是非单调的,缺乏可解释性。

贡献点

  1. IoU-guided NMS
  2. Optimization refine
  3. PRpooling

1、IoU-guided NMS

(1)传统 NMS :  根据边界框的分类置信度排序,每次选择cls score最大的框,并对与它IoU大于阈值的框抑制。定位准确的边界框中有很大一部分会被错误抑制,这是由分类置信度和定位准确度之间的不匹配造成的,

(2)IoU-NMS : 使用预测得到的IoU来对预测框进行排序,每次选择IoU最大的框并对与它IoU大于一定阈值的框抑制。

(3)soft-NMS:NMS基础上,IoU 大于阈值的框不将其分类置信度置为0。

为了使用IoU来指导排序,但在在测试的时候没有GroundTruth信息,于是设计一个网络来

估计边框与GroundTruth的IoU。如下图所示。

虚线框的是IoU-Net。

输入:Jittered-RoIs:通过对groundtruth 随机变换得到一系列的候选框(而不采用RPN输出的RoIs)

损失:smooth-L1 LOSS

输出:候选框与GroundTruth的IoU交并比(用于后续的IoU-guided NMS和优化修正算法)

2、提出的PrPooling代替了原来的RoI pooling

因为RPN网络输出的bounding box的坐标是浮点数,

  1. RoI Pooling:有量化误差
  2. RoI Align:不用量化,利用双线性插值计算出对应点的特征值。 但N=4固定,ROI大小不固定。
  3. PrRoI Pooling:利用双线性插值计算出对应点的特征值,该函数连续可导,有益于后续的基于优化的边框修正。

论文中的不足之处,缺少PrRoI-pooling的对照实验。在Mask-RCNN中的RoIAlign的精度相对于RoIPool明显提高。

The code is released at: https://github.com/vacancy/PreciseRoIPooling

3、基于优化的边框修正

问题:

基于回归的边界框精修非单调,对输入的分布变化敏感,不同的预测框迭代次数没法自适应。

解决方法:

通过每次修正得到的边界框预测得到IoU来修正。

基于优化的算法部分:

每次迭代对不同的预测框都做一次修正,因为PrRoI-Pool是连续可导的,所以通过梯度上升的方式进行优化,计算出边界框的变换。当变换后的边界框送入IoU-Net得到新的IoU与旧的IoU区别小于一定值或者出现退化,该边界框就不在修正。

基于回归的方法:如图第一排随着迭代次数的增加,红色的预测越来越偏离GroundTruth

基于优化的方法:如图第二排随着迭代次数增加,预测框越来越精确。

4、实验细节

(1)数据集:

80类别的MS-COCO 80k张训练图像和35k张验证图像,5k张验证图像做测试。

(2)训练参数设置:

输入图像裁剪为1200*800的大小

IoU-Net的训练数据是另外产生的。对于IoU-Net的 IoU标签通过正则化变为【-1,1】之间。

每层的参数设置为mean=0,标准差=0.01或0.001的高斯分布,batchsize大小为16,在推理部分,先还是使用了一次边框回归来初始化坐标,为了加快推理,对所有检测框做IoU -NMS前100个最大分类置信度的边框再使用基于优化的算法进行微调。

5、实验结果比较

相比于soft-NMS,采用了IoU-NMS的结果在AP90上明显提高了。

问题:AP50的结果较差。

问题原因:因为较小的IoU的框与GroundTruth的特征差异大,导致了IoU预测器不精确,修正也退化了。

解决方法:通过采集更多小IoU的来训练就可以解决

IoU-Net相较于FPN、Mask-RCNN速度下降了一点,但精度有所提升,时间耗费应该主要是在基于优化的边框修正上

转载于:https://www.cnblogs.com/SuckChen/p/9840927.html

旷世科技IoU-Net相关推荐

  1. 旷世科技算法实习面经

    https://www.toutiao.com/a6656039742087365134/ 作者:丁宇 链接:https://www.nowcoder.com/discuss/153052 我的面试经 ...

  2. 卷积神经网络学习路线(十九) | 旷世科技 2017 ShuffleNetV1

    前言 这是卷积神经网络学习路线的第19篇文章,主要为大家介绍一下旷世科技在2017年发表的ShuffleNet V1,和MobileNet V1/V2一样,也是一个轻量级的卷积神经网络,专用于计算力受 ...

  3. 关于旷世科技的融资,比金额更关键的是投资方是谁

    每一个企业级的人 都置顶了 中国软件网 中国软件网 为你带来最新鲜的行业干货 本文作者│欧小刚 微信号│oyg0001 联系邮箱│oxg@soft6.com 这段时间人工智能领域的一件大事,莫过于旷视 ...

  4. 卷积神经网络学习路线(二十一) | 旷世科技 ECCV 2018 ShuffleNet V2

    前言 这个系列已经更新了20多篇了,感谢一直以来大家的支持和等待.前面已经介绍过MobileNet V1,MobileNet V2,MobileNet V3,ShuffleNet V1这几个针对移动端 ...

  5. 旷世科技面试——CV岗/后端开发

    目录 面试案例1 面试案例2 一面 二面 面试案例3 面试案例1 1.自我介绍,项目介绍 2.FCN结构介绍,上采样的具体操作 3.空洞卷积原理,deeplab v1 v2的改进 4.focal lo ...

  6. 旷世科技面试题-三个均匀分布x>y>z的概率

  7. face++旷世科技实习生面试

    算法.两轮共两小时.一些小的问题就不记录了. 1.链表的排序. 2.推导仿射变换矩阵. 3.如何设计标注工具. 4.muti-label的分类如何做. 5.关于蒸馏网络细节.

  8. 「杂谈」旷视科技新产品监视学生上课不是什么好事儿

    旷视科技新产品监视学生上课不是什么好事儿! 9月2号,一张带有"MEGVII旷视"图标的视频监控图像在社交网络上疯传. 图中显示,两名在教室中的女生身边,显示出了相应的课堂行为数据 ...

  9. 【转】《Cascaded Pyramid Network for Multi-Person Pose Estimation》--旷世2017COCO keypoints冠军论文解读

    转自:https://blog.csdn.net/zhangboshen/article/details/78836704 简介 <Cascaded Pyramid Network for Mu ...

最新文章

  1. Facebook开源图嵌入“神器”:无需GPU,高效处理数十亿级实体图形 | 极客头条...
  2. oracle 优化器 失效,oracle 优化器 不走索引原因
  3. 上班请病假还得看AI脸色,10秒钟判别真假,打工人太难了
  4. C++获取文件名、不带后缀的名字、后缀名
  5. Maven中jar包冲突的解决方式
  6. python 语言教程(3)变量之元组
  7. python中文词云生成_Python 词云生成
  8. 深度学习-Tensorflow2.2-模型保存与恢复{9}-保存与恢复-21
  9. Leet Code OJ 110. Balanced Binary Tree [Difficulty: Easy]
  10. gcc编译多个源代码文件的过程(引出makefile)
  11. spring----IOC知识点
  12. kibana 查看索引库中文档个数_百度索引量是什么意思?和百度收录量的区别。...
  13. TIME_WAIT太多解决思路和方法
  14. Tomcat 8 中的startup.bat
  15. android ndk r10d.rar,[Android] 环境配置之Android Studio开发NDK
  16. vue-awesome-swiper的点击事件
  17. 企业应该怎样选择mes系统?
  18. 音频识别(Audio Classification)学习笔记
  19. 中芯微和高通410的随身WiFi哪种好,随身WiFi怎么刷机
  20. CodeChef - COVERING 高维前后缀和 + 容斥原理

热门文章

  1. 机器学习Machine Learning:特征选择Feature Selection 与 数据降维Dimension Reduction的区别?
  2. Scrapy 爬取今日头条街拍图片
  3. python:实现newton_forward_interpolation牛顿前插算法(附完整源码)
  4. C++(11):多线程同步packaged_task
  5. 图文详解Unity3D中Material的Tiling和Offset是怎么回事
  6. 测试删除hive表时出错
  7. 移动流量转赠给好友_手机包月流量用不完:教你如何转赠给好友使用
  8. Unity3D ParticleSystem粒子系统
  9. Linux磁盘术语描述
  10. HTML5-企业宣传6款免费源码尽在h5edu.cn