参考链接:

论文链接《Mask Scoring R-CNN》

Github 地址 Mask Scoring RCNN

在大多数实例分割框架中,实例分类的置信度被用作MASK质量分数。

MASK质量:量化为实例MASK与其Groundtruth之间的IoU。

真正评估mask质量的指标应该是预测的mask和GroundTruth的mask之间的IoU,而不是以分类分数作为mask的置信度。 本文增加一个模块直接对MaskIoU进行回归。


                                       Mask Scoring R-CNN

摘要:在大多数实例分割框架中,实例分类的置信度被用作MASK质量分数。MASK质量(量化为实例MASK与其Groundtruth之间的IoU),通常与分类得分没有很好的相关性。在这篇文章中我们提出了MASK  Scoring RCNN结构,包含了一个模块用于学习评估所预测的mask的质量(为预测的MASK打分)。提出的网络模块将实例特征和相应的预测MASK结合起来,对MASKIoU进行回归。这种为MASK打分的策略,校正了MASK质量和MASK分数之间的偏差,并通过在COCO AP评估期间优先考虑更准确的MASK预测来改进实例分割性能。

总结:在原来的大多数框架中,分类的置信度(confidence)被用作MASK的质量分数,但分类得分与MASK质量没有很大相关性,我们提出一个新的模块用来评估MASK质量的分数。(MASK IOU)

区别:MASK RCNN衡量mask的质量是根据分类的置信度,而我们提出的MSK Scoring RCNN 是提出一个模块根据ROI feature和predicted mask,对mask和GroundTruth的mask之间的IOU进行回归。

Introduction:

在计算视觉中,深度学习网络的学习从图像分类逐渐向box-level分类、pixel-level分类演变。进行细粒度的预测的能力不仅需要详细的标签,还需要更加精巧的网络设计。

目标检测的下一步应该从粗略的box-level的实例分割演变到精确的pixel-level的分类。

具体来说,本文提出了一种对实例分割假设进行评分的新方法,该方法对实例分割评价具有重要意义。

原因在于,大多数评价指标(如AP)都是根据假设(MASK的假设、预测)得分来确定的,更精确的得分有助于更好地描述模型的性能。

但在传统的框架中,如MASK RCNN和MASKLab,instance mask的分数与box-level分类的置信度共享,该置信度由在proposal feature上应用的分类器预测的。使用分类置信度来度量MASK质量是不合适的,因为它只用于区分proposals的语义类别,而不知道实例MASK的实际质量和完整性。

图中每幅图上标记的两种模型的分数分别是:MS RCNN—我们提出的MASK IOU模块对MASK质量的打分,Mask R-CNN:分类分数。(classification score)。红色的框体现了box-level的框的位置的精确程度。由于背景杂乱,遮挡等问题,如图1所示,分类得分可能很高,但MASK质量很低。

与以前的旨在获得更准确的实例定位或分割mask的方法不同,我们的方法着重于对MASK评分。 为了达到这个目标,我们的模型学习了每个MASK的分数,而不是使用其分类分数。为了清楚起见,我们将学习到的分数称为MASK分数。

受到实例分割的AP评测指标(在预测的MASK和它的ground truthMASK之间使用像素级Intersection-over-Union (IoU)来描述实例分割质量)的启发,我们提出一个网络去直接学习IoU,将这个IoU称为MASKIoU

MASK 质量分数是这样计算的:一旦我们在测试阶段得到了预测的MaskIoU,通过将预测的MaskIoU与分类分数相乘来重新评估mask score。因此,MASK评分既能识别语义类别,又能识别实例mask的完整性。

                                                                                  Smask = Scls · Siou

我们提出的这个模块称为MaskIoU head,它将mask head的输出(predicted mask)和RoI特征作为输入,并使用简单的回归损失进行训练。

the results demonstrate that our method provides consistent and noticeable performance improvement attributing to the alignment between mask quality and score.

Summary:  我们的贡献

  1. 我们提出的网络是第一个强调对实例分割的假设打分的。这是一个改善实例分割模型的新方向。
  2. Mask IoU head简单高效,在COCO数据集上,AP在不同的backbone网络上提升了1.5%。

Related work:

实例分割的方法目前可以划分为两类:基于检测的方法(detection)和基于分割的方法(segmentation)。

基于检测的方法是获得每一个实例的区域(region),然后为每一个区域预测一个MASK。

“get the region of each instance, and then predict the mask for each reion. mask quality is only measured by the classification scores.”

基于分割的方法首先对每个像素的类别标签进行预测,然后将它们分组形成实例分割结果。例如一些基于聚类的方法(引用一些文献)。由于这些方法没有明确的分数来衡量实例MASK质量,因此它们必须使用像素级的平均分类分数作为替代。

“Segmentation based methods predict the category labels of each pixel first and then group them together to form instance segmentation results.”

上述两类方法都没有考虑掩模分数和掩模质量之间的对齐。由于掩模分数的不可靠性,一个掩模假设如果掩模分数较低,则IoU对ground truth越高的掩模假设越容易被评为低优先级。在这种情况下,最终AP会因此降低。(不是很理解,似懂非懂)。

为了证明分类得分与MASK质量没有很大相关性,也做了实验比较 两种模型对mask的打分方式,与mask质量的关系。(MASK IoU越接近1,mask质量越好。

Motivation

由于背景杂乱,遮挡等问题,分类得分可能很高,但MASK质量很低。为了量化分析这个问题,我们设计实验,在MASK RCNN中MASK得分(根据分类),和我们提出的评分方法Smask = Scls · Siou(MaskIoU head得出的Siou)这两种mask评分方法下,对比了两种模型生成的mask与Groundtruth的MASK之间的IoU。(即图中标出的MaskIoU,衡量mask生成的精确程度。)

图a是MASK RCNN模型,在分类分数上的MaskIoU分布,无明显相关性。图b是Mask Scoring RCNN在我们的mask score上的MaskIoU分布情况,具有相关性。图c显示定量结果,我们将每个MaskIoU区间的分数取平均值,可以看出我们的方法可以更好的将分数与MaskIoU对应起来。

这些图都说明,MASK RCNN的根据分类打分的方法,与MASKIoU没有相关性,即与mask的生成质量相关性低。

以上的所有分析,都促使我们针对每个检测假设(detection hypothesis),基于MaskIoU去学习校准的MASK得分。

为了不失一般性,基于MASK RCNN,提出MASK Scoring RCNN:一个具有额外MaskIoU head模块的Mask R-CNN,该模块学习MaskIoU对齐的Mask得分。

Mask scoring in Mask R-CNN

Mask head : 将ROI Align层的实例特征和预测的mask拼接作为输入,并预测输入mask和groundtruthmask之间的IoU。

takes the instance feature and the predicted mask together as input, and predicts the IoU between input mask and ground truth mask

我们定义Smask为预测的mask的分数,理想的Smask等于像素级别上的预测mask和Groundtruth之间的IoU,在之前的分析中也称之为MaskIoU。Smask应该只在对应Groundtruth相应的类别时存在,对于其他类别,Smak为0.

这就需要mask 得分需要完成两个任务:1.将mask分类为正确的类别。2. 为前景对象类别回归相应区域(proposal)的MaskIoU。(用maskiou精确mask打分?)

This requires the mask score to works well on two task: classifying the mask to right category and regressing the proposal’s MaskIoU for foreground object category.

因此我们将mask打分的任务分解为两部分:mask分类和IoU回归。定义:

                                                                     Smask = Scls · Siou

Scls focuses on classifying the proposal belong to which class and Siou focuses on regressing the MaskIoU.”

网络结构:

Mask head 网络最后一层(FC全连接层)输出的是C个类别的MaskIoU。(是C个分数)

Mask head 回归过程

为了训练MaskIoU head这个分支,我们用RPN区域作为训练样本。这个训练样本需要满足该区域的提出的box边框和GT之间的IoU大于0.5,这一点和Mask RCNN 的mask分支要求一样。为了为每一个训练样本生成回归目标,我们首先获得目标类别的预测的mask,并且根据阈值0.5,二值化这个mask。然后我们用二值mask和它相应的GT之间的MaskIoU作为MaksIoU回归目标。我们使用L2loss去回归MaskIoU。

For training the MaskIoU head, we use the RPN proposals as training samples. The training samples are required to have a IoU between proposal box and the matched ground truth box larger than 0.5, which are the same with the training samples of the Mask head of Mask R-CNN. For generating the regression target for each training sample, we firstly get the predicted mask of the target class and binarize the predicted mask using a threshold of 0.5。Then we use the MaskIoU between the binary mask and its matched ground truth as the MaskIoU target. We use the ℓ2 loss for regressing MaskIoU。

后面是实验结果评测,和一些消融实验。

Mask Scoring Rcnn论文解读《Mask Scoring R-CNN》相关推荐

  1. Mask Scoring R-CNN论文解读

    Mask Scoring R-CNN论文解读     人工智能大神何凯明的Mask R-CNN对实例分割做出了巨大的贡献,在2019年的CVPR会议中,一个基于Mask R-CNN的一个名为Mask ...

  2. Mask Scoring R-CNN论文阅读

    为了以后的学习方便,把几篇计算机视觉的论文翻译放上来,仅为自己的学习方便,本文仅将自己感兴趣部分简单翻译.排版对手机端不友好,欢迎各位指正. 为提高实例分割的性能,该论文寻找了一个新的方向--对生成的 ...

  3. cnn 句向量_深度学习目标检测Fast R-CNN论文解读

    前言 我们知道,R-CNN存在着以下几个问题: 分步骤进行,过程繁琐.Selective Search生成候选区域region proposal->fine tune预训练网络->针对每个 ...

  4. 语义分割算法Mask RCNN论文解读

    论文名称:Mask R-CNN 论文地址:https://arxiv.org/abs/1703.06870 代码地址:https://github.com/matterport/Mask_RCNN s ...

  5. (目标检测)Faster R-CNN 论文解读+复现

    Faster R-CNN xyang 声明:本篇文章借用了他人理解,如有侵权,请联系,另如需转载,请注明出处 关于最新最全的目标检测论文,可以查看awesome-object-detection &l ...

  6. R-CNN论文解读/总结 详细笔记

    此篇为目标检测经典论文 R-CNN系列论文:R-CNN (Rich feature hierarchies for accurate object detection and semantic seg ...

  7. CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪

    作者丨左育莘 学校丨西安电子科技大学 研究方向丨计算机视觉 图像去噪是low-level视觉问题中的一个经典的话题.其退化模型为 y=x+v,图像去噪的目标就是通过减去噪声 v,从含噪声的图像 y 中 ...

  8. CVPR2019 | Libra R-CNN 论文解读

    作者 | 文永亮 学校 | 哈尔滨工业大学(深圳) 研究方向 | 目标检测.GAN 推荐理由 ​ 这是一篇发表于CVPR2019的paper,是浙江大学和香港中文大学的工作,这篇文章十分有趣,网友戏称 ...

  9. 目标检测算法Faster R-CNN论文解读

    论文题目:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 论文地址:https://arx ...

最新文章

  1. 如何选择就业方向(80后的个人经验,转载)
  2. jmeter线程数并发数区别_如何确定Kafka的分区数、key和consumer线程数、以及不消费问题解决...
  3. 基于JAVA+SpringMVC+Mybatis+MYSQL的超市订单管理系统
  4. lucene开发序之luke神器
  5. express的基本用法
  6. 读《NoSQL精粹》前三章有感
  7. 图的BFS和DFS原理及实例分析(java)
  8. 力软敏捷开发框架源码7.0.6旗舰版 JNPF开发平台3.3.3 3.4.1企业版/旗舰版框架
  9. 【c语言】算数转换解析+试题
  10. 程序员如何站在巨人的肩膀上
  11. SCRIPT1004: 缺少 ‘;‘IE8浏览器报错
  12. matlab7 fig exe 阴影,Matlab 生成完全独立运行的 EXE文件的问题请教
  13. 区块链溯源:重塑咖啡产业链
  14. java jsoup 网络爬虫 jsoup解析html Java爬虫 Jsoup爬虫 jsoup例子
  15. from . import *
  16. (转载)Bro:一个开放源码的高级NIDS系统
  17. [LeetCode]Buy and Sell Stocks 买卖股票问题
  18. 康威定律【系统设计的影响因素】
  19. ARP的欺骗原理和攻防
  20. 欧盟想要把苹果的 iPhone 变成 Android 手机

热门文章

  1. java结束if_java中如何结束if循环
  2. 深入了解C语言和C++哪个更难?
  3. sapjco3使用详解
  4. 浪潮发布全新AI品牌TensorServer ,加速推进智慧计算战略
  5. 数据结构中的“结点”和“节点”,到该底用哪个?
  6. 毕业设计-基于大数据的移动图书馆个性化推荐系统-python
  7. 使用ArcGIS API和Three.js在三维场景中实现动态立体墙效果
  8. 在JS数组特定索引处指定位置插入或修改元素的技巧
  9. Hive 查看和修改 tez 容器的资源
  10. win10+ ubuntu16.04 双系统及无线、输入法、deepin-wineQQ微信等配置(亲测)