实例分割向：Mask R-CNN

Abstract

我们展现了一个思想上很简单的、灵活的、一般的目标实例分割框架。我们的方法有效地实现了在一幅图上同时生成高质量的分割掩膜并检测目标的目的。这一方法称为，Mask R-CNN，它在Faster R-CNN的基础上衍生出和目前已经存在的bbox识别并行的、用来预测目标掩膜的分支。Mask R-CNN的训练方式很简单，并且只比Faster R-CNN多出一点overhead，速度是5帧美妙。此外，Mask R-CNN很容易扩展到其他的任务上，比如用这一框架可以估计人类姿势。在COCO的三个挑战上，我们的方法都实现了top的结果，包括实例分割，bbox目标定位以及人类关键点检测。即使不添加任何trick，Mask R-CNN也比目前现有的，包括COCO 2016挑战赛冠军的表现更好。我们希望我们简单而有效的方法将会成为一个基石，并且使得实例水平的识别上的研究更为简单。代码随后会公布。

1. Introduction
视觉委员会在短短一段时间内迅速地提升了目标检测和语义分割的结果。大部分情况，这些进步都是由强大的baseline系统，比如Fast/Faster R- CNN以及FCN这些目标检测和语义分割系统推动的。这些方法在思想上很直接，并且具有灵活性和稳健型，同时训练和测试都很迅速。我们的目标是研究出一个实例分割的框架。
实例分割挑战比较大是因为它需要图片中所有目标的精确定位，同时也需要精确地分割每一个实例。因此它结合了经典计算机视觉的任务——目标定位（目标是对单个目标进行分类并通过bbox进行定位），以及语义分割（目标是将每一个像素分类称为一些固定的类别而非区别目标实例）在这种情况下，有人可能会想实现好的结果需要一个复杂的方法。然而，我们的研究结果发现，一个简单的、灵活的、迅速的系统可以超过先前任何state-of-the-art的实例分割结果。
我们的方法，称为Mask R-CNN，它在Faster R-CNN的基础上扩展了一条分支来实现在每一个RoI上进行分割掩膜的预测，与之并行的还有分类和bbox回归。对于每一个RoI而言，掩膜分支都是一个小的全卷积神经网络，在像素的水平上预测分割掩膜。在Faster R-CNN 框架的基础上，Mask R-CNN实现和训练的方法都很简单，Faster R-CNN这一框架实现了很多灵活的结构设计。此外，mask分支只增加了很少的计算量，但训练和测试的速度都很快。
理论上Mask R-CNN是Faster R-CNN一种直觉上的延伸，然而对于好的结果而言合适地简历mask分支是很关键的。最重要的是，Faster R-CNN在网络输入和输出之间并没有设计像素之间的对齐。在RoIPool方面尤其明显，这种事实上很核心的对于实例的操作，对于特征提取而言实现的事很粗糙的空间量化。为了解决非对齐的问题，我们提出了一种简单的，不用量化的层，叫做RoIAlign，它很好地保留了精确的空间位置。尽管存在微小的变化，RoIAlign的影响非常之大，他提升了10%到50%的mask准确率，在更为严格的定位度量下实现了更好的效果。第二，我们发现decouple mask和分类预测是很有必要的：我们独立地为每一个类别预测一个二值化mask，并不在不同的类别之间发生冲突，并依赖于网络的RoI分类分支来预测类别。相比之下，FCNs通常实现的是，单个像素上多类别的分类，它将分割和类别合并。
没有其他浮夸的东西，Mask R-CNN在COCO实例分割任务上超过了所有以前的state-of-the-art的单个模型的结果，包括2016挑战赛冠军。除此之外，我们的方法在COCO目标识别任务上也领先了。在消融实验中，我们评价了基础事例，展现了该系统的文件行以及分析了其中的关键因素。
我们的模型在在GPU上的速度为每帧200ms，在一台拥有8个GPU的电脑上训练COCO数据集大概要花费1-2天。我们认为加速训练和测试同时提高框架的灵活性和准确性对于实例分割日后的研究都会有益。
最后，我们通过在COCO关键点数据集上实现人类关键点估计这一任务展示了我们的框架的通用性。我们将每一个关键点看作是one-hot的二值mask，只需对Mask R-CNN做一些微小变化，它就可以应用到检测姿势上来。不添加任何trick的情况下，Mask R-CNN超过了2016 COCO关键点比赛冠军的表现，速度保持在5帧每秒。因此，Mask R-CNN可以看作是实例水平上的识别方面的一个灵活的框架，并且可以对其进行扩展实现更复杂的任务。

我们随后会公布代码来方便日后的研究。

2.Related Work
R-CNN：这一基于区域的用来进行bbox目标定位的CNN方法主要关注于一些候选的目标区域并且在每一个RoI上独立地评价卷积神经网络。R-CNN的扩展使得我们可以在特征图的RoI上用RoI池化，达到更快的速度和更高的准确率。Faster R-CNN则通过学习注意力机制的方法，将这种思想实现形成了RPN。Faster R-CNN更为灵活与文件，并且是目前领先的几个benchmark其中之一。
Instance Segmentation：在R-CNN的驱动下，实例分割的许多方法都是基于分割建议进行的。更早的方法诉诸于自顶向下的分割。DeepMask以及随后的成果是通过学习建议分割候选框，这些候选框随后会由Fast R-CNN进行分类。在这些方法中，分割是位于识别之前进行的，因此速度会更慢、精度也会更低。同样地，Dai等人提出了一种复杂的、多阶段的cascade，它先从bbox建议中预测分割建议，随后再进行分类。而我们的方法是同时进行了mask的预测和类别标签的预测，更为简单和灵活。

在近期的早些时候，Li等人将分割建议及通通目标检测系统进行合并，形成了FCIS这篇文章，即全卷积实例分割。几篇文章共同的思想是全卷积地预测一系列正向敏感的输出通道。这些通道同时处理目标类别、框以及mask，加快这一系统的速度。但是FCIS对于有重叠的实例会有系统误差，并且会引入伪造性的边界。

3. Mask R-CNN
Mask R-CNN的思想很简单，Faster R-CNN对于每一个候选目标都有两个输出，即分类标签和bbox；在这一基础上我们添加第三个分支，让它输出目标掩膜。但是这一额外的mask输出同类别和box输出不一样，它需要目标的更精细的空间位置。随后，我们引入了Mask R-CNN的关键元素，包括像素点的对齐，这是Fast/Faster R-CNN所没有的部分。

Faster R-CNN：我们先从回顾Faster R-CNN这一检测器开始。Faster R-CNN包括两个阶段。第一阶段，叫做RPN，它提供候选目标bbox的建议。第二阶段，本质上是一个Fast R-CNN，它通过RoIPool从每个候选框中提取特征，并实施分类和bbox回归。两个阶段使用的特征为了速度的考虑可以实现共享。

Mask R-CNN: Mask R-CNN采取的是两阶段策略，第一阶段完全相同（就是RPN）。在第二阶段，同预测类别以及box并行的还有一个针对每个RoI输出的二值的mask。这同最近大多数检测系统形成了对比，他们的分类取决于mask的预测。而我们的方法则延续了Fast R-CNN的精神，即同时并行bbox分类和回归（结果是大大地简化了原R-CNN的多阶段pipeline过程）
在训练阶段，我们对于每个取样得到的RoI的多任务损失，即L = Lcls + Lbox + Lmask

其中分类损失和bbox损失同Faster R-CNN中定于的一样。Mask分支的输出对于每一个RoI的维数是Km2 维，其中K表示类别的数量，精度为m × m。用的是sigmoid函数，损失函数定义的是平均二值交叉熵损失。对于每一个对应着真实分类k的RoI，Lmask定义在第k个mask上（其余的mask不对损失做任何贡献）。

给予以上对Lmask的定义可以得出，我们可以使得网络对于每一个类别生成mask，并不同其他的类别发生冲突；输出的mask 的选择是通过类别分支得到的预测类别标签所获得的。这减弱了mask和类别预测（???）。这同一般地运用全卷积神经网络进行语义分割不太一样，FCN一般用softmax函数和多类别的交叉熵损失。在这种情况下，不同类别之间的mask会有冲突；然而，在我们的情况下，单个像素水平上的sigmoid函数和二值损失并不会产生这种情况。

Mask Representation:一个mask编码了一个输入目标的空间位置。因此，不同于类别标签或者box，它们不可避免地由于全连接层的原因压缩成了短的输出向量。由卷积层提供的像素对像素的对应可以自然地解决mask空间结构提取的问题。
我们通过一个全卷积神经网络从每个RoI上预测一个m × m大小的mask。这允许mask分支上的每一层都维持m × m的目标空间排布而不用压缩成一个响亮表示，因此失去了空间维度。不同于先前求助于全连接层来实现mask预测，我们的全卷积所需的参数更少。
这种像素对像素的行为需要RoI特征，这些特征本身就是很小的特征图，它们排布整齐，因此保持了每个像素明确的空间对应关系。

RoIAlign: RoIPool 是一种从每个RoI中提取小特征图的标准操作。提取RoI池化首先将一系列RoI量子化为非连续的间隔尺寸的特征图，这些被量子化的RoI随后被戏份被空间中的bin，而这些bin本身也被经过了量子化，最后将每个bin覆盖的特征值汇总（通常是通过最大池化的方法）。

量化的方法是在连续的坐标x上计算[x/16]，其中16代表特征图的步长，[·]代表取整。相似的方法也被用来分割bin。这种量化会引入RoI和被提取的特征之间的不一致性。尽管这并不会影响最终的分类，因为它对小变换是文件的，但其实它对于预测像素水平上的mask有较大的负面影响。

为了解决这一问题，我们提出了RoIAlign层来消除RoI池化层的影响，通过将提取的特征同输入进行合适地匹配一致性。这种方法很简单，即避免RoI边界或者bin的任何量化（比如，我们用x/16而非[x/16]）???。用双线性插值发来计算每一个RoI bin的四个一般的取样位置的输入特征的精确值，并将结果汇总（用最大或平均的方法）。

RoIAlign的引入对结果有很大的提升。我们同时将我们的方法与前人提出的RoIWarp进行了对比。不同于RoIAlign，RoIWarp忽略了对齐这一方面，并且同RoIPool量化RoI的方法相似。所以即使RoIWarp同样采用了双线性重取样的方法，它同RoIPool在实验中的表现仍然一致，这显示出alignment的重要性。

网络结构：为了展示我们的方法的一般性，我们用不同的结构来示例Mask R-CNN。为了清楚地表示，我们首先要区分以下：（1）对于整张图片进行特征提取的卷积backbone结构以及对于bbox识别（分类和回归）以及针对每一个RoI分别进行mask预测的网络head.
我们用系统命名法（网络-深度-特征）来代表backbone结构。我们评估了50层和101层的ResNet和ResNeXt。用ResNets实现的Faster R-CNN从第四阶段的最后的卷积层提取特征，我们称之为C4。这个用ResNet-50的backbone，我们将其表示为ResNet-50-C4。

我们同样探索了Lin等人最近提出的更有效的backbone，叫做FPN。FPN是一个有着横向连接、自顶向下的结构，它的目的是从单一大小的输入建立一个内在网络的特征金字塔。Faster R-CNN with an FPN backbone根据RoI特征的大小从不同水平的特征金字塔上提取RoI特征。在Mask R- CNN中用ResNet-FPN backbone进行特征提取可以实现精度和速度的提升。

对于网络head，我们遵循了前人工作中的结构，把它们附加到全卷积mask预测分支上去。特别地，我们从ResNet和FPN这两篇文章中延伸了Faster R-CNN的box head（???）ResNet-C4 backbone的头部包括了ResNet的第五阶段（res5）。对于FPN而言，backbone已经包括了res5，因此它可以用更少的滤波器达到更有效的目的。
我们注意到我们的mask分支的结构比较简单。更复杂的设计可能可以提升表现，但这并非本文的目的所在。
3.1. Implementation Details
我们根据目前已有的Fast/Faster R-CNN来设置超参数。
训练：正如Fast R-CNN，我们将一个RoI看作positive当且仅当它同gt的IoU大于0.5，negative与之相反。Mask 损失只在positive RoIs上有定义。Mask目标是RoI和它相关的真实mask之间的交集。
我们采取以图片为中心的训练方式。图片经过重构使得短边为800像素。每个GPU上每个mini-batch有两张图片，每张图片有N个抽样的RoI，正负比为1:3。对于C4 backbone而言N取64，对于FPN而言N取512.我们在8块GPU上进行了16w次迭代，学习率为0.02，在12w次迭代的时候降为原来的十分之一。Weight decay为0.0001，momentum为0.9。
RPN的anchor有5种大小规模、3种长宽比。为了便于消融实验的进行，RPN的是被分开单独训练地，而且并不同Mask R-CNN进行特征共享，除非额外知名。在这篇文章中，RPN和Mask R-CNN的backbone一致，因此它们可以实现共享。
Inference：在测试的时候，对于C4 backbone，建议数为300，而FPN的建议数为1000.我们在这些建议上进行box预测，随后进行非极大抑制。Mask分支随后被运用到得分最高的100个检测框上。尽管这同训练的时候进行的平行计算不同，但是它加速了inference并且提高了准确率（由于使用了更少、更为精确的RoIs）。对于每一个RoI，mask分支可以预测K个mask，但是我们只使用第k个mask，其中k是分类分支中被预测出来的类别。输出的mxm大小的mask随后会被重构成同RoI大小一致，二值化的threshhold为0.5。
注意到由于我们只计算前100个检测框的mask，Mask R-CNN会在 Faster R-CNN的基础上增加一些额外的运行时间（比如，在典型模型上大约20%的时间）。

4. Experiments: Instance Segmentation

我们将Mask R-CNN同the state of the art进行了彻底的消融实验对比。我们全程使用的数据集为COCO。使用的度量值为AP (aver- aged over IoU thresholds), AP50 , AP75 , and APS , APM , APL (不同规模上的AP).除非特别说明，AP是基于mask IoU进行的评估。同先前一致，训练集大小为8w张图片，其中3.5w为trainval的图片数量，在剩下的0.5w张图片上进行消融实验作为minival。我们同样展示了在test-dev上的效果，这些test-dev图片上并没有标签。发布之后，我们会上传我们在test-std上完整的效果，作为参考。

4.1. Main Results

在表一中我们将Mask R-CNN同the state-of-the-art方法在实例分割上的表现进行了对比。我们的模型输出的所有结果都超过了先前的state-of-the-art的表现。其中包括MNC——2015 COCO冠军以及FCIS——2016分割挑战赛冠军。在不添加任何trick的情况下Mask R-CNN with ResNet-101-FPN backbone超过了FCIS+++，这其中包括multi-scale的训练和测试，水平翻转测试以及OHEM（在线困难样本挖掘）。

图2和图4展示了Mask R-CNN的输出结果。Mask R-CNN在困难情况下依然可以实现好的结果。

在图5中我们将Mask R-CNN baseline同FCIS+++进行了对比。FCIS+++在交叉实例上出现了系统错误，表明它在遇到较为棘手的实例分割情况时会受影响。而我们的Mask R-CNN则不存在这样的情况。

4.2. Ablation Experiments
为了分析Mask R-CNN，我们进行了一系列消融实验。表2展示了结果。

Architecture:表2a展示了不同的backbone的Mask R-CNN。较深的网络有较好的效果，更好的设计比如FPN和ResNeXt也会有更好的效果。但我们也同时注意到并非所有的框架都能从更深或者更高级的网络中获益。

Multinomial vs. Independent Masks: Mask R-CNN将mask和类别预测分开：当目前的box分支在预测类别标签的时候，我们为每一个类别生成一个mask，在类别之间不发生任何冲突（运用的是sigmoid函数和二值损失）。在表2b中，我们将这种做法同softmax和multinomial的损失（FCN常用的做法）进行对比。这种方法将mask和类别预测任务couple在一起，会导致mask AP较为严重的下降。这显示出，一旦实例（被box分支）作为一个整体分类之后，我们有必要在不考虑其类别的情况下对其进行二值mask预测，这同样使得模型更好进行训练。
Class-Specific vs. Class-Agnostic Masks:我们默认对mask进行类别清晰的预测，每个类别都有一个m×m mask。有趣地是，带有类别不清楚的mask的Mask R-CNN（即，只对单个输出进行预测而不管它的类别）几乎是有效的：它的AP达到了29.7，而类别清晰的Mask R-CNN的AP则为30.3。这更为显示出了我们decouple分类和分割的正确性。
RoIAlign:对于我们提出的RoIAlign的评价结果在表2c中进行了展示。在这一实验中，我们使用了ResNet- 50-C4 backbone，步长为16。RoIAlign相较于RoIPool在AP上提升了大约3个点，其中大多数都归因于高IoU。RoIAlign对最大/平均池化不太敏感；接下来的文章中使用的都是平均池化。
除此之外，我们同时还将RoIAlign同RoIWarp进行了对比，RoIWarp中也使用了双线性取样。正如之前讨论的，RoIWarp依然量化了RoI，但失去了同输入的一致性。在表2c中可以看出，RoIWarp同RoIPool的表现一致，它们的表现都不如RoIAlign，这显示出proper alignment是关键。
同时，我们还在ResNet-50-C5 backbone上对RoIAlign进行了评估，步长为32像素。由于res5的head不合适，因此选择了同图三（右边）一致的head。表2d显示了RoIAlign在mask AP上提升了7.3个百分点，在AP75 上提升了10.5个百分点。除此之外，我们注意到步长为32的C5比步长为16的C4更准确。RoIAlign很大程度上解决了长期以来在检测和分割上用大步长特征的挑战。
Mask Branch:分割是一种像素水平上的任务，我们通过使用FCN来利用mask的空间分布性。在表2e中，我们在ResNet-50-FPN backbone的情况下，比较了MLP和FCN。使用FCN可以得到比使用MLP多2.1个mask AP的效果。注意到选择这个backbone的时候FCN的head并不是预训练的，这是为了同MLP进行对比。

4.3. Bounding Box Detection Results
在表3中我们将Mask R-CNN同state-of-the-art COCO bbox目标检测进行对比。在这一结果中，即使我们对整个Mask R-CNN模型进行训练，只有分类和box输出在inference的时候被使用（mask输出被忽略了）。用ResNet-101- FPN 的Mask R-CNN的表现超过了之前所有的state-of- the-art模型，其中包括2016 COCO检测挑战赛冠军——G- RMI这个单一模型。使用ResNeXt-101-FPN，Mask R-CNN进一步提升了表现，在box AP方面提升了3个百分点。

进一步地比较发现，我们训练了一个没有mask分支的 Mask R-CNN，在表3中中记为“Faster R-CNN, RoIAlign”。这一模型由于“RoIAlign”的存在超过了FPN的表现。另一方面，在box AP的表现上，它只比Mask R-CNN低0.9个百分点。这一在box检测的差距得益于多任务训练。

最近我们注意到，Mask R-CNN实现了mask（37.1）和box AP（39.8）之间的差距缩小的趋势。这暗示着我们的方法大大地缩小了目标检测和更具挑战性的事例分割任务之间的差距。

4.4. Timing
Inference:我们训练了一个ResNet-101-FPN的模型，其中RPN和Mask R-CNN之间共享特征，并运用了Faster R-CNN的4步训练法则。这个模型在Nvidia Tesla M40 GPU上平均每张图花费195ms（再加上15ms的花费在CPU上对输出图片还原成原始精度的时间），并且达到了不进行特征共享的一致的mask AP。对于ResNet-101-C4，由于他的box head比较重，因此每张图片大约要花费400ms，因此我们不建议在实际中对它进行使用。
尽管Mask R-CNN很快，但我们注意到我们的时机不是为了速度而对其进行优化，此外，我们还可以实现速度和精度之间更好的trade-off，比如通过改变图片大小和建议数目，但此篇文章并不会对此进行讨论。
Training: Mask R-CNN训练的速度也很快。在我们的8-GPU设备上对trainval35k的COCO数据集训练一个ResNet-50-FPN模型大致花费32个小时，而ResNet-101-FPN则需要44个小时。实际上，在测试集上训练时，不到一天就可以完成迅速的prototyping。我们希望这种迅速的训练可以解决该领域的主要困扰，并激励越来越多的人在这一挑战性的主题上进行研究。

5. Mask R-CNN for Human Pose Estimation
我们的框架可以很容易地被扩展到人类姿势识别上去。我们对关键点位置进行建模，将其看作one-hot mask，并且用Mask R-CNN来预测K个mask，每一个对应着K个关键点种类。这项任务现实了Mask R-CNN的灵活性。
我们注意到我们的模型中对人体姿势领域的主要知识运用得并不多，因为实验的主要目的是展示Mask R-CNN的一般性。我们希望专业知识可以作为我们简单方法的一种补充，但它不再本篇文章的讨论范围之内。
Implementation Details:当运用到关键点检测上时，我们对分割系统进行了微小的调整。对于每一个实例的K个关键点，训练的目标是一个one-hot的、m × m大小的二值化mask，其中单个像素只被标记为前景。在训练的时候，对于每一个可见的真是的关键点，我们最小化一个m2-way的softmax输出的交叉熵损失（这可以使得我们只关注单个被检测到的点）。我们注意到在实例分割情况下，K个关键点需要被独立地处理。
我们采取的是ResNet-FPN这样的模型，这一关键点模型的head框架同图3的右边一样。这个关键点的head部分由8个3×3的512-d的卷积层叠加而成，之后是一个deconv层和2个双线性upscaling层，最后产生了一个精度为56×56的输出。我们发现，对于关键点水平上的检测，我们需要一个相对较高的精度输出。
模型在COCO的trainval35k的包括已经标记了关键点的图片上进行训练。为了缓解过拟合，当训练集缩小时，我们随机地在[640, 800]像素间变化图片的大小对模型进行训练；inference则只在800像素上进行。训练的迭代次数为9w次，学习率为0.02，在第6w次和8w次的时候分别变为原来的十分之一。非极大抑制threshold为0.5。
Experiments on Human Pose Estimation:我们在ResNet-50-FPN上对人的关键点AP进行了评估。我们同样测试了ResNet-101，发现效果几乎一样，可能的原因是因为更深层的网络更受益于更多的训练数据，但是这个数据集太小了。

表4展示了我们的结果(62.7 APkp)，比2016 COCO 关键点检测的冠军——使用多阶段加工pipeline——多了0.9个百分点。我们的方法显然更简单和快速。

更重要的是，我们有了一个统一的模型，它可以同时进行box预测、分割以及关键点检测，速度为5帧每秒。通过增加一个分割分支，test-dev上的准确性提升到了63.1。在minival上进行更多的多任务学习消融实验的结果展示在了表5中。在只有box（比如faster r-cnn）或只有keypoint的版本上添加mask分支可以持续改善这些任务的表现。然而，添加keypoint分支会轻微的减少box/mask的AP，这意味着尽管keypoint检测得益于多任务训练，反过来它并不会有助于其他的任务。然而，同时学习这三个任务可以使得一个统一的系统同时有效地对所有输出进行预测。
我们同时研究了RoIAlign在关键点检测中的作用。尽管ResNet-50-FPN backbone的步长较小，RoIAlign仍然现实了它相较于RoIPool的优势，APkp 增加了4.4个百分点。这是因为，关键点检测对位置准确性更为敏感。这也显示了alignment对于像素水平上的定位的必要性，包括mask和keypoint。

实例分割向：Mask R-CNN相关推荐

[深度学习概念]·实例分割模型Mask R-CNN详解
实例分割模型Mask R-CNN详解基础深度学习的目标检测技术演进解析本文转载地址 Mask R-CNN是ICCV 2017的best paper,彰显了机器学习计算机视觉领域在2017年的最新成 ...
卷积神经网络——实例分割之Mask R-CNN论文翻译
论文链接 https://arxiv.org/abs/1703.06870 相关论文翻译链接 R-CNN:https://blog.csdn.net/itlilyer/article/details/ ...
实例分割模型Mask R-CNN详解——从R-CNN，Fast R-CNN，Faster R-CNN再到Mask R-CNN
转载自 jiongnima 原文链接 https://blog.csdn.net/jiongnima/article/details/79094159 Mask R-CNN是ICCV 2017的bes ...
实例分割模型Mask R-CNN详解：从R-CNN，Fast R-CNN，Faster R-CNN再到Mask R-CNN
Mask R-CNN是ICCV 2017的best paper,彰显了机器学习计算机视觉领域在2017年的最新成果.在机器学习2017年的最新发展中,单任务的网络结构已经逐渐不再引人瞩目,取而代之的是 ...
实例分割：Mask RCNN
Mask RCNN 学习目标说明Mask RCNN的结构特点掌握Mask RCNN的RoIAlign方法掌握Mask RCNN的mask原理知道Mask RCNN的损失函数上图是MaskRC ...
Cascade R-CNN升级！目标检测制霸COCO，实例分割超越Mask R-CNN
点击我爱计算机视觉标星,更快获取CVML新技术前天,arxiv上新出一篇论文<Cascade R-CNN: High Quality Object Detection and Instance ...
mask rcnn算法分析_实例分割综述（单阶段/两阶段/实时分割算法汇总）
作者:Danny明泽来源:公众号@3D视觉工坊链接:实例分割综述(单阶段/两阶段/实时分割算法汇总) 简介目标检测或定位是数字图像从粗到细的一个渐进过程.它不仅提供了图像对象的类,还提供了已分类 ...
CVPR2020：三维实例分割与目标检测
CVPR2020:三维实例分割与目标检测 Joint 3D Instance Segmentation and Object Detection for Autonomous Driving 论文地址 ...
CVPR2021｜Anchor-free新玩法，一个head统一目标检测，实例分割，姿态估计三种任务...
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达本文转自小马哥@知乎,https://zhuanlan.zhihu.com/p/366651996. ...
实例分割综述（单阶段/两阶段/实时分割算法汇总）
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达简介目标检测或定位是数字图像从粗到细的一个渐进过程.它不仅提供了图像对象的类,还提供了已分类图像中对 ...

实例分割向：Mask R-CNN

实例分割向：Mask R-CNN相关推荐

最新文章

热门文章