Mask R-CNN全文翻译

文章目录

标题：Mask R-CNN
资源下载（PDF、学习笔记及资料）
Abstract
1.Introduction：（机翻）
2.Related Work：（机翻）
3.Mask R-CNN
- 3.1.Implementation Details
4.Experiments: Instance Segmentation
- 4.1 Main Results
- 4.2Ablation Experiments
- 4.3.Bounding Box Detection Results
- 4.4.Timing
5.Mask R-CNN for Human Pose Estimation（第5章及后内容为机翻）
A.Experiments on Cityscapes
插图
表
Mask R-CNN数据标注和模型训练
学习PySide2基于Python开发人工智能系统应用
修改记录

标题：Mask R-CNN

资源下载（PDF、学习笔记及资料）

百度云

链接: https://pan.baidu.com/s/16O_GHRtLMnWYheuY7XZ0ow?pwd=bijo 提取码: bijo
--来自百度网盘超级会员v6的分享

CSDN

https://download.csdn.net/download/weixin_43312117/86723246

Abstract

我们提出了一个简单的、灵活的、通用的实例分割网络。我们的方法能够有效检测图像中的每一个对象，同时对每个实例生成一个高质量的分割掩膜。这个方法称作是，Mask R-CNN，它通过一个并行预测对象的分支掩膜与识别分支并行的方式扩展Faster R-CNN。Mask R-CNN的训练很简单，仅在Faster R-CNN上增加小部分开销，达到每秒5帧。此外，Mask R-CNN很容易推广到其它任务，如，姿态估计。我们在COCO数据集的三个任务上都表现出了最好的结果，包括实例分割、边界框目标检测、人员关键点检测。不调参，Mask R-CNN能够在所有任务上优于所有现有单一的模型，包括2016COCO数据挑战赛的冠军。希望我们简单高效的方法能够成为一个坚实的基准模型，助力未来实例分割的研究更进一步。代码即将可用。

1.Introduction：（机翻）

视觉社区在短时间内迅速改善了目标检测和语义分割结果。在很大程度上，这些进步是由强大的基线系统推动的，例如分别用于对象检测和语义分割的Fast/Faster RCNN[12，34]和Fully Convolutional Network（FCN）[29]框架。这些方法在概念上是直观的，并且具有灵活性和鲁棒性，同时具有快速的训练和推理时间。我们在这项工作中的目标是为实例细分开发一个相对可行的框架。

实例分割具有挑战性，因为它需要正确检测图像中的所有对象，同时精确分割每个实例。因此，它结合了经典计算机视觉目标检测任务中的元素，目标是对单个对象进行分类并使用边界框对每个对象进行定位，以及语义分割，目标是将每个像素分类为不区分对象实例的固定类别集。鉴于此，可能需要一种复杂的方法来获得良好的结果。然而，我们表明，一个令人惊讶的简单、灵活和快速的系统可以超过先前最先进的实例分割结果。

我们的方法称为Mask R-CNN，它扩展了Faster R-CNN[34]，通过添加一个分支来预测每个感兴趣区域（RoI）上的分割掩码，并与现有的分类和边界框回归分支并行（图1）。掩码分支是应用于每个RoI的一个小FCN，以像素topixel方式预测分割掩码。鉴于更快的R-CNN框架，Mask R-CNN易于实施和训练，有助于广泛灵活的架构设计。此外，掩码分支只增加了较小的计算开销，从而实现了快速系统和快速实验。

原则上，Mask R-CNN是Faster R-CNN的直观扩展，但正确构建掩码分支对于取得良好结果至关重要。最重要的是，Faster RCNN不是为网络输入和输出之间的像素对像素对齐而设计的。RoIPool[18，12]是处理实例的实际核心操作，它是如何对特征提取进行粗略空间量化的，这一点最为明显。为了修复失调，我们提出了一个简单的、无量化的层，称为RoIAlign，它忠实地保留了精确的空间位置。尽管RoIAlign似乎是一个很小的变化，但它有很大的影响：它将掩模精度提高了10%到50%，在更严格的本地化指标下表现出更大的提高。其次，我们发现将掩码和类预测解耦是至关重要的：我们独立地为每个类预测一个二进制掩码，类之间没有竞争，并且依赖网络的RoI分类分支来预测类别。相比之下，FCN通常执行每像素的多类分类，这将分割和分类结合起来，并且基于我们的实验，对于分割来说效果很差。

Mask R-CNN在COCO实例分割任务[28]上超越了以往所有最先进的单一模型结果，包括2016年比赛获胜者的精心设计作品。作为副产品，我们的方法在COCO对象检测任务上也表现出色。在消融实验中，我们评估了多个基本实例化，这使我们能够证明其鲁棒性并分析核心因素的影响。

我们的模型在GPU上每帧可以运行大约200ms，在一台8-GPU机器上进行COCO训练需要一到两天的时间。我们相信，快速的训练和测试速度，以及框架的灵活性和准确性，将有助于并简化实例分割的未来研究。

最后，我们通过COCO关键点数据集上的人体姿势估计任务展示了我们框架的通用性[28]。通过将每个关键点视为一个热的二进制掩码，只需稍加修改，即可应用掩码R-CNN检测特定于实例的姿势。没有技巧，Mask R-CNN超越了2016年COCO关键点比赛的冠军，同时以每秒5帧的速度运行。因此，掩码R-CNN可以被更广泛地视为实例级识别的灵活框架，并且可以很容易地扩展到更复杂的任务。

我们将发布代码以促进未来的研究。

2.Related Work：（机翻）

R-CNN：基于区域的CNN（R-CNN）边界框对象检测方法[13]是关注可管理数量的候选对象区域[38，20]，并独立于每个RoI评估卷积网络[25，24]。R-CNN得到了扩展[18，12]，允许使用RoIPool在特征图上查看RoIs，从而实现了更快的速度和更好的准确性。更快的R-CNN[34]通过学习区域提案网络（RPN）的注意机制，推动了这一流。更快的R-CNN对许多后续改进（如[35、27、21]）具有灵活性和鲁棒性，是目前几个基准中的领先框架。

Instance Segmentation：受RCNN有效性的驱动，许多实例分段方法都基于分段建议。早期的方法[13，15，16，9]采用自下而上的分段[38，2]。DeepMask[32]和以下作品[33，8]学习提出细分候选框，然后由Fast R-CNN分类。在这些方法中，分割先于识别，识别速度慢且精度低。同样，Dai等人[10]提出了一个复杂的多阶段、从边界框方案预测分段方案，然后进行分类。相反，我们的方法是基于掩码和类标签的并行预测，这更简单、更灵活

最近，Li等人[26]将[8]中的分段建议系统和[11]中的对象检测系统结合起来，用于“完全卷积实例分段”（FCIS）。[8,11,26]中的常见思想是完全卷积预测一组位置敏感输出通道。这些通道同时处理对象类、框和遮罩，使系统速度更快。但是，FCIS在重叠实例上显示出系统性错误，并产生假边（图5），这表明它受到了实例分割的基本困难的挑战

3.Mask R-CNN

Mask R-CNN的概念很简单：Faster R-CNN的每个候选目标有2个输出，类标签和边界框偏移；我们增加了一个分支用于输出目标掩膜。这是一个自然又直观的想法。但是额外的掩膜输出不同于输出的类标签和目标库，需要对目标更加精细的空间布局。接下来，我们要介绍Mask R-CNN关键的地方，包括像素级的 Alignment，这是Fast/Faster R-CNN主要缺失的部分。

Faster R-CNN：我们简短的回顾一下Faster R-CNN。Faster R-CNN由两阶段构成的。第一个阶段，叫做RPN，提取目标候选框；第二个阶段的本质就是Fast R-CNN，用ROI从每个候选框中提取特征，并执行分类和边界框回归。共享特征能够得到更快的推理速度。我们推荐读者阅读文献21去了解Faster R-CNN和其它框架的最新综合比较。

Mask R-CNN：Mask R-CNN也是二阶段的，第一个阶段与RPN完全相同。第二个阶段，与分类与边界框回归平行的，Mask R-CNN对每个ROI输出一个二值掩膜。它与最近的系统对比，分类依靠掩膜预测。我们的方法与Fast R-CNN的内核相同，并行应用边界框回归和分类（这比原始R-CNN减少了大幅的流程）。

正式训练时，我们在每个ROI定义了一个多分支损失：
L=Lcls+Lbox+LmaskL=L_{cls} + L_{box}+L_{mask}L=Lcls+Lbox+Lmask
分类损失和边界框损失和Faster R-CNN原文是相同的。对于每个ROI，掩膜分支有K×m×m维，K是K个类别，m为分辨率的大小，每个掩膜均为二值图。对每个像素用一个Sigmoid激活函数，LmaskL_{mask}Lmask被定义为平均的二值交叉熵损失。每个ROI与K个GT相关，LmaskL_{mask}Lmask被定义为第K个掩膜，其它输出对这个loss没有贡献。

我们定义LmaskL_{mask}Lmask运行网络为每个类生成一个掩膜，掩膜间毫无竞争关系；我们用分类分支预测的类标签来选择输出掩膜的类标签。掩码与分类预测低耦合，这与FCN用于语义分割的常见做法不同，常用的是像素的softmax和交叉熵损失。那样的话，掩膜有类别间的竞争，我们的方法，每个像素点的Sigmoid和二值损失并不这样。我们的实验证明，这样的损失公式是能获得很好结果的关键。

Mask Representation：掩膜对输入对象的空间分布进行编码。因此，不像类标签或者位置偏移，全连接层较短的输出向量会不可避免的坍塌，提取掩膜的空间结构可以通过卷积自然的解决像素间的对应关系。

具体来讲，我们对每一个ROI使用FCN来预测一个m×m的掩膜。允许掩膜分支去保持m×m的目标空间结构，而不是用会缺乏空间维度的向量表示。不像是原来的方法那样用全连接层去预测掩膜，我们的全卷积参数量更少而且实验表明拥有更高的精度。

像素级的行为需要我们的ROI特征，他们是更小的特征图，能够很好的对齐以确保每个像素明确的空间位置。这样是因为ROIALign层在掩膜预测中发挥着重要的角色。

RoIAlign：RoIPool从每一个RoI小特征图（如7×7）中提取，这是一个标准的操作。ROIPool首先将浮点数ROI量化成像素图的离散度，然后将量化后的ROI分为空间单元，最后将每个单元的特征值进行聚合（使用最大池化max pooling）。量化是通过计算连续的x -> [x/16]（取整），16是特征图的步距；同样在划分时执行7×7的网格。这些量化会引起在ROI及特征提取间的偏差。这样的量化在对分类时可能没什么影响，很鲁棒，但对像素级的掩膜影响很大。

为了解决这个问题我们提出了一个RoIAlign层消除了RoIPool的严格量化，将提取的特征与输入对齐。我们提出的想法很简单：我们避免了RoI边界的任何量化使用x/16替代[x/16]，我们使用双线性插值来计算4个采样点的精确值，然后汇总结果（用最大/平均池化）。

RoIAlign有很大的提升，如4.2节所示。我们还比较了提出的RoIWarp操作如文献10。不像是RoIAlign，RoIWarp会出现和RoIPool一样的量化问题。即使RoIWarp也用了22的双线性插值，它的性能与RoIPool相当，如实验所示（更多细节如表2c），展示了对齐的关键作用。

Network Architecture：展示我们方法的通用性，我们用多个通用的框架来实现Mask R-CNN结构。为了更清晰，我们进行一下区分：

用于整个图像特征提取的卷积骨干结构；
网络分类头用于边界框分类和回归、掩膜预测，分别应用于每个RoI。

我们用网络深度特征来表示主干架构。我们评估了ResNet和ResNeXt网络深度50或101层。最初从Faster R-CNN中用ResNets进行特征提取的第四个阶段，我们称作c4，使用ResNet50骨干网络，我们称它为ResNet50-C4。在文献【19，10，21，36】中是很常见的。

我们也探索了更多高效的骨干网络【27】，被叫做FPN。FPN使用一个自上向下的横向金字塔结构，用于单一尺度的输入。Faster R-CNN使用FPN骨干网络提取RoI特征，从特征金字塔的不同尺度，其它方法类似于普通的ResNet。使用ResNets-FPN作为Mask R-CNN的特征提取骨干网络，能够获得更好的准确率和速度。更多关于FPN的细节，请阅读文献【27】。

对于网络头，我们严格的遵守原先的工作，仅仅额外增加了一个掩膜预测分支。具体来讲我们扩展了Faster R-CNN的box头从ResNet。细节如图3所示。ResNet-C4骨干的头，包括第五阶段的ResNet，叫做’res5‘，它的计算是密集的。对于FPN，骨干已经包含res5，因此允许使用更少过滤器的更高效头部。

我们注意到我们的掩膜分支有一个简单的结构。虽然更复杂的设计能够提升潜在的性能，但没有关注到工作本身。

3.1.Implementation Details

我们的超参数设计与Fast/Faster RCNN相同，尽管这些决定是原始论文做出的，我们发现我们的实例分割模型更具鲁棒性。

Training：在Fast R-CNN中，RoI的positive是与GT的IoU大于0.5部分，negative相反。掩膜分支的损失仅计算正例的RoIs。掩膜的目标是RoI与GT关联的实例。

我们采用以图像为中心的训练方式。调整图像的大小，让它的短边为800像素。每个GPU的每个mini-batch传入2张图像，每个图像有N个Roi，正负样本比例为1：3。C4时N是64，FPN是512。我们在8块GPU上训练（有效的mini-batch是16），迭代160k次，学习率设为0.02，在到120k是衰减10倍，weight_decay为0.0001以及动量为0.9。

这个FPN的anchor宽度为5个尺度3个横轴比，于文献【27】相同。便于消融，RPN单独被训练，特征不被Mask R-CNN共享，除非另有规定。对于本文的每个条目，RPN和Mask R-CNN有相同的骨干，所以可以共享。

Inference：测试时，C4骨干网络目标框数量是300，FPN是1000。我们对这些预测分支的目标框，进行非极大值抑制。掩膜分支用于最高的100个检测框。尽管这和训练时的并行分支不同，它能够加速推理速度提升准确率（因为使用更少，更精准的RoI）。对于每个RoI掩膜分支能够预测K个掩膜，但我们仅使用第k个掩膜，k是分类分支预测的的类别。将m×m的浮点数掩膜输出resize到RoI的大小，并以阈值为0.5二值化。

注意到，我们仅计算最高的100个检测框，Mask R-CNN添加到运行更快的Faster R-CNN中去。(e.g., ∼20% on typical models)

4.Experiments: Instance Segmentation

我们将Mask R-CNN与最新的模型进行比较，并且进行了详细的消融实验。使用COCO数据集进行所有的实验。我们报告标准的COCO指标AP（IoU阈值的平均值），AP50，AP75，APS，APM，APL（不同规模的AP）。除非其它的说明，AP被用于评估掩膜的IoU值。以前的工作，80k训练图像和35k验证子集，并报告余下5k验证自己的消融情况。我们也报告结果在test-dev，没有公开的标签。发布后，我们将安装测试标准的完整结果上传的公共排行榜。

4.1 Main Results

我们比较了Mask R-CNN与最好的实例分割方法如表1所示。我们模型所有的实例化都优于先前的各种变体的sota模型。包括MNC、FCIS以及COCO2016、2016实例分割调整的冠军。Mask R-CNN以ResNet-101-FPN作为骨干优于FCIS+++，包括多尺度train/test，水平翻转测试以及OHEM。虽然不在本工作的范围之中，但我们希望许多改进都是适合您的。

Mask R-CNN输出的可视化结果如图2和4。Mask R-CNN在具有挑战的情况下也能获得较好的结果。如图5，我们比较Mask R-CNN基准及FCIS+++。FCIS+++在重叠实例上显示系统工件，它是实例分割困难的挑战，但是Mask R-CNN并没有受到这样的影响。

4.2Ablation Experiments

我们进行了多次消融实验去分析Mask R-CNN。结果如表2所示，接下来进行详细讨论。

Architecture：表2a表明Mask R-CNN不同的骨干网络。更深的网络收益更多（50vs101），先进的设计包括FPN及ResNeXt。我们注意到，不是所有的框架都能受益于更深或者更前言的网络。

Multinomial vs. Independent Masks：Mask R-CNN掩膜和分类预测是低耦合的，现有的box分支预测类标签，我们为每个类生成一个掩码，他们之间毫无竞争（每个像素的Sigmoid和二值损失）。表2，我们比较了使用每个像素的sofmax和多项式损失（和FPN中使用的一样）。这个替代方案将掩膜和分类预测结合起来，结果导致掩膜ap值严重受损（5.5个点）。这表明一旦实例和分类作为一个整体（通过box分支），在不考虑类别的情况下它足够去预测一个二值掩膜，让模型更容易训练。

Class-Specific vs. Class-Agnostic Masks：我们默认实例化预测为特殊类的掩膜，每个类都有一个m×m的掩膜。有趣的是，Mask R-CNN用类别无关的掩膜（预测单个m×m的掩膜输出，无关类别）是很高效的，29.7 mask AP和30,3在特定类别的ResNet-50-C4。进一步突出了我们工作在我们研究的重要性，将分类与分割进行的大幅度的解耦。

RoIAlign：评估我们提出RoIAlign层如表2c。这个实验我们使用的是ResNet-40-C4骨干网络，stride16。RoIAlign提升了3个点的AP对于RoIPool，大部分收益都来自高的IoU（AP75）。RoiAlign对于max/average池化不敏感；后面都使用均值池化。

额外的，我们使用MNC提出的RoIWarp也使用简单的线性插值，在3章讨论，RoI任然量化了RoI，失去了与输入的对齐。如表2c，RoIWarp比RoIpool好一点，但是比RoIAlign更差。我们和强调了对齐才是关键点。

我们也在ResNet-50-C5骨干网络中验证了RoIAlign，有更大的步距为32。我们使用了相同的头如表3的左边，这个res5头不适用。表2d表明RoIAlig能够提升maskAP7.3个点，AP75提升10.5个点。进一步，我们注意到RoIAlign，使用步距32的C5特征30.9的AP比步距16的C4特征30.3AP更好，如表2c。RoIAlign解决了检测与分割使用大步距特征的挑战。

最终RoIAlign表明，增加了1.5 掩膜AP和0.5box AP，当使用FPN获得更加精细的多级尺度时。检测的关键点就是获得更加精细的对齐。使用RoIAlign即使使用FPN也能够得到很好的提升，如表6。

Mask Branch：分割是一个像素级的任务，我们通过使用FCN利用掩膜的空间布局。如表2e，我们比较MLP和FCN，均使用ResNet-50-FPN骨干网络。使用FCN能够比MLP获得2.1的mask 提升。为了公平的和MLP比较，我们选择了一个没有预训练过的FCN卷积层。

4.3.Bounding Box Detection Results

我们比较了Mask R-CNN与COCO边界框目标检测最好模型，如表3。结果表明，即使训练了整个Mask R-CNN模型，在推理时仅使用分类和边界框的输出（忽略掩膜）。Mask R-CNN使用ResNet-101-FPN优于其它各种变体模型，包括2016COCO调整赛的冠军模型GRMI。使用ResNext-101-FPN能有更进一步的提升，比最好单一模型（Inception-ResNet-v2-TDM）的边界框能够提升3.0AP。

进一步比较，我们训练了一个没有掩膜分支的Mask R-CNN，表示为Faster R-CNN，RoIAlign如表3。该模型比不使用RoIAlign更好，Mask R-CNN比它高0.9的box AP。Mask R-CNN的边界框检测之间的差距完全得益于多分支训练任务。

我们主要的Mask R-CNN获得了一个小幅度的提升，在掩膜和边界框AP，如表1和表3。这表明，我们的方法很大程度上缩小了目标检测和更具调整的实例分割任务间的差距。

4.4.Timing

Inference：我们训练一个ResNet-101-FPN模型，共享特征在RPN和Mask R-CNN阶段，遵循Faster R-CNN第四阶段的第四步训练。该模型在Nvidia Tesla M40 GPU上以每幅图像195ms的速度运行（再加上15ms的CPU时间，将输出调整为原始分辨率），并在统计上实现了与非共享的相同掩码AP。我们还报告说，ResNet-101-C4变体∼400ms，因为它有一个较重的box head（图3），所以我们不建议在实践中使用C4变体。

尽管Mask R-CNN很快，但是我们的设计并没有针对运行速度去优化，还可以达到更好的速度及准确率。通过调整图像的大小和平衡目标框数量，但这不在本文的范围中。

Training：Mask R-CNN训练更快。在我们的同步8-GPU实现中，使用ResNet-50-FPN进行COCO trainval35k培训需要32小时（每16个图像小批量0.72秒），而使用ResNet-101-FPN则需要44小时。训练时，快速原型制作可以在不到一天的时间内完成。我们希望这种快速训练将消除这一领域的主要障碍，并鼓励更多的人对这一具有挑战性的课题进行研究。

5.Mask R-CNN for Human Pose Estimation（第5章及后内容为机翻）

我们的框架能很轻松的扩展到人体姿态估计，我们模型将关键点作为One-hot mask，采用Mask R-CNN去预测K个mask，k个关键点类型各一种。这个任务帮助证明了Mask R-CNN的灵活性。

我们注意到，我们系统利用了人体姿态最小领域知识，因为实验主要是为了演示Mask R-CNN的框架的通用性。我们期望相关领域可以补充我们简单的方法，但这不在本文的范围中。

Implementation Details：我们对模型进行细微的修改已适应关键点检测。对于实例的K个关键点，训练目标为m×m的二进制掩膜，其中只有一个像素点标记为前进。在训练期间，对于每个可见的GT关键点，我们将m×m进行softmax输出的交叉熵损失降到最低（鼓励单个检测点）。我们注意到在实例分割中，k个关键点然然是独立处理的。

我们采用ResNet-FPN的变体，关键点头结果与图3左边相似。关键点头部由8个3×3 512-d为卷积层构成，然后是反卷积核2个线性层的上采样，产生一个输出分辨率大小为56×56。与掩膜相比关键点级定位精度需要相对较高的分辨率输出。

模型在包含注释关键点的所有COCO trainval35k图像上进行训练。为了减少过拟合，由于该训练集较小，我们使用从[640，800]像素随机采样的图像比例对模型进行训练；推断是在800像素的单一尺度上进行的。我们针对90k次迭代进行训练，学习率从0.02开始，在60k和80k次迭代中减少10次。我们使用阈值为0.5的边界框非最大值抑制。其他实现与3.1中相同。

Experiments on Human Pose Estimation：我们使用ResNet-50-FPN评估人员关键点AP（APkp）。我们对ResNet-101进行了实验，发现它获得了类似的结果，可能是因为更深入的模型受益于更多的训练数据，但这个数据集相对较小。

表4显示，我们的结果（62.7 APkp）比使用多阶段的COCO，2016关键点检测优胜者[6]高0.9点（见表4标题）。我们的方法即简单又快捷。

更重要的是，我们有一个统一的模型，可以在每秒5帧的速度下同时预测框、段和关键点。增加一个分割分支（对每个人）提高APkp到63.1如Table4在test-dev。表5显示了minival上多任务学习的更多消融实验。仅在box中添加掩码分支（即Faster R-CNN）或仅使用keypoint的版本可以持续改善这些任务。然而，添加keypoint分支会略微减少框/掩码AP，这表明虽然keypoint检测可以从多任务训练中受益，但它不会反过来帮助其他任务。然而，联合学习所有三个任务可以使一个统一的系统同时有效地预测所有输出（图6）。

我们还研究了RoIAlign对关键点检测的影响（表6）。尽管此ResNet-50-FPN主干具有更精细的步幅（例如，在最精细的级别上有4个像素），但RoIAlign仍比RoIPool有显著改进，并将APkp提高了4.4点。这是因为关键点检测对定位精度更敏感。这再次表明，对齐对于像素级定位至关重要，包括掩膜和关键点。

鉴于Mask R-CNN在提取对象边界框、遮罩和关键点方面的有效性，我们希望它是其他实例级任务的有效框架

A.Experiments on Cityscapes

我们进一步报告了Cityscapes[7]数据集上的实例分割结果。该数据集有2975个训练图像、500个验证图像和1525个测试图像的精细注释。它有20k个没有实例注释的粗糙训练图像，我们不使用这些图像。所有图像的固定分辨率为2048×1024像素。实例分割任务涉及8个对象类别，精细训练集中的实例数为如下所示：
此任务的实例分段性能由COCO风格的掩码AP衡量（IoU阈值的平均值）；还报告了AP50（即IoU为0.5时的掩码AP）。

Implementation：我们使用我们的Mask R-CNN模型和ResNet-FPN-50主干；我们已经测试了101层副本，发现由于数据集较小，它的性能类似。我们使用从[800，1024]随机采样的图像比例（较短的一侧）进行训练，这减少了过拟合；推断是在1024像素的单一尺度上进行的。我们使用每个GPU 1个图像的小批量大小（因此在8个GPU上有效地为8个），并对模型进行24k迭代的训练，从0.01的学习率开始，在18k迭代时将其降低到0.001。其他实施细节与§3.1相同。

Results：表7将我们的结果与val和测试集的最新技术进行了比较。在不使用粗训练集的情况下，我们的方法在测试中达到26.2 AP，比使用精细+粗标记的最佳条目提高了30%以上。与仅使用精细标签的最佳条目（17.4 AP）相比，我们实现了∼提高50%。这需要∼在单个8GPU机器上进行4小时的培训，以获得此结果。

对于人员和汽车类别，Cityscapes数据集显示了大量类别内重叠的实例（平均每张图像6人9辆汽车）。我们认为，类别内重叠是实例分割的核心困难。我们的方法显示，相对于现有的最佳条目（相对∼人员从16.5提高到30.5，提高了85%∼汽车性能从35.7提高到46.9，提高了30%。

Cityscapes数据集的一个主要挑战是低数据状态下的训练模型，尤其是卡车、公共汽车和火车类别的训练模型。要部分解决此问题，我们进一步使用COCO进行预训练。为此，我们从预先训练好的COCO Mask R-CNN模型（骑手被随机初始化）初始化城市景观中相应的7个类别。我们针对4k迭代对该模型进行了微调，在4k迭代中，学习速率在3k迭代中降低，这需要∼COCO模型培训1小时。

COCO预先训练的Mask R-CNN模型在测试中达到32.0 AP，几乎比纯精对口模型提高了6点。这表明了训练数据量所起的重要作用。它还表明，城市景观上的实例分割方法可能会受到其低镜头学习性能的影响。我们表明，使用COCO预培训是缓解涉及此数据集的有限数据问题的有效策略。

最后，我们观察到val和测试AP之间存在偏差，正如[23，4]的结果所观察到的一样。我们发现，这种偏差主要是由卡车、公共汽车和火车类别引起的，仅限精细模型的val/测试AP分别为28.8/22.8、53.5/32.2和33.0/18.6。这表明这些类别的领域发生了变化，培训数据也很少。COCO预培训有助于提高这些类别的成绩；然而，域转移持续存在，分别为38.0/30.1、57.5/40.9和41.2/30.9 val/test-AP。注意，对于人员和车辆类别，我们没有发现任何此类偏差（val/测试AP在±1分范围内）

城市景观的示例结果如图7所示。

插图

表

Mask R-CNN数据标注和模型训练

https://yidamyth.blog.csdn.net/article/details/124851003

学习PySide2基于Python开发人工智能系统应用

https://blog.csdn.net/weixin_43312117/article/details/125512308?spm=1001.2014.3001.5501

修改记录

读完之后，发现自己下载的不是最新的PDF，是中间版本emmm这就很尴尬了
相关资料上传到百度云和CSDN了，2022年09月27日10:59:08