感知算法论文（一）YOLACT: Real-time Instance Segmentation（2019）译文

文章目录

摘要
1. 引言
2. 相关工作
3. YOLACT
- 3.1 模板的产生
- 3.2 Mask 系数
- 3.3 Mask集成
- 3.4 其他情况
4. 检测器
5. 其他贡献
6. 结果
- 6.1 实例分割结果
- 6.2 Mask质量
- 6.3 动态稳定性
- 6.4 实现细节
7. 结论

摘要

本文提出了一个简单的全卷积网络来实现实时的实例分割（From 加州大学戴维斯分校）

MS COCO数据集——mAP=29.8%，33fps，在单个Titan Xp上实验，比目前任一方法都要快速，并且只使用了单个GPU。

为何获得如此好的效果： 将实例分割任务分成了两个并行的过程：

产生一系列模板mask
预测每个实例mask的系数

之后将模板mask和实例mask系数进行线性组合来获得实例的mask，在此过程中，网络学会了如何定位不同位置、颜色和语义实例的mask。

关键点：

该方法不依赖于repooling，并且可以产生高质量和高动态稳定性的masks。
本文尽管用全卷积网络实现，但模板mask可以自己在具有平移变换情况下对实例进行定位
本文提出了一种Fast NMS，比标准NMS快12ms，且性能损失很小

1. 引言

目前在实例分割方面取得最好效果的入Mask R-CNN和FCIS，都是直接从目标检测的方法，如Faster R-CNN或R-FCN等中衍生的。

但这些方法主要聚焦于网络的精度而非速度，使得缺乏与实时目标检测器（SSD或YOLO等）类似的实例分割方法。

本文的目标是跨越这个一直被忽略的实时实例分割的任务，建立一个快速的单级实例分割模型，类似于SSD和YOLO系列对弥补目标检测无单级网络所做的工作。

实现好的实例分割有一定的困难，且比目标检测困难许多。单级的目标检测器SSD和YOLO的出现使得目标检测的时间相对于使用两级检测器（Faster R-CNN等）有了大幅度的下降，单级检测器是通过去除第二级并在其他方面做了些弥补而获得了高速检测过程。

目前最好的两级实例分割方法，在产生模板mask上非常依赖于特征定位准确与否，也就是在一些b-box区域要对特征进行“repooling”（RoI pooling/align），之后将新的定位特征送入mask预测器中，这个过程是内在有序的，故很难加速。

单级的方法将该过程变为如FCIS那样并行的，但是这样一来就需要在定位之后进行很多后处理，仍然和“实时”有一定的差距。

本文提出的YOLACT（You Only Look At CoefficienTs）能够实时解决实例分割问题，放弃了定位的步骤。

YOLACT将实例分割分为两个并行任务：

1）针对整幅图像生成模板mask

2）对每个实例预测一系列的mask系数

之后，可以简洁的从上述两步中产生整幅图像的实例分割：对每个实例，将模板mask和预测的相应系数进行线性组合，并与预测的b-box进行裁剪。

本文后续展示了通过以这种方式进行分割的过程，网络学会了自己定位实例mask，在这种情况下，视觉上、空间上和语义上相似的实例将在模板中呈现不同。

由于模板mask的数量不依赖于类别数量，也就是类别可能比模板数量多，YOLACT学习到的是一种分布式的表示，其中每个实例都有多个模板原型组合分割，这些模板在不同类别之间共享。

该分布式表示导致模板域出现了一些情况：一些模板在空间上划分开了图像，一些定位实例，一些检测实例的轮廓，一些编码对位置敏感的方向图谱，可能同时也会划分图像，如Fig.5。

Fig.5 ：模板的效果，六种不同的模板对不同图像特征的响应。

1，4，5可以检测出来轮廓清晰的目标
2能检测出左下方向的特征
3能够区分前景和背景，并提供实例的轮廓
6能够区分出来背景

本文方法的优势：

1）快速：

因为这是一个并行过程，并且结构很简洁。YOLACT仅仅给单级主干检测器增加了少量的计算开销，即使使用ResNet-101这样的大型网络，也可以达到30fps。

实时的定义是>30fps，在MS COCO数据集[26]（Fig.1）上获得了很好的效果。

另外，我们在速度和性能上进行了权衡，利用不同的主干框架，不同数量的模板和图像分辨率。

2）高质量的mask：

因为这些mask使用整个图像空间域，且图像并未从repooling中造成质量损失（Fig.7）。

3）易于泛化：

生成模板mask和mask系数的理论可以用于目标任何的目标检测器。

本文将实例分割分为两个并行通道实现的方法形象的表示：

线性系数及其对应的检测分支，可以看成被用来识别单个物体的类别
模板mask，可以看成被用来在空间中定位实例

这就可以近似看成人类视觉辨别物体“先定位再分割”的过程

2. 相关工作

实例分割：

Mask-RCNN是两级实例分割的代表方法，第一级首先生成候选区域RoI，第二级对这些RoI进行分类和分割。

其之后的方法试图提升准确性，如丰富FPN特征[27]，或对mask的置信得分和定位准确度之间权衡。

这些两级的方法需要对每个RoI特征进行re-pooling，并且在缩小图像尺寸的情况下也难以达到实时的效果。

单级的实例分割方法产生了对位置敏感的mask，利用位置敏感的pooling来将这些mask组合成最终的mask，或者结合语言分割和方向预测logits[4]。

理论上，单级的方法比两级的方法快，因为两级的方法需要repooling或其他计算（如mask投票），这些就会限制速度，使得其难以接近实时的速度。

本文的方法将两个步骤并行进行，更为简洁并且可以在单个GPU上进行矩阵相乘，保证了速度。

实时实例分割：

尽管目前已经出现了实时目标检测[28,32,33,34]方法和语义分割[2,29,31,10,45]方法，但是实时实例分割方法仍然很少。

直接基于形状进行分割[19]的方法可以利用学习到的形状进行实例分割，达到30fps的速度，但是准确率很差。

Box2Pix[40]方法基于非常简洁的主干检测器（GoogLeNet v1 [38] and SSD [28]），结合手工特征，在8类别的Cityscapes [5] 上获取了10.9fps的速度，在8类别的KITTI [13]上获得了35fps的速度，但是其文章中并没有对语义丰富的包含80类的COCO数据集进行实验，可想而知难以实现高效的分割。

Mask R-CNN实际上是目前在丰富数据集上最快的实例分割方法（550x550大小的图像上，达到13.5fps，Table. 2c）

模板Mask：

计算机视觉中，学习模板已经应用的很广泛了，传统的方式包括texton[21]和视觉单词[37]，这些方法通过稀疏和位置先验信息达到较好的效果[42,41,44]，其他的方法是为目标检测而设计的模板[1, 43, 36]。

这些方法利用模板来表示特征，我们利用模板来进行实例分割，是有些相关性的，且我们是学习模板来适应于每个图像，而不是对整个数据集用共享的模板。

3. YOLACT

本文的目标是对目前已有的单级目标检测网络添加一个产生mask的分支，就像Mask R-CNN对Faster R-CNN所做的工作一样，但是不包含定位步骤（如feature repooling）。

我们将复杂的实例分割过程拆分为两个简单的并行过程，获得最终的mask。

第一个分支利用FCN来产生一系列与图像大小一致的“prototype masks”，且不依赖于任一特定实例。
第二个分支是给目标检测分支添加一个输出，对每个anchor来预测“mask coefficients”，也就是对实例的表示编码为prototype域的表达。
最后，对每个实例，使用NMS对所预测的mask进行处理。

原理：

本文用该方法来实现实例分割的首要原因是mask之间是空域相关的，也就是像素距离越近，越可能是一个实例的某一部分。

然而卷积层可以很好的从这些相关性中提取出特征，全连接层却不能。这就出现了一个问题，因为单级目标检测方法的fc层输出对每个anchor的类别和框位置的预测，两级方法（如Mask R-CNN）利用定位步骤（RoI Align）解决了这个问题，保持了特征的空域相关性也允许mask作为卷积层的输出。但是这样一来就需要一个很重要的分结构来等待第一级RPN输出的候选区域，很大程度上加大了时间开销。

本文将该问题分解为两个并行步骤，使用了fc层，该层在产生语义向量上很有优势，卷积层在产生空域相关mask上很有优势，能够产生“mask coefficients”。

因为模板mask和mask系数的计算是可以分别进行的，所以检测器的主要计算就花费在两者的组合上，但这可以用用单个矩阵相乘来实现。这样一来，我们可以在特征域上保持空间相关性的同时保持单级网络的快速性。

3.1 模板的产生

模板产生的分支（protonet）针对每幅图像预测 kkk 个模板mask，本文用FCN的方式来实现protonet，FCN最后一层有 kkk 个channel，每个channel对应一个模板，且每个channel都被送入主要特征层（Fig.3）。

这样的结构类似于一般的语义分割，不同的是我们提出这些模板没有很大的损失，所有的监督都源于集成后的mask损失。

两个重要的设计：

从更深的主要特征中产生更多的鲁棒mask，来获得protonet
更高分辨率的模板源于在小目标物体上更高质量的mask和在更好的性能

使用FPN是因为它最大的特征层是最深的层（P3，Fig.2），之后上采样将其尺寸提升到输入图像大小的1/4，来提高对小目标物体的检测性能。

protonet的输出是无界的，这点很重要，因为这就允许网络在模板上产生强大的激活输出（如明显的背景）。

选择Relu函数来获得更多可解释的模板。

3.2 Mask 系数

典型的基于anchor的目标检测器有两个分支：

一个分支用来预测 ccc 个类别的置信分数
另一个分支用来预测b-box的4个坐标

mask 系数的预测：

给系统添加第三个分支来预测 kkk 个mask系数，每个系数对应于每个模板，所以我们预测 4+c+k4+c+k4+c+k 个数。

非线性化：

从最终的mask中去掉模板是很重要的，所以对 kkk 个mask系数都使用 tanhtanhtanh 来非线性处理，这样比未进行非线性处理的输出更稳定。

该设计在Fig.2 中有体现，如果不允许做差，那么两个mask都是不可构造的。

3.3 Mask集成

为了产生实例的mask，将产生模板的分支和产生mask系数的分支使用线性组合的方法进行结合，并对组合结果使用Sigmoid非线性化来获得最终的mask，该过程可以用单个矩阵相乘的方法来高效实现：

M=σ(PCT)M=\sigma(PC^T)M=σ(PCT)

PPP——h×w×kh\times w\times kh×w×k 大小的模板mask
CCC——n×kn\times kn×k 大小的mask系数，是经过了NMS和得分阈值处理后保留的 nnn 个实例的系数

损失函数：共三个损失

1）分类损失LclsL_{cls}Lcls

2）边界框回归损失LboxL_{box}Lbox

3）mask损失Lmask=BCE(M,Mgt)L_{mask}=BCE(M, M_{gt})Lmask=BCE(M,Mgt)，MMM是预测的mask，MgtM_{gt}Mgt是真实的mask，公式为两者像素级二进制交叉熵。

Mask的裁剪：

为了在模板中保留小目标物体，我们将最终的mask根据预测的b-box进行裁剪，训练过程中，我们使用真实的边界框进行裁剪，并且将LmaskL_{mask}Lmask除以真实的边界框的面积。

3.4 其他情况

因为关于实例分割的普遍共识是因为FCN是平移不变的，所有需要在[22]中添加平移可变性。类似于FCIS[22]和Mask R-CNN[16]的方法尝试着添加平移可变性，如利用方向性特征图和对位置敏感的repooling，或者将mask分支送入第二级，就不用对实例进行定位了。

本文用于添加平移可变性的方法是对最终的mask利用预测的b-box进行裁剪，但是我们发现本文的方法在不对中等和大的目标进行裁剪的情况下仍然可以有效工作，所以这并非是裁剪所带来的效果，YOLACT学习到了如何通过模板的不同激活情况来自己进行实例的定位。

Fig 5中image a 中红色图像的模板激活不可能是FCN没有padding情况下的结果，因为卷积的输出是一个单个的像素，如果整幅图像都是相同的像素点组成，那么卷积层的输出将都是相同的。另外，在目前的FCN网络中，一致的边缘填充使得网络有能力判断出某个像素距离图像边缘的距离。

理论上，可以实现这一点的一种方法是让多个层依次将填充的0从边缘像中心展开（如使用[1;0]这样的卷积核）。这就意味着ResNet具有了内在平移可变性，本文的方法获得了很好的特性，image b 和c就具有平移可变性。

许多模板都是对图像中特定的“部分”有激活响应，也就是它们只激活某一部分，Fig 5中，模板1，4，5，6是这样的例子。通过将这些部分激活的特征图结合起来，网络就具有识别同一语义类别的不同实例的能力（重叠的也可以），image d，绿色的伞可以通过模板4滤波结果减去模板5的滤波结果而获得。

此外，作为学习目标，模板是可压缩的，也就是说如果protonet将多种模板组合成了一个，那么mask系数分支就可以学习到哪些情况需要哪些功能。Fig 5中，模板2保留左下角方向的目标，但是在图像中间的垂直条带上对实例的触发更强。模板4是一个分割模板，但是同样对左下角方向的角点有很强的保留效果。模板5类似，不过是保留右边的信息。

这些表明在实际中，即使使用32个模板，模型的性能也不会降低（Table 2b）。

4. 检测器

对于检测器，我们首先考虑速度和特征丰富度，因子预测这些模板和系数是一项艰难的任务，好的特征才能获得好的结果。本文的检测器在RetinaNet[25]的基础上，更加注重速度。

YOLACT 检测器：

本文使用RestNet-101[17]和FPN[24]作为默认特征主干网络，图像大小都为550×550550\times 550550×550。为了获得对每幅图像都相同的评估时间，我们不保留原始的纵横比。

类似于RetinaNet，我们对FPN做如下修改，不产生 P2P_2P2，并且从 P5P_5P5 开始产生 P6P_6P6 和 P7P_7P7 作为连续的 3×33\times 33×3 步长的卷积层，并且在每个上面放置纵横比为 [1,1/2,2] 的三个anchor。

P3P_3P3 的 anchor 是面积为 24 pix的正方形，每个后面的层都是前面尺度的2倍，也就是 [24; 48; 96; 192; 384]。

因为预测输出依赖于每个 PiP_iPi，我们对这三个分支共享一个 3×33\times 33×3 的卷积核，之后每个分支获得自己的卷积核。

与RetinaNet相比，本文的预测输出设计更为简洁和高效（Fig 4）

本文利用smooth-L1 损失来进行box的回归训练，并且利用与SSD相同的方法来编码box回归的坐标。

为了训练分类，我们使用softmax 交叉熵损失，有 ccc 个正标签和一个背景标签，训练样本的 neg:pos=3:1neg:pos=3:1neg:pos=3:1

不同于RetinaNet，我们没有使用焦点损失，因为在我们网络中不可行。

本文利用上述设计方法搭建的网络，在相同大小的输入图像的情况下，比SSD表现的更快更好。

5. 其他贡献

本节讨论一些其他改进，有些方法提升速度，对性能有些许的降低，有些方法提升性能，但对速度没有损失。

Fast NMS：

对每个anchor生成了回归b-box和分类置信度之后，我们会像多数目标检测器一样使用NMS来抑制重复的检测。[33,34,28,35,16,25]中，都出现了连续使用NMS的过程。

对数据集中的每个类别 ccc ，根据置信分数来降序排列预测的box，移除那些IoU大于某个阈值但置信度较低的box。这样的NMS最快只能达到5fps，和实时的30fps有着很大的差距

为了保持传统NMS顺序处理的本质，我们引入了Fast NMS，其中每个实例都可以在并行过程中确定是保留还是剔除。我们简化了允许已经剔除的检测其来抑制其他检测器，这在传统的NMS中是不可能的。这样就允许我们在大多数GPU库中使用标准矩阵操作实现快速的NMS。

Fast NMS的实现：

首先，对每个类别的前 nnn 个得分检测器计算一个大小为 c×n×nc\times n \times nc×n×n 的 IoUIoUIoU 矩阵 XXX ，并且对每个类别的框进行降序排列。那么每个n×nn\times nn×n的矩阵都是对角阵（因为b-box_1对b-box_2的IoU与2对1的IoU是一样的）

GPU上的批量排序是很容易得到的，计算IoU很容易向量化。
其次，通过检查是否有任何得分较高的检测与其IoU大于某个阈值 ttt ，从而找到要删除的检测框。故我们通过将 XXX 的下三角和对角区域设置为0，来实现：
Xkij=0    ∀k,j,i≥jX_{kij}=0\,\,\,\, \forall k,j,i \ge jXkij=0∀k,j,i≥j
上述可以在一个批量上三角函数（triu）中实现，之后保留列方向上的最大值，来计算每个检测器的最大 IoUIoUIoU 矩阵 KKK 。

Kkj=maxi(Xkij)    ∀k,jK_{kj}=max_i(X_{kij}) \,\,\,\,\forall k,jKkj=maxi(Xkij)∀k,j

最后，利用阈值 t（K<t）t（K<t）t（K<t）来处理矩阵，对每个类别保留最优的检测器。

由于约束的放宽，Fast NMS 会删除更多的框，然而这和显著提升速度相比，对性能的影响微不足道（Table 2a）。

Fast NMS 比传统NMS在Cython上的实现快11.8ms，而mAP仅仅下降了0.1%，用Mask R-CNN做对比，Fast NMS快16.5ms，mAP降低了0.3%。

语义分割损失：

Fast NMS 在提升速度的情况下，有少许的性能损失，还有别的方法在提升性能的情况下，对速度没有任何损失。

其中一种方法，在训练中给模型添加额外的损失函数，但在测试中不添加，这样在没有速度损失的情况下有效的提升了特征的丰富性。

故我们在训练过程中，给特征域增加了语义分割损失。因为我们从实例注释中构造损失的真值，没有直接的捕捉语义分割（也就是没有强制要求每个像素都是一个标准类）。

为了在训练中预测，我们简单的将有 ccc 个输出通道的 1×11\times 11×1 卷积层直接附加到主干网络最大的特征图（P3P_3P3）上，因为，每个像素都可以分配多于1的类别，我们使用sigmoid和 ccc 个通道而不是softmax和 c+1c+1c+1 个通道，这样定义损失函数的训练方法将mAP提升了0.4%。

6. 结果

本文在 MS COCO 数据集上进行了实例分割任务，在 train2017上进行训练，在val2017和test-dev上进行评估。

6.1 实例分割结果

首先，在 MS COCO 的test-dev数据集上对YOLACT和目前最好的方法进行了性能对比。

本文的关注点在于速度的提升，故我们和其他单模型的结果进行了对比，其中不包括测试时间。

本文的所有实验都是在Titan Xp上进行的，故一些结果和原文中的结果可能略有不同。

YOLACT-550，是目前最快的网络在COCO上实现实例分割速度的3.8倍

Fig 7中展示了，YOLACT-500和Mask R-CNN在IouO阈值为0.5的时候，AP之间的差距为9.5，当IoU阈值为0.75的时候，AP差距为6.6。

FCIS和MaskR-CNN之间的变化与其不同，该两者的差距基本是稳定的，前者的AP为7.5，后者的AP为7.6。

Table 1 同样也进行了实验来验证本文模型在不同大小输入图像情况下的性能。除过基本的 550×550550 \times 550550×550 大小模型，我们也训练了 400×400400 \times 400400×400 和 700×700700\times 700700×700 的模型，相应地也调整了anchor的尺寸（sx=s550/550⋅xs_x=s_{550}/550\cdot xsx=s550/550⋅x）。

降低图像大小会导致性能的大幅度下降，这说明越大的图像进行实例分割的性能越好，但提升图像尺寸带来性能提升的同时会降低运行速度。

除了在基准主要网络RestNet-101上实验以外，我们同样在RestNet-50和RestNet-53上进行了实验来获得更快的效果。

如果提升速度更好的话，那么我们建议使用RestNet-50或RestNet-53而不是减小图像大小，因为这样一来实现的性能比YOLACT-400上好很多，只是时间上略微慢一些而已。

6.2 Mask质量

我们产生的最终mask大小为 138×138138\times 138138×138 ，且由于直接从原始特征中直接产生mask（未进行repooling则可能产生位移），我们针对大目标的mask比Mask R-CNN [16] 和 FCIS [22] 的质量有显著的优势。

Fig 7 中，YOLACT 对胳膊的边界产生了一个清楚的mask，Mask R-CNN [16] 和 FCIS [22] 的mask则带有一些噪声。

当IoU阈值为9.5的时候，本文的基准模型的AP达到了1.6，Mask R-CNN 达到了1.3，这意味着repooling会造成一定的mask 性能损失。

6.3 动态稳定性

本文的方法在动态视频上的稳定性高于Mask R-CNN ， Mask R-CNN在帧间过渡的时候有很多跳动，甚至在目标静止的情况下也是一样。

我们之所以认为我们的方法对动态视频更稳定原因有两个：

我们的mask性能更高，故帧间并没有很大误检
我们的模型是单级的
- 多级模型更多的依赖于第一级产生的区域提议
- 本文的方法当模型在帧间预测多个不同的候选框时，protonet不响应，故我们的方法对动态视频更稳定

6.4 实现细节

所有的模型训练都使用ImageNet训练的参数作为预定义参数，在单个GPU上训练，批量大小为8。这个大小适合于批归一化，所以我们保持预训练批规范化固定不变，也没有添加额外的bn层。

使用SGD方法进行800k次迭代，初始学习率设置为0.003，并且在迭代次数为280k, 600k, 700k, 和750k时，分别下降10%。

权重衰减率为0.0005，动量为0.9。

7. 结论

本文的网络优势：

快速，高质量的mask，优良的动态稳定性

本文网络的劣势：

性能略低于目前最好的实例分割方法，很多错误原因检测错误，分类错误和边界框的位移等

下面说明两个由YOLACT的mask生成方法造成的典型错误：

1）定位误差

当场景中一个点上出现多个目标时，网络可能无法在自己的模板中定位到每个对象，此时将会输出一些和前景mask相似的物体，而不是在这个集合中实例分割出一些目标。

Fig 6（第一行第一列）中的第一幅图，蓝色的卡车在红色的飞机之下，就没有得到正确的定位。

2）频谱泄露

本文的网络对预测的集成mask进行了裁剪，且并未对输出的结果进行去噪。这样一来，当b-box时准确的的时候，没有什么影响，但是当b-box不准确的时候，噪声将会被带入实例mask，造成一些“泄露”。

当两个目标离得很远的时候也会发生“泄露”的情况，因为网络学习到的是不需要定位离得很远的目标，但是裁剪的过程会关系这点。

假如预测的b-box很大，那么该mask将包括那些离得很远的mask，如Fig 6（第二行第四列）中发生的泄露是由于mask分支认为这三个滑雪的人离得足够远，并不用将他们划分开来。

该问题可以通过mask error down-weighting机制得到缓解，如MS R-CNN[18]中那样，其中显示这些错误的mask可以被忽略，之后我们在解决这个问题。