Foreground-aware Pyramid Reconstruction for Alignment-free Occluded Person Re-identification

论文：前景感知金字塔重建无对齐遮挡的行人重识别
论文：https://arxiv.org/abs/1904.04975
年份：2019ICCV

文章目录

1.方法概述
2.背景
3.方法
- 3.1方法概述
- 3.2具体方法步骤
4.之前研究方法的弊端

1.方法概述

本文提出了一种新颖的Person Re-ID遮挡无对准模型，并将其应用扩展到现实拥挤的场景。所提出的模型

利用无对准模型计算相似性距离：
- 首先利用全卷积网络（FCN）生成包含空间坐标信息的可辨别空间特征图
- 其次，通过金字塔池对FCN生成包含空间坐标信息的可辨别空间特征图进行后处理，以提取空间金字塔特征。
- 然后，利用前景感知型金字塔重建（FPR）准确计算被遮挡行人之前的匹配分数。
  在空间金字塔特征上，FPR利用鲁棒重构的误差来度量两个人之间的相似性
设计一个对遮挡敏感的前景概率生成器，该发生器将更多的注意力放在干净的人体部位上，以减少由遮挡引起的 contamination，从而改进相似度计算。

2.背景

现有人员重新识别（ReID）方法受到普遍存在的行人遮挡问题，使得重识别性能降低，重识别工作面临挑战。
该任务面临挑战一个主要问题是：被捕人员普遍存在的咬合。 （例如，无人超市中的人被货物，架子或其他人遮挡，从而难以追踪他们的运动。）现有方法大多利用外部线索（例如，人脸，语义分割或姿势估计）来对准检测到的人。但是，这些方法在严重遮挡的情况下（例如，对象的半身被遮挡）可能无法生成准确的external cues。此外，不可避免地要花费更多的处理时间来推断这些external cues。其他一些方法，通过使用part-based models，
通过part-to-part matching获得了更好的性能，但是它们需要事先进行严格的人员调整。

3.方法

本文提出了一种新颖的无对齐方法，借助基于前景感知的金字塔重建（FPR）的相似性度量，即使在存在严重遮挡的情况下，也无需事先进行对准即可准确地重新识别人员。

与其他方法不同，利用无对齐模型解决行人重识别中行人遮挡问题。

3.1方法概述

介绍了一种新颖的端到端空间金字塔特征学习体系结构，该体系结构可以处理不同大小和规模的输入行人，并生成判别特征。该结构是由全卷积网络和金字塔池构建的。
- 全卷积网络
  以往方法缺陷：
  以往的全连接层的常规CNN需要固定大小的输入图像作为输入。
  改进：
  为了处理不同大小的行人图像，作者丢弃所有完全连接层以实现仅保留卷积和池化层的完全卷积网（FCN）。因此，全卷积网络仍保留空间坐标信息，该信息能够从不同尺寸的人像中提取空间特征。所提出的FCN基于ResNet-50，它仅包含1个卷积层和4个Resblocks层，最后一个Resblock输出空间特征图。
- 金字塔池
  以往方法缺陷：
  行人图片可能具有不同的尺存，这使得他们的空间特征难以对齐，并给他们的相似性度量带来了误差
  改进：
  为了获得鲁棒的空间特征，而不受尺度变化的影响，将来自FCN的特征由金字塔池化层进一步处理以生成空间金字塔特征金字塔池层由不同内核大小的多个最大池化层组成，因此它在输入图像上具有更全面的接收场。如图2所示，小内核大小的合并层的输出空间特征捕获了小局部区域的外观信息。大内核大小的池化层的输出空间特征从图像中相对较大的区域捕获外观信息。

最后，我们连接空间金字塔特征以获得包含输入的多尺度信息的最终空间特征，从而很好地解决了尺度变化问题。

提出了一种遮挡敏感的无对准方法，即前景感知金字塔重建（FPR），该方法利用前景概率生成器指导被遮挡行人，进行金字塔重建。与以前的方法不同，它在测试阶段不需要任何外部提示。
为了保证以下空间特征匹配并减少遮挡污染，我们设计了前景概率生成器来获取前景概率图（FPM）。这样的FPM会将前景与背景区分开来，并指导后续的金字塔重建，以进行可靠的匹配分数计算。如图2所示，前景概率图生成器由1×1卷积层和softmax层组成。
简单来说：
- 首先利用全卷积网络（FCN）生成包含空间坐标信息的可辨别空间特征图
- 其次，通过金字塔池对它们进行后处理，以提取空间金字塔中部特征。
- 然后，开发了一种新颖的匹配分数计算方法，该方法可以轻松地合并到任何端到端行人ReID模型中。
所提出的计算方法鼓励从gallery feature maps中的基本空间特征线性地重构gallery feature maps中的每个空间特征，并且将平均重构误差用作最终匹配分数。通过这种方式，模型与图像的大小无关，并且自然跳过了耗时的对齐步骤
设计了一种前景概率生成器，以学习前景概率图（FPM），该方法可以通过分配权重较大的身体部位和权重较小的遮挡部位来指导空间重构，从而克服遮挡问题。
所提出的方法鼓励从同一个人提取的空间特征图的重构误差小于不同身份的重构误差。

3.2具体方法步骤

具体方法文中进行的详细的介绍：
算法1中概述了整个FPR。

假设存在一对person images x（probe：被遮挡的人像）和y（gallery：未被遮挡的人像），它们可能具有不同的大小。将FCN中x的空间金字塔图表示为：

其中x包含从金字塔池层中的K个最大池化层生成的多尺度特征图。
Xk是矢量化的张量，而wkx，hkx和d是张量的宽度，高度和通道。
如图2所示，来自N个位置的总共N个空间特征被聚集为矩阵：

其中：

同样，我们构造gallery特征矩阵Y,

其中：

然后，人的局部特征的Xn应该由Y的线性组合表示。
换句话说，Y中的某些空间特征应该能够线性地重建Xn，并且可以将它们之间的相似度计算为重建残差
因此，首先尝试获得关于Y的xn的线性表示系数wn，其中通过wn的ℓ2-范数正则化，线性表示公式为:
对于X中的N个空间特征，方程（1）可以改写为：

其中W = {w1，…，wN}∈RM×N，β控制编码矢量W的平滑度。
我们使用最小二乘算法求解W，即:
W =

则重构probe的空间特征可以表示为:

令剩余空间特征

然后将平均重建误差计算为：

ℓ2（E）= {en} Nn = 1∈R1×N，en是第n个空间特征的空间重构误差。平均重建可视为两个人像之间的距离。

通过以上得分计算，可以有利地避免先前方法中的对准步骤。但是，它有一个明显的局限性：由于背景和遮挡空间特征都汇集到X中，因此背景或遮挡空间特征的重构误差非常大。结果，平均重建误差增加，导致不可靠的相似性评分并导致失配。 为了解决这个问题，我们建议通过为背景分配较小的权重来减少背景的影响，而通过自适应地为这些区域分配较大的权重来增强前景的效果。因此，我们考虑使用空间前景概率图来指导空间金字塔重建，以进一步优化FPR模型。
具体为：给定了probe person image，如上介绍的前景概率生成器输出空间概率图h。然后可以得到前景概率向量：

这揭示了空间特征从probe person image到空间重构的不同贡献。
对于前景空间特征，FPM中的输出值相对较大，而对于背景空间特征，FPM中的输出值相对较小。因此，ReID模型可以利用空间矢量H来指导空间重构。我们对重建误差ℓ2（E）和前景概率向量H进行加权和运算。然后，可以将两个人像的FPR距离定义为

Foreground Probability Generator Loss前景概率生成器损失
Lfpg是空间背景-前景分类器，旨在对背景/遮挡部分和人物部分进行分类。我们将此问题视为二进制分类问题。给定人物图像，提取相应的空间特征X = {xn} Nn = 1。 xn的标签由语义分割模型获得的人员掩码确定。空间特征xn对应于掩模区域Pn。我们计算Pn的平均像素值以获得其掩码标签mn：
其中W，H是掩膜贴片Pn的宽度和高度。然后我们设置标签阈值τ（0≤τ≤1）以获得空间特征的标签。空间背景/前景标签可以定义为：

其中τ是标记阈值，0≤τ≤1。
然后，前景概率生成器的损失函数为：

其中yn = 0和yn = 1分别表示背景和前景空间特征标签。图4示出了由softmax层生成的被遮挡的人图像的一些FPM。我们可以看到，空间背景-前景分类器可以准确地检测人的部分。
最终的总损失函数定义为

其中，α控制空间前景概率生成器损失函数的重要性。

4.之前研究方法的弊端

通常，用于解决此问题的先前方法会利用外部提示，例如：mask and pose, or adopt part-to-part matching.

Approaches with External Cues。Mask-guided models 使用包含人体形状信息的person masks 来帮助消除像素级别的背景杂波，以进行行人重新识别。
Pose-guided models 用骨骼作为外部提示，通过使用person landmarks定位each part 来有效地缓解part未对准问题。
尽管这些方法确实可以解决遮挡问题，但它们严重依赖于精确的行人分割，并且花费大量时间来推断外部线索。
Part-based models 采用逐部分匹配策略来处理遮挡，并且主要针对不在摄像机视线范围内的人的部位的情况。

表1将最新算法与我们关于对齐和外部提示要求的方法进行了比较。注意，基于外部线索的方法是被遮挡的ReID的主流。然而，当半身被遮挡时，在应用阶段很难获得用于对准人的准确而稳定的外部线索。与以前的方法不同，我们提出的方法无需对齐，并且在涉及被遮挡人员的ReID问题时更为有效。它不依赖任何外部提示，同时仍然可以实现更高的精度。