ECCV2018年的论文

论文原文：原文链接

本文是阅读的arXiv上的论文，与发表在ECCV2018上的原文细微差别。

arXiv 链接：arXiv 论文链接

摘要

在行人图像描述中使用 part-level 特征提供了细粒度的信息，并在最近的文献中被证实对人的检索是有益的。part发现的一个先决条件是每个 part 都要定位好。本文不采用姿态估计等外部线索直接定位 part，而是注重part内部内容的一致性。

具体地说，我们的目标是学习用于行人检索的有区别的part信息特征，并做出了两个贡献。(一)一个名为基于part的卷积Baseline(PCB)的网络。给定一个图像输入，它输出一个卷积描述符，该描述符由几个part-level特征组成。由于采用了统一的划分策略，PCB通过最先进的方法获得了具有竞争力的结果，证明了自己是一个强大的卷积baseline的行人检索。(二)细化的part池化(RPP)方法。均匀划分不可避免地会在每个 part 产生异常值，这些异常值实际上与其他 part 更相似。RPP将这些异常值重新分配给它们最接近的 part，从而得到具有增强part内部一致性的精细化part。实验证明，RPP可以使PCB获得新一轮的性能提升。例如，在Market-1501数据集上，我们实现了(77.4+4.2)% mAP和(92.3+1.5)% rank-1精度，大大超过了目前的水平。

1 引言

行人检索，也称为行人重新标识(re-ID)，给定查询对象，目的是在大型数据库中检索指定行人的图像。目前，深度学习方法主导着这个社区，与手工制作的竞争者[40]相比具有令人信服的优势。深度学习表示提供了很高的识别能力，特别是当从深度学习的 part 特征聚合时。reID基准测试的最新状态是通过part-informed的深度特性实现的[35,27,37]。

图1所示。行人检索中几种deep part模型的划分策略。(a)至(e)：分别用GLAD[31]、PDC[27]、DPL[35]、Hydra -plus[22]和PAR[37]对part进行分割，从对应的论文中截取。(f)：我们的方法使用均匀的划分，然后细化每条条纹。PAR[37]和我们的方法都进行“软”划分，但是我们的方法与[37]有很大的不同，详见第2节。

学习part鉴别特征的一个重要前提是parts的准确定位。目前最先进的方法在划分策略上各不相同，因此可以分为两组。第一组[38,27,31]利用外部线索，例如来自人体姿态估计的最新进展的帮助[23,32,15,25,2]。它们依赖于外部人体姿态估计数据集和复杂的姿态估计器。在姿态估计和人物检索之间存在的潜在数据集偏差仍然是阻碍对人物图像进行理想语义划分的障碍。另一组[35,37,22]放弃语义部分的线索。他们不需要part标签，但达到了与第一组竞争的准确性。图1比较了几种分区策略。在此背景下，学习part-level的深层特性的进展，我们重新思考了是什么导致part的良好对齐（well-aligned）。语义分区可能提供稳定的线索，以实现良好的对齐，但容易检测到噪声pose。本文从另一个角度，强调各个part之间的一致性，我们推测这对于空间的对齐是至关重要的。然后我们得到了我们的动机，给出了粗略划分的parts，我们的目标是细化这些parts，以加强部分内部的一致性。具体来说，我们作出以下两项贡献：

首先，我们提出了一种part-based的卷积Baseline(PCB)网络，该网络在conv-layer上进行均匀划分，学习 part-level 特征。它没有显式地划分图像。PCB以整幅图像为输入并输出卷积特征。PCB作为一个分类网，其结构简洁，对骨干网稍作修改。训练程序是标准的，不需要任何花哨的东西。结果表明，卷积描述符比常用的全链接描述符具有更高的识别能力。例如，在Market-1501数据集上，性能从85.3%的rank-1精度和68.5%的mAP提高到92.3%(+7.0%)的rank-1精度和77.4% (+8.9%)mAP，大大超过了许多最先进的方法。

其次，我们提出一种自适应pooling方法来细化均匀划分。我们认为每个part的内容应该是一致的。我们观察到在均匀划分下，每个part都存在异常值。事实上，这些异常值更接近其他part的内容，这意味着part内部不一致。因此，我们通过将这些离群点重新定位到离群点最近的part来细化均匀划分，从而增强了part内部的一致性。图1(f)给出了一个细化的part实例。通过改refined part pooling(RPP)，Market-1501性能进一步提高到93.8%(+1.5%)的Rank-1精度和81.6%(+4.2%)的mAP。在第3节和第4节中，我们分别描述了PCB和refined part pooling。

在第五章中，我们将这两种方法结合起来，实现了行人检索的最好结果。重要的是，我们通过实验证明了所提出的细化part优于attentive part，即，通过注意力机制学习的part。

2 相关工作

行人检索的手工part特征：在深度学习方法主导reid研究领域之前，手工制作的算法已经开发出学习part或局部特征的方法。Gray和Tao[12]将行人划分为水平条纹，提取颜色和纹理特征。许多作品也采用了类似的划分[8,41,24,20]。其他一些作品采用了更为复杂的策略。Gheissari等人用[11]将行人分成几个三角形进行part特征提取。Cheng等人使用图像结构将行人解析为语义part。Das等人使用HSV直方图在头部、躯干和腿部捕捉空间信息。

深度学习的part特征：目前，大多数行人检索数据集的技术状态是通过深度学习方法[40]来维护的。当学习reid的part特性时，深度学习相对于手工算法的优势是双重的。首先，深层特征一般具有较强的识别能力。其次，深度学习为解析行人提供了更好的工具，这进一步有利于part特征。特别是人体姿态估计和 landmark 检测已经取得了令人瞩目的进展[23,25,2,32,15]。reid最近的几项工作使用这些工具进行行人划分，并报告了令人鼓舞的改进[38,27,31]。然而，当以现成的方式直接使用这些姿态估计方法时，用于姿态估计的数据集和用于人员检索的数据集之间的潜在差距仍然是一个问题。其他人则放弃了划分的语义线索。Yao等人将特征图上的最大激活坐标进行聚类，以定位几个感兴趣的区域。Liu等人的[22]和Zhao等人的[37]都将注意机制[34]嵌入到网络中，让模型自己决定关注哪里。

利用注意力机制的深度学习的part特征：本文的一个主要贡献是细化的part pooling。我们将其与zhao等人最近的作品PAR[35]进行了详细的比较。两篇文章都采用了part分类器对行人图像进行“soft”划分，如图1所示。两部作品都有一个优点，那就是学习有区别的part时不需要标注part。然而，这两种方法的动机、训练方法、机制以及最终的表现都有很大的不同，具体如下。

动机：PAR的目标是直接学习对齐的part，而RPP的目标是细化预划分的part。工作机制：PAR采用注意力机制对part分类器进行无监督训练，而RPP的训练可以看作是半监督过程。训练过程：RPP首先训练具有均匀划分的identity分类模型，然后利用所学知识对part分类器进行训练。性能：稍微复杂一点的训练过程可以使RPP获得更好的解释和更高的性能。例如，在Market-1501上，PAR实现的mAP, PCB协同注意机制实现的mAP，以及所提出的RPP分别为63.4%，74.6%和81.6%。此外，RPP具有与各种划分策略合作的潜力。

3 PCB：一个强卷积Baseline

本节介绍了PCB的结构及其与几种可能的替代结构的比较。

3.1 PCB的结构

Backbone网络：PCB可以以任何为图像分类而设计的没有隐藏的全连接层的网络为backbone，如谷歌Inception[29]和ResNet[13]。本文主要考虑了ResNet50的竞争性能和它相对简洁的架构。

图2。PCB的结构。输入图像经过Backbone上叠加的卷积层进行前向过程，形成一个三维张量 T。PCB用传统的池化层替换原有的全局池化层，将 T 进行空间下采样到列向量 g 的 p 个片段中。接一个1*1的卷积核层降低 g 的维度，最后将每个降维的列向量 h 分别输入到分类器中。每个分类器由一个完全连接(FC)层和一个顺序softmax层实现。在训练过程中，每个分类器预测输入图像的identity，并通过交叉熵损失进行监督。在测试期间，将 g 或 h 的 p 个片段连接起来，形成输入图像的最终描述符。

从backbone到PCB：我们将Backbone网络，稍加修改，改造成PCB。如图2所示。原始的全局平均池(GAP)层之前的结构与backbone模型保持完全相同。区别在于，GAP层和以下内容被删除。当一幅图像经过从继承Backbone网络的所有层时，它就变成了一个激活的三维张量 T。在本文中，我们将沿通道轴观察的激活向量定义为列向量（column vector）。然后，使用传统的平均池化，PCB将 T 划分为 p个水平条纹，并将同一条条纹内的所有列向量平均为一个part-level列向量 (i = 1，2，...，p，除非必要，否则将省略下标)。之后，PCB采用卷积层对进行降维，根据我们的初步实验，降维列向量设置为256-dim。最后，将每个输入到一个分类器中，该分类器由一个全连通(FC)层和一个跟随的Softmax函数实现，用于预测输入的identity(ID)。

在训练过程中，PCB通过最小化 p 个ID预测的交叉熵损失和来优化。在测试过程中，或的 p 个片段被连接起来形成最终的描述符或，即，或。在我们的实验中观察到，使用实现了略高的精度，但计算量较大，这与[28]中的观察结果是一致的。

3.2 重要参数

PCB得益于细粒度的空间集成。几个关键参数，即，输入图像大小(即， [H，W])，张量 T (即， [M，N])，以及合并列向量的数目(即， p)对PCB的性能很重要。注意，[M，N]由给定固定大小输入的Backbone模型的空间下采样率决定。一些深度目标检测方法，如SSD[21]和R-FCN[5]，表明降低Backbone网络的下采样率有效地丰富了特征的粒度。PCB继他们的成功，在Backbone网络删除了最后的空间下采样操作（last stride），以增加 T 的size。这种操作大大提高了检索的准确性，只增加了非常轻的计算成本。细节可以在第5.4节中看到，这也提供了一些见解来解释将张量 T 分割成太多的条纹(大p)会损害所学习特征的辨别能力。

通过我们的实验，优化后的参数集如下：

1，输入图片以3：1的高宽比resize到384*128，

2，T的空间size设置为24*8.

3，T均等划分为6个水平条纹。

3.3 潜在的可选结构

给定一个Backbone网络，存在几个潜在的替代结构来学习part-level特征。我们列举了两种结构与PCB进行比较。

变种1。不是基于每个得到一个ID预测，它将所有平均为一个向量，然后全连接到一个ID预测向量。在测试期间，它还concatenate 或以形成最终的描述符。变种1的特点是在单个损失下学习卷积描述符。

变种2。其结构与图2中的PCB完全相同。但是，变体2中的所有FC分类器分支都共享一组相同的参数。

两种变种都被实验证实不如PCB。PCB相对于变种1的优越性表明，不仅卷积描述符本身，而且各part的各自监督对于学习区分的part-level特征至关重要。PCB相对于变种2的优势表明，共享分类器的权重，在降低过拟合风险的同时，降低了学习的part-level特征的识别能力。实验细节见第5.3节。

4 Refined Part Pooling

PCB均匀划分简单、有效，但有待改进。本节首先解释了均匀划分所带来的不一致性现象，然后提出了refined part pooling作为加强part内部一致性的补救措施。

4.1 part内一致性

针对张量 T 的空间分块问题，我们对part内不一致性的直觉是: T 中同一部分的列向量应该相似，其他部分的列向量不相似；否则，就会出现 part 内部不一致的现象，这意味着part被不恰当地分割了。

通过对PCB进行收敛性训练，比较了与的相似性,即，通过测量余弦距离，得到每条条纹的平均合并列向量。如果最接近，则对应地推断为最接近第 i 个part。通过这样做，我们找到了每个最接近的part，如图3所示。每个列向量由一个小矩形表示，并用其最近part的颜色绘制。

图3。part内部不一致性的可视化。T。左：训练时 T 平均分割为 p = 6 横条(parts)。右：T 中的每个列向量都用一个小矩形表示，并以其最近part的颜色绘制。

观察到两种现象。首先，同一水平条带中的大多数列向量都聚集在一起(尽管没有针对这种效果的显式约束)。其次，在训练过程中存在许多异常值，当它们被指定为一个指定的水平条纹(part)时，这些异常值与另一个part更相似。这些异常值的存在表明，它们在本质上与另一part的列向量更一致。

4.2 重新定位异常值

我们提出了 refined part pooling（RPP）来纠正part内部的不一致。我们的目标是根据每个part的相似性分配所有列向量，以便重新定位离群值。
为此，我们需要对 T 中所有列向量进行分类。在已学习到 T 的基础上，我们使用线性层和Softmax激活作为part分类器，如下图所示：

其中为属于 part的预测概率，p为预定义parts的个数(即， PCB中 p = 6 )， W 为part分类器的可训练权重矩阵，其训练过程详见第4.3节。

给定 T 中的列向量和属于part的预测概率，我们将以的置信度将分配给part 。相应地，每个part 从所有列向量中以相同的采样权重进行采样，即：

其中 F 是张量 T 中列向量的完整集，{.} 表示形成集合的采样操作。

通过这样做，提出的 refined part pooling 进行“soft”自适应划分，对原有的“hard”均匀划分进行细化，并对均匀划分中产生的异常值进行重新定位。将上述的 refined part pooling 结合起来，PCB进一步改造为图4结构。Refined part pooling，即，part分类器连同下面的采样操作，替换了原来的平均池化。所有其他层的结构与图2完全相同。

图4。PCB与 refined part pooling 相结合。当我们关注空间划分时，三维张量 T 简单地用一个矩形而不是一个立方体表示。与图2相比，T 之前的图层没有变化，所以省略了。part 分类器预测每个列向量属于 p 个parts的概率。然后从所有列向量中以相应的概率作为采样权重对每个part进行采样。GAP表示全局平均池化。

4.3 part 分类器的诱导训练

对于式1中 part 分类器W的学习，缺乏明确的监督信息。我们设计了一个诱导训练程序，如Alg. 1所示。

1，首先，对一个标准的PCB模型用 T 个相等划分进行训练至收敛

2，其次，删除 T 后的原始平均池化层，并在 T 上添加一个 p类part分类器。根据part分类器的预测，从 T 中采样新的part，详见4.2节。

3，第三，我们把PCB中已经学习过的所有层都固定住，只留下part分类器可以训练。然后在训练集上对模型进行重新训练。在这种情况下，模型仍然期望张量 T 是均匀划分的，否则对于训练图片的 identities 将会预测不正确。因此，步骤3将惩罚part分类器，直到它进行的划分接近于原始的均匀划分，而 part 分类器则倾向于将本质上相似的列向量分类为相同的part。第三步的结果是达到一种平衡的状态。

4，最后，允许更新所有层。整个网络，即，对PCB和part分类器一起进行fine-tune，进行整体优化。

4.4 Refined Part Pooling讨论

跳过Alg. 1中的步骤1，训练也可以收敛。在这种情况下，训练将类似于PAR[37]，它使用注意机制来对齐part，如第2节中介绍的那样。我们比较了两种方法，即，训练part分类器有或没有步骤1，在实验中发现诱导过程很重要。如果没有提出的诱导，性能会显著降低。例如在Market-1501上，当采用诱导法时，PCB与refined part pooling结合达到 80.9% mAP。当去除诱导后，mAP降低到 74.6%。这说明所提出的诱导训练方法优于PCB上的注意机制。详情请参阅第5.5节。

5 实验

5.1 数据集设置

数据集：本文采用三个数据集进行评价，即， Market-1501 [39]， Dukemtc - reid [26,43]， and CUHK03[18]。Market-1501数据集包含在6个摄像机视点下观察到的1501个身份，由DPM[9]检测到的19732张gallery图像和12936张训练图像。Dukemtc - reid数据集包含1404个身份、16522张训练图像、2228个查询和17661张gallery图像。DukeMTMC-reID有8台摄像机拍摄了如此多的图像，是目前为止最具挑战性的reid数据集之一。CUHK03数据集包含1467个身份的13164张图像。每个身份都由2个摄像机观察。CUHK03提供了手工标记和dpm检测的边界框，本文使用的是后者。CUHK03最初采用20个随机的训练/测试划分，这对于深度学习来说是非常耗时的。因此，我们采用了[44]中提出的新的训练/测试协议。对于Market-1501和dukemtc - reid，我们分别使用[39]和[43]提供的评估包。所有实验都对单查询设置进行评估。此外，为了简单起见，我们不使用重新排序算法，这大大改善了mAP[44]。我们的结果与未重新排序的报告结果进行了比较。

5.2 实现细节

IDE实验对比：我们注意到，[40]中指定的IDE模型是深度re-ID系统中常用的Baseline[40,38,33,10,28,42,43,43,45]。与所提出的PCB相比，IDE模型学习了一个全局描述符。为了便于比较，我们在同一backbone网上实现了IDE模型，即ResNet50，并在[40]中对原始版本进行了一些优化，如下所示。1)在ResNet50中的“pool5”层之后，我们添加一个全连接层，然后进行batch normalization和ReLU。附加 FC 层的输出维度设置为256-dim。2)我们在“pool5”层应用dropout。虽然“pool5”层中没有可训练的参数，但有证据表明，对其应用Dropout，输出一个2048d的高维特征向量，有效地避免了过拟合，取得了相当大的改善[42,43]。我们根据经验将Droupout率设置为0.5。在Market-1501中，我们实现的IDE实现了85.3%的rank-1精度和68.5%的mAP，比[45]中的实现稍高。

训练：对训练图像进行水平翻转和归一化处理。我们将batch-size设置为 64，训练60个 epoch的模型，初始化基本学习率为0.1,40个epoch后衰减为0.01。Backbone模型在ImageNet[7]上进行了预训练。所有预训练层的学习率都设置为基础学习率的0.1倍。在使用refined part pooling进行提升时，我们又添加了10个epoch，学习率设置为0.01。以两个NVIDIA TITAN XP gpu和Pytorch为平台，在Market-1501(12936张训练图像)上训练IDE模型和标准PCB分别需要40和50分钟。PCB训练时间的增加主要是由于取消了Conv5层最后一次空间下采样操作，使得张量 T 增大了4倍。

5.3 性能评估

我们对三个数据集评估我们的方法，结果如表1所示。测试了均匀划分(PCB)和refined part pooling(PCB+RPP)。

表1。将所提出的方法与IDE和2种变体进行了比较。这两种变体都在3.3节中描述。pool5： ResNet50中pool5层的输出。FC：用于降维的附加FC层的输出。G (H)：由列向量g(h)组合而成的特征表示，g和h如图2所示。

PCB是一个强baseline。通过比较PCB和IDE这三个之前很多工作中常用的基线[40,38,33,10,28,42,43,43,45]，我们清楚地看到PCB的显著优势：三个数据集上的mAP分别从68.5%，52.8%和38.9%上升到77.4%(+8.9%)，66.1%(+13.3%)和54.2%(+15.3%)。这说明对part信息进行整合可以提高特征的识别能力。PCB的结构和IDE一样简洁，训练PCB只需要训练一个规范的分类网络。我们希望它能作为行人检索任务的baseline。

Refined part pooling（RPP）改善了PCB特别在mAP方面。从表1可以看出，PCB已经有了很高的精度，而RPP给它带来了进一步的改进。在三个数据集上，Rank-1精度的提高分别为+1.5%、+1.6%和+3.1%；mAP的改进幅度分别为+4.2%、+3.1%和+3.5%。在mAP上的改进比Rank-1精度要大。事实上，rank- 1的精确度描述了在摄像机网络中检索最简单匹配项的能力，而mAP表示了查找所有匹配项的能力。因此，研究结果表明，RPP在寻找更具挑战性的比赛时尤其有效。

使用 p 个losses的好处。为了验证图2中采用 p 个分支losses情况，我们将我们的方法与变种 1 进行了比较，变种 1 学习了单个分类损失下的卷积描述符。表 1 表明，变种 1 的精度比PCB低得多，这意味着对每个part使用相应的损失对于学习有区别的part特征至关重要。

在 identity 分类器上不共享参数的好处。在图2中，PCB在Softmax损失之前将每个列向量输入到 FC 层。我们将我们的建议(不共享 FC 层参数)与变种 2 (共享 FC 层参数)进行比较。从表 1 可以看出，三个数据集的PCB分别比变种2高2.4%、3.3%和7.4%。这表明在最后的 FC 层之间共享参数是较差的。

与最好的结果进行比较。我们把 PCB 和 PCB+RPP 与目前最好的结果进行比较。表 2 详细列出了Market-1501的比较情况。比较的方法分为三组，即，手工制作方法，全局特征的深度学习方法，局部特征的深度学习方法。PCB仅仅依靠均匀的划分，超过了以往所有的方法，包括[27,31]，这些方法都需要辅助 part 标签来刻意对齐 part 。提出的 refined part pooling 进一步扩大了性能领先优势。

表2。将该方法与Market-1501上的art方法进行了比较。比较方法分为三组。第一组：手工方法。第二组：采用全局特征的深度学习方法。第三组：运用part特征的深度学习方法。* 表示需要辅助part标签。我们的方法用“PCB”和“PCB+RPP”表示。

表3总结了 DukeMTMC-reID 和 CUHK03 (新的训练/测试方案)的比较。在比较的方法中，PCB在两个数据集上的 mAP 分别超过[3] +5.5% 和 17.2% 。PCB+RPP(refined part pooling)在dukemtc - reid和CUHK03上的mAP分别为+8.6%和+20.5%。PCB+RPP 比 “TriNet+Era” 和 “SVDNet+Era” [45]具有更高的精度，而 “TriNet+Era” 和 “SVDNet+Era” [45]通过额外的数据增强得到了提高。

表3。与DukeMTMC-reID和CUHK03现有技术的比较。显示了Rank-1精度(%)和mAP(%)。

在本文中，我们分别对 Market- 1501、Duke和CUHK03报告了mAP = 81.6%、69.2%、57.5%和Rank-1 = 93.8%、83.3%和63.7%，在这三个数据集上达到了state of the art 。所有结果都是在单查询模式下实现的，不需要重新排序。重新排序方法将进一步提高性能，尤其是mAP。例如，当“PCB+RPP”与[44]中的方法相结合时，mAP和Rank-1在市场上的准确率分别提高到91.9%和95.1%。

5.4 参数分析

章节3.2中，在Market-1501数据集上，我们分析了 PCB (和RPP)的一些重要参数。一旦优化后，所有三个数据集都使用相同的参数。

图片和张量 T 的size。我们使用 96*32 作为间隔，将图像大小从 192*64 增加到 576*192。测试了两种下采样率，即，原始速率和减半速率(较大的T)。我们在PCB上对所有这些模型进行了详尽的训练，并在图5中报告了它们的性能。观察到两种现象。

图5。图像和 T size的影响。将rank-1精度与mAP进行比较。利用原采样率和减半采样率，比较了两种不同尺寸的 T。

首先，较大的图像尺寸有利于所学习的 part 特征。mAP和rank-1精度都随着图像大小的增加而增加，直到达到稳定的性能。

其次，较小的下采样率，即，张量 T 的空间尺寸越大，性能越好，特别是当使用相对较小的图像作为输入时。在图5中，使用384*128输入和减半下采样率的PCB与使用576*192输入和原始下采样率的PCB性能基本相同。考虑到计算效率，我们建议将下采样率减半。

parts p 的数量。直观地说，p 决定了part 特征的粒度。当 p=1时，所学习的特征是全局的。随着 p 的增加，检索精度首先提高。然而，精度并不总是随着 p 的增加而增加，如图6 所示。当p = 8或12时，无论是否使用refined part pooling，性能都会显著下降。对refined parts的可视化提供了对这一现象的洞察，如图7 所示。当 p 增加到8或12时，有些refined parts与其它part非常相似，有些可能会坍塌为空part。因此，过度增加的 p 实际上损害了part 特征的识别能力。在实际应用中，我们建议使用 p = 6个parts。

图6。p 的影响，Rank-1精度和mAP进行比较。我们比较了PCB有和没有refined part pooling。

5.5 诱导和注意力机制

在本工作中，在Alg. 1中对part分类器进行训练时，需要对PCB进行均匀划分的预训练。在均匀划分下学习到的知识，诱导part分类器的后续训练。如果没有PCB的预训练，网络就会在没有诱导的情况下学习划分 T，变得类似于由注意机制驱动的方法。我们在Market-1501和dukemtc - reid上进行消融实验，比较两种方法。结果如表4所示，从中可以得出三个观察结果。

表4。Market-1501诱导消融研究。PAR学会将注意力集中在几个parts，用注意力机制来区别人。RPP (w/o induction)是指对refined part的学习不进行诱导，网络学习以注意机制集中于多个parts。

首先，无论在PCB中采用哪种划分策略，其性能都明显优于通过注意机制学习划分的PAR[37]。其次，注意机制也基于PCB的结构。在“RPP (w/oinduction诱导)”设置下，网络通过注意机制学会关注多个parts，相对于IDE学习全局描述符，实现了实质性的改进。第三，诱导过程(PCB训练)是至关重要的。与“PCB+RPP”相比，在不进行诱导训练的情况下，对part分类器进行训练后，检索性能明显下降。这说明通过诱导学习的 refined parts优于通过注意机制学习的refined parts。图1显示了带有诱导和注意机制的划分结果。

PCB：Beyond Part Models: Person Retrieval with Refined Part Pooling（论文阅读笔记）相关推荐

[论文笔记]Beyond Part Models: Person Retrieval with Refined Part Pooling(PCB)
Beyond Part Models: Person Retrieval with Refined Part Pooling(阅读) 几个关于这篇文章的博客 http://www.mclover.cn ...
【ReID】Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional...
[ReID]Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Bas ...
行人重识别论文（五）Beyond Part Models: Person Retrieval with Refined Part Pooling
论文地址代码实现:Pytorch 摘要作者主要的目标是学习描述局部信息特征.并且做出了以下两点贡献: 1. 提出了 Part-based ConvolutionalBaseline (PCB),给 ...
Incorporating Lexical Priors into Topic Models(即交互式主题模型的应用)论文阅读
本文作者:合肥工业大学管理学院钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章目录论文来源应用场景及模型第一个模型第二个模 ...
[论文阅读笔记31]UER： An Open-Source Toolkit for Pre-training Models
题目 UER: An Open-Source Toolkit for Pre-training Models 单位: School of Information and DEKE, MOE, Renm ...
COMBINING LABEL PROPAGATION AND SIMPLE MODELS OUT-PERFORMS GRAPH NEURAL NETWORKS（CorrectSmooth）阅读笔记
文章目录链接一.摘要二.引言三."修正和平滑"模型四.转导式节点分类实验四.总结总结红色部分为个人的一些解读,不足之处请多多指点! 链接论文题目:结合标签传播和简 ...
《Visual Prompting: Modifying Pixel Space to Adapt Pre-trained Models》论文阅读笔记
文章目录前言始于NLP Visual Prompting Methods 效果疑问参考文献前言 <Visual Prompting: Modifying Pixel Space to ...
论文阅读笔记：On the Role of Correlation and Abstraction in Cross-Modal Multimedia Retrieval
ps:这篇文章应该是A New Approach to Cross-Modal Multimedia Retrieval的扩充 0.Pre-work 提出了什么问题: 文本和图像检索是信息检索.计 ...
论文阅读笔记（五）CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
Abstract 本文以CLIP模型为基础,通过迁移CLIP模型学到的知识,提出了CLIP4Clip(CLIP For video Clip retrieval)模型用于视频文本检索任务.主要研究以下 ...
自监督论文阅读笔记DisCo: Remedy Self-supervised Learning on Lightweight Models with Distilled Contrastive
"DisCo: Remedy Self-supervised Learning on Lightweight Models with Distilled Contrastive Learni ...

PCB：Beyond Part Models: Person Retrieval with Refined Part Pooling（论文阅读笔记）