Cross Domain Knowledge Transfer for Person Re-identiﬁcation笔记

1 介绍
2 相关工作
3 方法
- 3.1 特征提取的ResNet
- 3.2 特征强化的属性识别
- 3.3 .LSTM with the Spacial Gate
- - - Global mask
    - Local mask
    - Soft attention mask
    - Fine-grained attention mask
  - 3.4 Triplet Selection
4 实验
- 4.1 数据集
- 4.2 Training Phase Settings（训练阶段设置）
- 4.3 模型性能分析
- 4.4 Comparison with state-of-the-art methods
5 Discussion
6 结论

(re-id)是计算机视觉领域的一项具有挑战性的任务，尤其是在从多个摄像机视角获取的训练数据有限的情况下。在本文中，我们提出了一种基于深度学习的人的再识别方法， 通过转移中层属性特征和高层分类特征的知识。基于 身份分类、属性识别和再识别共享相同的中层语义表示的思想，它们可以通过基于另一个的微调来依次进行训练。在我们的框架中，我们从 深度卷积神经网络(dCNN)训练身份分类和属性识别任务来学习 人的信息。信息可以 转移到人的重新识别任务，并提高其准确性在很大程度上。在此基础上，提出了一种基于 长短时记忆(LSTM)的递归神经网络(RNN)组件。该组件在reid模型中用于注意每个递归单元中的某些空间部分。实验结果表明，该方法在CUHK03基准上的识别精度达到了rank-1识别精度的78.3%。

1 介绍

difficulties: large variances of individual appearances and poses, environmental changes of illumination and occlusion as well as similarity between different persons
传统的reid方法大多基于 lowlevel features比如颜色、形状等描述人的外观的特征，然后学习差异距离度量（discriminative distance metric ）把特征层面embed到reid识别的层面。但是由于上面提到的各种difficulties，这些低层特征在reid问题上不够可靠。作者认为：The re-id task can be better treated as a classiﬁcation task to some extent, which provides with a high-level description of person character.

最近深度学习的发展提高了图像分类任务的性能[13,18,34,37]。该方法通过可视化技术[46]实现对各个层次输入图像的描述，有利于对目标检测[9]和分割[26]等任务的实现。基本上，低层的特点是在底层，而中层和高层的特点是在顶层。这些特性可以直接用于人员重新标识任务，并实现最先进的性能[25,32,42]。

以往的工作首先提出训练 identity classiﬁcation task，然后使用相同的数据集[25]或子集数据集[42]进行人员re-id训练，以获得更有识别力的特征。在这两种情况下，分类和reid任务都可以share knowledge。
与此同时，人的属性(如长发、穿t恤)是mid-level person descriptors，不随相机角度、视角、光照或分辨率的变化而变化。属性识别的研究由来已久。近年来的研究工作[19,35,36,49]对其在人的reid中的应用进行了探索，并取得了良好的效果。因此，属性信息也有助于人的重新识别。
论文 propose a deep learning based knowledge transfer scheme to take advantage of data from cross domain. 每个dataset视作一个domain，reid任务可以从不同domain的属性和分类任务训练的模型中获益。
接下来提到： RNN with LSTM structure ；attention mechanism（mask）
在与图像相关的任务中，注意机制 attention mechanism 在图像字幕[43]和图像生成[11]方面也取得了最先进的性能，并启发了一些以人的身份进行[25]研究的工作。
We further delve into the principle of attention mask and propose a spacial gate to allow the model to focus on speciﬁc part of the image, which is suitable for application scenario of re-id.
我们进一步深入研究了注意掩模的原理，提出了一种空间门，使模型能够聚焦于图像的特定部分，适合于reid的应用场景。

论文主要涉及三个方面：
（1） train a cross domain knowledge transfer scheme，该方案将模型按顺序训练在具有不同数据分布的不同数据集上；
（2）a spacial gate based LSTM network for person re-id，使得模型在测试集上表现非凡；
（3）conduct experiments on various transfer schemes, showing the signiﬁcance of information transfer. 在其他数据集上也进行试验，作者的方法表现最好。

2 相关工作

reid常包含两部分：feature representation learning ；distance metric learning。简短介绍一下：
（1）Deep learning based re-id
深度学习的快速发展，利用deeep convolutionl neural network (dCNN)从原始图像中提取特征，并提出了多种方法将dCNN特征嵌入到reid搜索空间中，在这里被称为深度度量学习（deep metric learning）。Siamese Network structure将深层特征提取和识别融合到一个框架，广受欢迎。 Varior et al. [38]提出一个subnetwork 作为门来选择性地增强整个特征图中的相似部分。Varior等人[39]提出将一个人的图像分割成几行，并将水平剪辑输入基于RNN的LSTM，接着是用siamese loss。 McLaughlin et al. [28] 将相似LSTM和siamese loss应用在基于视频序列的reid，在机组reid视频数据上取得非凡成就。Siamese将reid看做一个分类问题。

另一方面，triplet loss的提出通过排序问题显示出在learning上的巨大的成功。 Cheng et al. [4]第一次提出triplet loss，通过添加预定义margin改进了损失函数。Shi et al. [32] 为避免over-fitting，在triplet loss的末尾加入了正则项。Liu et al. [25]设计了基于LSTM且具有triplet loss的soft attention使dCNN特征适用于reid任务。Wang et al. [40]把Siamese和triplet 结构合并成统一的框架。具有triplet的框架在reid任务上表现非凡。
（2）Knowledge transfer for person re-id
深度学习是靠数据驱动，但是大量的训练数据需要昂贵的人力成本。迁移学习将现有的knowledge应用到新任务中，前景明朗。例如，将网络在分类任务上预训练，表现出较强的特征提取能力，这对目标检测和语义分割等都十分有益。
迁移学习应用于reid:其中，mid-level semantic attribute中层语义属性因其对视点和光照变化的不变性，长期以来一直被探索和显示出很强的识别能力[19,35,49]。传统的方法倾向于直接使用属性作为图像描述符。最近，Su等人[36]提出了一种从独立属性数据集[6]和行人跟踪数据集[21]中学习深度属性特征的三阶段过程，并在人的reid数据集上对其特征进行了测试[3,10,14]。

3 方法

网络训练在3个不同的领域，来完成3个不同的任务训练。
在ImageNet上预训练。分类任务用带ID标签的Market1501数据集，全监督的dCNN网络进行训练，全连接层有1501个输出结点来分类1501个人。在属性识别的任务中，用了相似结构，最后全连接层有105个输出结点，把sigmoid作为损失函数，可以识别这一人物是否具有这些属性。两个生成的dCNNs都为person re-id任务生成初始参数，为person re-id任务提供具有鉴别能力的信息。三张图片一组，第二张是与第一张相同的人，positive sample；第三张是与第一张不同的人，negative sample。特征提取器由dCNN和LSTM组成。在从特征提取器中得到三个归一化的discriminative features判别特征后，reid模型把triplet loss作为最终的损失函数。

3.1 特征提取的ResNet

ResNet is scalable by stacking the residual component on each other, thus can achieve high demonstration.
由于数据量较小，之前reid大多用AlexNet.作者使用ResNet-50训练行人分类和属性识模型。ResNet-50含5个阶段，整个用来行人分类和属性学习。为了把best knowledge 应用到reid任务上，尝试已使用不同的transfer 方法，要么保留5个阶段，要么（在接近输入的地方）只提取4个底部阶段，要么提取3个底部阶段。第二个是最符合我们reid任务的。第一个有5个阶段，会导致顶部残差成分包含的knowledge在训练部分too specific。而第3种，有3个阶段又过于shadow。这些可有我们的实验结果可见。

3.2 特征强化的属性识别

person p的属性标签用一个k维向量表示：
其中，
向量的每一个元素代表p是否具有这一属性。sigmoid交叉熵作为最后一层，计算如下：

模型预测出每一个属性k的概率ak^.

3.3 .LSTM with the Spacial Gate

我们提取了预训练ResNet-50的底部4个阶段 ,使用基于LSTM的RNN组件完成特征提取器。一般来说，RNN动态可以用从以前隐藏状态到现在隐藏状态的转换来描述，LSTM允许记忆几个时间步长的有用信息，并删除过时的信息。

我们添加一个掩模映射smt来设置一个空间门，并使单元在每个时间步长集中于特定的部分。使用[45、43、31、25]中引入的LSTM实现，如图3所示。LSTM单元以CNN获得的h×w大小的feature map的c通道为条件。添加的空间门能够决定应该使用feature map的哪一部分。公式如下:

M是一组可训练参数的仿射变换，计算ht - 1和yt的串联结果。yt是输入的特征映射x乘以归一化掩码映射mt后的结果。
xi是x的第i个通道。mask map mt大小为h*w，应满足条件 mt和为1.
在[43]之后，LSTM的初始内存状态c0和隐藏状态h0通过两个不同的多层感知器分别输入每个通道的feature map的平均值来预测，即:

这种初始化方式在实验中显示有效，可以使训练更容易弹道convergent.
治理提出了四点 mask maps: global mask, local mask ,attention mask and fine-grained attention mask.(全局掩码、局部掩码、注意掩码和细粒度注意掩码)

Global mask

Jh,w 是大小为h*w的全一矩阵。LSTM分量yt的输入保持不变，即， x在 h和w维数的均值。使用全局掩模，特征图中的每个超像素在整个过程中贡献相等。这种掩码相当于一个通道上的平均池化。

Local mask

n为时间步长，1A为指标函数，
通过这种方式，每一time step步都将原始feature map的一个局部部分输入到LSTM组件中，从而可以提取出更多有鉴别能力的局部连接。
由于使用局部掩码可以将person结构从上到下划分为多个部分，所以LSTM组件的输入在每次步进时都前后一致地跟随一个部分。此外，由于姿态的变化和不同视角下的环境变化，正面人物图像的关键特征不一定相同。同时，我们可以合理地假设水平方向对应，因为我们使用的所有图像都被调整到一个固定的尺度，水平信息具有更好的稳定性。早期的一些工作，如[38,39]，也受到了这个想法的启发。与全局掩码相比，局部掩码能更好地提取人的局部连接.

图4是局部掩码映射的说明，注意掩蔽操作实际上是在feature map上执行的。

Soft attention mask

为了计算这种掩模映射，在第二维和第三维上重复隐藏状态ht∈Rr (r是隐藏状态的大小)，得到h(h,w) t∈Rr×h×w。将前一个时间步h(h,w) t−1的重复隐藏状态与feature map x∈Rc×h×w连接起来。公式如下:

其中N是一个可学习仿射矩阵。这个学习的掩码映射说明LSTM 可以学习决定应该注意输入特征映射的哪一部分，从而构建一个比较注意组件。

Fine-grained attention mask

在图5中，我们演示了我们的软注意掩码和细粒度注意掩码。与在dCNN第4阶段得到的特征图上添加注意的软注意掩模相比，细粒度注意掩模是在第三阶段得到的特征图上添加注意。
细粒度注意掩码的提出源于ResNet的深层结构，考虑了最深层路径。也就是说，**deep ResNet所提取的特征具有高度的抽象性和较小的尺寸。**因此，它们可以被任何注意强烈地改变。但是，当feature map处于一个较低的阶段时，它可以包含更多的空间信息，因此可以以更细的粒度强度添加注意。
每一步经过ResNet50阶段4层的进一步提取，可以将掩码特征图发送到LSTM组件。由于3.1节所述的前三个阶段的网络没有足够强的展示能力，需要进行进一步的提取过程，需要进行复杂度的降低。

即，ResNet50前三阶段普通特征提取，在得到的特征图上add attention 实现 fine-grained attention mask，在经过第4阶段进一步特征提取，将获得的masked feature map 发送到LSTM。

3.4 Triplet Selection

由于我们的目标是生成尽可能有区别的特征，所以我们采用三重损失函数作为训练损失函数。为了比较特征，我们选取三个人的图像作为训练组。在组中，image1和image2具有相同的person ID，而image3具有不同的person ID。三个图像被调整为相同的大小，并分别发送到dCNN和LSTM模型。在此过程中，**三个模型的权值应该是相同的，以保证特征提取的方式是相同的。**对于l2归一化特征< H,H+，H−>的三元组，期望正样本H+比负样本H−更接近H，公式为:

这里a是我们设置的边界，表示网络区分正样本和负样本的能力。因为我们的目标是提高这种能力，所以a的值应该能够提高这种能力。在此目标之外，我们的网络中三元组的损失函数为:
其中，
在测试阶段，我们将训练好的模型应用于一对图像。计算这对查询之间的特征距离，并对所有查询对之间的距离进行排序。

4 实验

我们主要进行了四个对比实验来检验我们模型的有效性：

我们测试了三种不同stage阶段的预训练dCNN模型。
从身份分类classification模型和属性attribute 模型两方面进行了实验微调。
我们在不同的空间门 spacial gate上做实验。
我们也比较了我们的方法与其他先进的方法在CUHK03数据集上的性能。

4.1 数据集

CUHK03：person re-id
Market1501:classification training
PETA:attribute training

CUHK03 14096张图片，1467个ID。每个行人都从两个相机视角选取。按照[22]中的评估程序，我们采用20个随机分割，100个测试ID，并报告平均精度。我们的实验是在 手工标记的数据集 上进行的。
Market1501 超过25000张图片，1501个ID，6个相机视角。平均来看，每个人包含17张不同图片，与CUHK03不同的是，一个人可能是从两个以上相机视角中选取的。我们使用这个数据集来训练人员ID分类模型。
PETA 数据集是由一些小型人物图像数据集收集整理而成，包含一些像CUHK这样的reid数据集。在PETA中的每张图片，标记有61种个二进制属性和4中种多类别属性。在[36]之后，我们将4种多分类属性扩展成为44个二进制属性。这样每个人生成长度为105的二进制属性向量。我们只用PEAT数据集的一个子集用来属性训练，它是3DPeS，CAVIAR4REID，MIT，SARC3D 和TownCentre的集合。数据集在相机角度、视觉角度、光照和分辨率上各不相同。

4.2 Training Phase Settings（训练阶段设置）

每张图片都被调整成128×64的大小，然后输入到网络中。我们通过数据扩充来提供更多的训练数据，提高训练模型的鲁棒性。我们在运行时间内随机对原始训练图像进行水平翻转、平移、缩放和模糊处理。使用Adam[16]优化器，初始学习率设置为10 - 5。 学习效率根据验证损失的大小而增减。 我们随机抽取10%的训练数据进行验证。根据[25]中的设置，将三重态损失的边缘设置为 a = 0.3 。batch size设置为128。

4.3 模型性能分析

Analysis of different transfer methods
试验中，先对模型在ImageNet上分类训练，随之在Market1501上进行ID分类训练。然后用不同的transfer 方式，来微调整个ResNet-50或者是某些stage。在CUHK03数据集上训练了一个基于LSTM的连通RNN模型。平均结果如Table1所示。

表1，Rank1, Rank5, Rank10, Rank20不同迁移方法在CUHK03数据集上的识别率。TStage5表示迁移整个ResNet-50网络，TStage3和TStage4表示迁移ResNet-50的底部3个阶段和4个阶段。

结果表明，在相对较浅的子网中迁移reid可以取得较好的效果。这可以解释为，dCNN的 top component 所包含的knowledge对训练数据领域的针对性太强 too specific，因此，当这些知识迁移到其他数据分布不同的领域时，可能是有害的。
Analysis of different domain knowledge 在本实验中，我们分析了来自不同数据源的模型的性能。结果如表2所示。

表2，用标注的CUHK03数据集的Rank1、Rank5、Rank10、Rank20不同层次的信息迁移识别率。模型NTransfer表示没有信息迁移模型，ITransfer、ATransfer、CTransfer表示分别从训练过的ImageNet、属性训练和分类训练中迁移的模型。

基准模型NTransfer是从零开始训练的，因此不包含从其他域迁移学习的信息。实现了42.55%的rank-1识别率。通过在ImageNet上应用一种常用的预训练后的ResNet技术，我们对ITransfer的 精度提高了近10% 。在ResNet-50上对ATransfer和CTransfer进行训练，并对底层四个阶段的参数进行迁移。以105维为输出的中层人的属性特征可以将reid性能提高到70%以上，而高层分类特征的性能更高，达到72.95%。两个模型都将排名5的结果提高到了93%以上。这证明了分类和属性信息对reid任务的有效性。
Analysis of different spacial gates
除了信息迁移，我们还进行了实验，衡量我们的空间门 spacial gate 在LSTM组件的有效性。在这组实验中，我们使用时间步长n = 8，并隐藏了r = 128。这种形状可以保持长宽比，以便更好地保留局部关系。此外，在迁移dCNN之后，提取信息，经过4个池化层，feature map的大小为8×4。这四个结果如表3所示。

在四种不同的掩码映射类型中，全局掩码仅计算输入特征映射的均值，仅获得72.95%的top-1分。局部注意只集中在特征图的一部分，与全局注意掩模和软注意掩模相比，效果更好。虽然软注意被认为是从训练数据中学习注意区域，但它并没有明显提高 reid识别的精度。这可能是由于ResNet结构复杂造成的。网络的剩余连接具有选择通过网络的流量的能力，在一定程度上掩盖了软注意的功能。 因此，我们提出的细粒度注意掩码将注意添加到更底层的功能映射，其中的功能包含更多空间信息。这比原始的注意力模型显示了更好的性能，验证了我们的假设。

4.4 Comparison with state-of-the-art methods

5 Discussion

讨论了一些关于实验优化问题
训练分类模型时，用了两种数据集。第一个是Market1501数据集上，reid的识别准确率达到74.8%。第二部分是在作者自己的数据集，源于网络的生图加上自己的标注。总计超过9000个人物。在相同的条件下准确率达到了78.3%。而且，最近Tong等人提出的Domain Guide Dropout reid模型在CUHK03数据集上实现了top-1 75.3%的准确率。他的方法跟作者的十分相似，用分类模型来迁移学习，但是特们融合了6个reid数据集来训练分类模型，包含了大约4000个ID。所以，更多的数据集或许会实现额外的准确度的提升。结果如表4所示。

我们一些reid结果示例在图7中有给出。该模型能够学习人的识别性特征表征，虽然有些特征即使是人眼也很难识别。
图7：在100个图像库设置的4个查询测试中，前5个reid匹配CUHK03测试数据。这显示了基于局部掩码的模型。注意，绿色框中的person图像具有与查询图像相同的person id。相似外观的标识在reid搜索空间中很接近。

6 结论

本文提出了一种基于information transfer的有效身份识别方法，利用身份分类、属性识别信息来提高身份识别的准确性。在LSTM结构中提出了一种新的空间门，利用比较注意comparative attention提取密集的人的特征。由于其出色的性能和可服务性，我们的方法适用于实际应用，如多对象跟踪。实验结果表明，该方法大大提高了人的再识别性能。
在未来的工作中，有可能**找到一种更好的分类与属性学习相结合的迁移学习方法来提高reid性能，或者同时提高彼此的性能。**此外，人的reid可以与单目标跟踪相结合，减少了识别人的工作量。作为一种现实世界的reid方法，在统一的框架下还应考虑检测和跟踪性能的影响。

Cross Domain Knowledge Transfer for Person Re-identiﬁcation笔记相关推荐

【论文翻译】UniT: Unified Knowledge Transfer for Any-Shot Object Detection and Segmentation
UniT: Unified Knowledge Transfer for Any-Shot Object Detection and Segmentation UniT:任意样本量的目标检测和分割的统 ...
关于ajax跨域请求（cross Domain）
Cross Domain AJAX主要就是A.com网站的页面发出一个XMLHttpRequest,这个Request的url是B.com,这样的请求是被禁止的,浏览器处于安全考虑不允许进行跨域访问, ...
添加本地图层出现要求cross domain policy的错误
错误描述: A security exception occured while trying to connect to the REST endpoint. Make sure you have ...
【cvpr2022-论文笔记】《L2G: A Simple Local-to-Global Knowledge Transfer .... Semantic Segmentation》
目录文章概述网络架构 Classification Loss Attention Transfer Loss Shape Tansfer Loss 相关讨论本文记录弱监督语义分割领域论文笔记&l ...
Dreaming to Distill Data-free Knowledge Transfer via DeepInversion
Dreaming to Distill: Data-free Knowledge Transfer via DeepInversion 我们提出了DeepInversion,一种从图像分布中合成图像的 ...
Dreaming to Distill: Data-free Knowledge Transfer via DeepInversion
Dreaming to Distill: Data-free Knowledge Transfer via DeepInversion 1. 论文信息论文标题 Dreaming to Distill ...
科研速记(2)：ICCV19-Wavelet Domain Style Transfer for an Effective Perception-distortion Tradeoff
Zeros Paper:Wavelet Domain Style Transfer for an Effective Perception-distortion Tradeoff in Single ...
CVPR 2017:Interspeices Knowledge Transfer for Facial KeyPoint Detection（跨物种脸部关键点检测知识迁移）
CVPR 2017: Interspeices Knowledge Transfer for Facial KeyPoint Detection(跨物种脸部关键点检测知识迁移) 一.介绍本文主要涉及 ...
CL-ReLKT: Cross-lingual Language Knowledge Transfer for MultilingualRetrieval Question Answering论文阅读
CL-ReLKT: Cross-lingual Language Knowledge Transfer for Multilingual Retrieval Question Answering 摘要 ...

Cross Domain Knowledge Transfer for Person Re-identiﬁcation笔记

Cross Domain Knowledge Transfer for Person Re-identiﬁcation笔记

1 介绍

2 相关工作

3 方法

3.1 特征提取的ResNet

3.2 特征强化的属性识别

3.3 .LSTM with the Spacial Gate

Global mask

Local mask

Soft attention mask

Fine-grained attention mask

3.4 Triplet Selection

4 实验

4.1 数据集

4.2 Training Phase Settings（训练阶段设置）

4.3 模型性能分析

4.4 Comparison with state-of-the-art methods

5 Discussion

6 结论

Cross Domain Knowledge Transfer for Person Re-identiﬁcation笔记相关推荐

最新文章

热门文章