Cross Domain Knowledge Transfer for Person Re-identification笔记

  • 1 介绍
  • 2 相关工作
  • 3 方法
    • 3.1 特征提取的ResNet
    • 3.2 特征强化的属性识别
    • 3.3 .LSTM with the Spacial Gate
        • Global mask
        • Local mask
        • Soft attention mask
        • Fine-grained attention mask
      • 3.4 Triplet Selection
  • 4 实验
    • 4.1 数据集
    • 4.2 Training Phase Settings(训练阶段设置)
    • 4.3 模型性能分析
    • 4.4 Comparison with state-of-the-art methods
  • 5 Discussion
  • 6 结论

(re-id)是计算机视觉领域的一项具有挑战性的任务,尤其是在从多个摄像机视角获取的训练数据有限的情况下。在本文中,我们提出了一种基于深度学习的人的再识别方法, 通过转移中层属性特征和高层分类特征的知识。基于 身份分类、属性识别和再识别共享相同的中层语义表示的思想,它们可以通过基于另一个的微调来依次进行训练。在我们的框架中,我们从 深度卷积神经网络(dCNN)训练身份分类和属性识别任务来学习 人的信息。信息可以 转移到人的重新识别任务,并提高其准确性在很大程度上。在此基础上,提出了一种基于 长短时记忆(LSTM)的递归神经网络(RNN)组件。该组件在reid模型中用于注意每个递归单元中的某些空间部分。实验结果表明,该方法在CUHK03基准上的识别精度达到了rank-1识别精度的78.3%。

1 介绍

difficulties: large variances of individual appearances and poses, environmental changes of illumination and occlusion as well as similarity between different persons
传统的reid方法大多基于 lowlevel features比如颜色、形状等描述人的外观的特征,然后学习 差异距离度量(discriminative distance metric )把特征层面embed到reid识别的层面。但是由于上面提到的各种difficulties,这些低层特征在reid问题上不够可靠。作者认为:The re-id task can be better treated as a classification task to some extent, which provides with a high-level description of person character.

最近深度学习的发展提高了图像分类任务的性能[13,18,34,37]。该方法通过可视化技术[46]实现对各个层次输入图像的描述,有利于对目标检测[9]和分割[26]等任务的实现。基本上,低层的特点是在底层,而中层和高层的特点是在顶层。这些特性可以直接用于人员重新标识任务,并实现最先进的性能[25,32,42]。

以往的工作首先提出训练 identity classification task,然后使用相同的数据集[25]或子集数据集[42]进行人员re-id训练,以获得更有识别力的特征。在这两种情况下,分类和reid任务都可以share knowledge。
与此同时,人的属性(如长发、穿t恤)是mid-level person descriptors,不随相机角度、视角、光照或分辨率的变化而变化。属性识别的研究由来已久。近年来的研究工作[19,35,36,49]对其在人的reid中的应用进行了探索,并取得了良好的效果。因此,属性信息也有助于人的重新识别。
论文 propose a deep learning based knowledge transfer scheme to take advantage of data from cross domain. 每个dataset视作一个domain,reid任务可以从不同domain的属性和分类任务训练的模型中获益。
接下来提到: RNN with LSTM structure ;attention mechanism(mask)
在与图像相关的任务中,注意机制 attention mechanism 在图像字幕[43]和图像生成[11]方面也取得了最先进的性能,并启发了一些以人的身份进行[25]研究的工作。
We further delve into the principle of attention mask and propose a spacial gate to allow the model to focus on specific part of the image, which is suitable for application scenario of re-id.
我们进一步深入研究了注意掩模的原理,提出了一种空间门,使模型能够聚焦于图像的特定部分,适合于reid的应用场景。

论文主要涉及三个方面:
(1) train a cross domain knowledge transfer scheme,该方案将模型 按顺序 训练在具有 不同数据分布 的不同数据集上;
(2)a spacial gate based LSTM network for person re-id,使得模型在测试集上表现非凡;
(3)conduct experiments on various transfer schemes, showing the significance of information transfer. 在其他数据集上也进行试验,作者的方法表现最好。

2 相关工作

reid常包含两部分:feature representation learning ;distance metric learning。简短介绍一下:
(1)Deep learning based re-id
深度学习的快速发展,利用deeep convolutionl neural network (dCNN)从原始图像中提取特征,并提出了多种方法将dCNN特征嵌入到reid搜索空间中,在这里被称为深度度量学习 (deep metric learning)。Siamese Network structure将深层特征提取和识别融合到一个框架,广受欢迎。 Varior et al. [38]提出一个subnetwork 作为门来选择性地增强整个特征图中的相似部分。Varior等人[39]提出将一个人的图像分割成几行,并将水平剪辑输入基于RNN的LSTM,接着是用siamese loss。 McLaughlin et al. [28] 将相似LSTM和siamese loss应用在基于视频序列的reid,在机组reid视频数据上取得非凡成就。Siamese将reid看做一个分类问题。

另一方面,triplet loss的提出通过排序问题显示出在learning上的巨大的成功。 Cheng et al. [4]第一次提出triplet loss,通过添加预定义margin改进了损失函数。Shi et al. [32] 为避免over-fitting,在triplet loss的末尾加入了正则项。Liu et al. [25]设计了基于LSTM且具有triplet loss的soft attention使dCNN特征适用于reid任务。Wang et al. [40]把Siamese和triplet 结构合并成统一的框架。具有triplet的框架在reid任务上表现非凡。
(2)Knowledge transfer for person re-id
深度学习是靠数据驱动,但是大量的训练数据需要昂贵的人力成本。迁移学习将现有的knowledge应用到新任务中,前景明朗。例如,将网络在分类任务上预训练,表现出较强的特征提取能力,这对目标检测和语义分割等都十分有益。
迁移学习应用于reid:其中,mid-level semantic attribute中层语义属性因其对视点和光照变化的不变性,长期以来一直被探索和显示出很强的识别能力[19,35,49]。传统的方法倾向于直接使用属性作为图像描述符。最近,Su等人[36]提出了一种从独立属性数据集[6]和行人跟踪数据集[21]中 学习深度属性特征 的三阶段过程,并在人的reid数据集上对其特征进行了测试[3,10,14]。

3 方法

网络训练在3个不同的领域,来完成3个不同的任务训练。
在ImageNet上预训练。分类任务用带ID标签的Market1501数据集,全监督的dCNN网络进行训练,全连接层有1501个输出结点来分类1501个人。在属性识别的任务中,用了相似结构,最后全连接层有105个输出结点,把sigmoid作为损失函数,可以识别这一人物是否具有这些属性。两个生成的dCNNs都为person re-id任务生成初始参数,为person re-id任务提供具有鉴别能力的信息。三张图片一组,第二张是与第一张相同的人,positive sample;第三张是与第一张不同的人,negative sample。特征提取器由dCNN和LSTM组成。在从特征提取器中得到三个归一化的discriminative features判别特征后,reid模型把triplet loss作为最终的损失函数。

3.1 特征提取的ResNet

ResNet is scalable by stacking the residual component on each other, thus can achieve high demonstration.
由于数据量较小,之前reid大多用AlexNet.作者使用ResNet-50训练行人分类和属性识模型。ResNet-50含5个阶段,整个用来 行人分类和属性学习。为了把best knowledge 应用到reid任务上,尝试已使用不同的transfer 方法,要么保留5个阶段,要么(在接近输入的地方)只提取4个 底部阶段,要么提取3个底部阶段。第二个是最符合我们reid任务的。第一个有5个阶段,会导致顶部残差成分包含的knowledge在训练部分too specific。而第3种,有3个阶段又过于shadow。这些可有我们的实验结果可见。

3.2 特征强化的属性识别

person p的属性标签用一个k维向量表示:
其中,
向量的每一个元素代表p是否具有这一属性。sigmoid交叉熵 作为最后一层,计算如下:

模型预测出每一个属性k的概率ak^.

3.3 .LSTM with the Spacial Gate

我们提取了预训练ResNet-50的底部4个阶段 ,使用基于LSTM的RNN组件完成特征提取器。一般来说,RNN动态可以用从以前隐藏状态到现在隐藏状态的转换来描述,LSTM允许记忆几个时间步长的有用信息,并删除过时的信息。

我们添加一个掩模映射smt来设置一个空间门,并使单元在每个时间步长集中于特定的部分。使用[45、43、31、25]中引入的LSTM实现,如图3所示。LSTM单元以CNN获得的h×w大小的feature map的c通道为条件。添加的空间门能够决定应该使用feature map的哪一部分。公式如下:

M是一组可训练参数的仿射变换,计算ht - 1和yt的串联结果。yt是输入的特征映射x乘以归一化掩码映射mt后的结果。
xi是x的第i个通道。mask map mt大小为h*w,应满足条件 mt和为1.
在[43]之后,LSTM的初始内存状态c0和隐藏状态h0通过两个不同的多层感知器分别输入每个通道的feature map的平均值来预测,即:

这种初始化方式在实验中显示有效,可以使训练更容易弹道convergent.
治理 提出了四点 mask maps: global mask, local mask ,attention mask and fine-grained attention mask.(全局掩码、局部掩码、注意掩码和细粒度注意掩码)

Global mask


Jh,w 是大小为h*w的全一矩阵。LSTM分量yt的输入保持不变,即, x在 h和w维数的均值。使用全局掩模,特征图中的每个超像素在整个过程中贡献相等。这种掩码相当于一个通道上的平均池化

Local mask


n为时间步长,1A为指标函数,
通过这种方式,每一time step步都将原始feature map的一个局部部分输入到LSTM组件中,从而可以提取出更多有鉴别能力的局部连接
由于使用局部掩码可以将person结构从上到下划分为多个部分,所以LSTM组件的输入在每次步进时都前后一致地跟随一个部分。此外,由于姿态的变化和不同视角下的环境变化,正面人物图像的关键特征不一定相同。同时,我们可以合理地假设水平方向对应,因为我们使用的所有图像都被调整到一个固定的尺度,水平信息具有更好的稳定性。早期的一些工作,如[38,39],也受到了这个想法的启发。与全局掩码相比,局部掩码能更好地提取人的局部连接.

图4是局部掩码映射的说明,注意掩蔽操作实际上是在feature map上执行的。

Soft attention mask

为了计算这种掩模映射,在第二维和第三维上重复隐藏状态ht∈Rr (r是隐藏状态的大小),得到h(h,w) t∈Rr×h×w。将前一个时间步h(h,w) t−1的重复隐藏状态与feature map x∈Rc×h×w连接起来。公式如下:

其中N是一个可学习仿射矩阵。这个学习的掩码映射说明LSTM 可以学习决定应该注意输入特征映射的哪一部分,从而构建一个比较注意组件

Fine-grained attention mask

在图5中,我们演示了我们的软注意掩码和细粒度注意掩码。与在dCNN第4阶段得到的特征图上添加注意的软注意掩模相比,细粒度注意掩模是在第三阶段得到的特征图上添加注意
细粒度注意掩码的提出源于ResNet的深层结构,考虑了最深层路径。也就是说,**deep ResNet所提取的特征具有高度的抽象性和较小的尺寸。**因此,它们可以被任何注意强烈地改变。但是,当feature map处于一个较低的阶段时,它可以包含更多的空间信息,因此可以以更细的粒度强度添加注意。
每一步经过ResNet50阶段4层的进一步提取,可以将掩码特征图发送到LSTM组件。由于3.1节所述的前三个阶段的网络没有足够强的展示能力,需要进行进一步的提取过程,需要进行复杂度的降低。

即,ResNet50前三阶段普通特征提取,在得到的特征图上add attention 实现 fine-grained attention mask,在经过第4阶段进一步特征提取,将获得的masked feature map 发送到LSTM。

3.4 Triplet Selection

由于我们的目标是生成尽可能有区别的特征,所以我们采用三重损失函数作为训练损失函数。为了比较特征,我们选取三个人的图像作为训练组。在组中,image1和image2具有相同的person ID,而image3具有不同的person ID。三个图像被调整为相同的大小,并分别发送到dCNN和LSTM模型。在此过程中,**三个模型的权值应该是相同的,以保证特征提取的方式是相同的。**对于l2归一化特征< H,H+,H−>的三元组,期望正样本H+比负样本H−更接近H,公式为:

这里a是我们设置的边界,表示网络区分正样本和负样本的能力。因为我们的目标是提高这种能力,所以a的值应该能够提高这种能力。在此目标之外,我们的网络中三元组的损失函数为:
其中,
在测试阶段,我们将训练好的模型应用于一对图像。计算这对查询之间的特征距离,并对所有查询对之间的距离进行排序。

4 实验

我们主要进行了四个对比实验来检验我们模型的有效性:

  1. 我们测试了三种不同stage阶段的预训练dCNN模型。
  2. 从身份分类classification模型和属性attribute 模型两方面进行了实验微调。
  3. 我们在不同的空间门 spacial gate上做实验。
  4. 我们也比较了我们的方法与其他先进的方法在CUHK03数据集上的性能。

4.1 数据集

CUHK03:person re-id
Market1501:classification training
PETA:attribute training

CUHK03 14096张图片,1467个ID。每个行人都从两个相机视角选取。按照[22]中的评估程序,我们采用20个随机分割,100个测试ID,并报告平均精度。我们的实验是在 手工标记的数据集 上进行的。
Market1501 超过25000张图片,1501个ID,6个相机视角。平均来看,每个人包含17张不同图片,与CUHK03不同的是,一个人可能是从两个以上相机视角中选取的。我们使用这个数据集来训练人员ID分类模型
PETA 数据集是由一些小型人物图像数据集收集整理而成,包含一些像CUHK这样的reid数据集。在PETA中的每张图片,标记有61种个二进制属性和4中种多类别属性。在[36]之后,我们将4种多分类属性扩展成为44个二进制属性。这样每个人生成长度为105的二进制属性向量。我们只用PEAT数据集的一个子集用来属性训练,它是3DPeS,CAVIAR4REID,MIT,SARC3D 和TownCentre的集合。数据集在相机角度、视觉角度、光照和分辨率上各不相同。

4.2 Training Phase Settings(训练阶段设置)

每张图片都被调整成128×64的大小,然后输入到网络中。我们通过数据扩充来提供更多的训练数据,提高训练模型的鲁棒性。我们在运行时间内随机对原始训练图像进行水平翻转、平移、缩放和模糊处理。使用Adam[16]优化器,初始学习率设置为10 - 5。 学习效率根据验证损失的大小而增减。 我们随机抽取10%的训练数据进行验证。根据[25]中的设置,将三重态损失的边缘设置为 a = 0.3 。batch size设置为128。

4.3 模型性能分析

Analysis of different transfer methods
试验中,先对模型在ImageNet上分类训练,随之在Market1501上进行ID分类训练。然后用不同的transfer 方式,来微调整个ResNet-50或者是某些stage。在CUHK03数据集上训练了一个基于LSTM的连通RNN模型。 平均结果如Table1所示。

表1,Rank1, Rank5, Rank10, Rank20不同迁移方法在CUHK03数据集上的识别率。TStage5表示迁移整个ResNet-50网络,TStage3和TStage4表示迁移ResNet-50的底部3个阶段和4个阶段。

结果表明,在相对较浅的子网中迁移reid可以取得较好的效果。这可以解释为,dCNN的 top component 所包含的knowledge对训练数据领域的针对性太强 too specific,因此,当这些知识迁移到其他数据分布不同的领域时,可能是有害的。
Analysis of different domain knowledge 在本实验中,我们分析了来自不同数据源的模型的性能。结果如表2所示。

表2,用标注的CUHK03数据集的Rank1、Rank5、Rank10、Rank20不同层次的信息迁移识别率。模型NTransfer表示没有信息迁移模型,ITransfer、ATransfer、CTransfer表示分别从训练过的ImageNet、属性训练 和分类训练 中迁移的模型。

基准模型NTransfer是从零开始训练的,因此不包含从其他域迁移学习的信息。实现了42.55%的rank-1识别率。通过在ImageNet上应用一种常用的预训练后的ResNet技术,我们对ITransfer的 精度提高了近10% 。在ResNet-50上对ATransfer和CTransfer进行训练,并对底层四个阶段的参数进行迁移。以105维为输出的中层人的属性特征可以将reid性能提高到70%以上,而高层分类特征的性能更高,达到72.95%。两个模型都将排名5的结果提高到了93%以上。这证明了分类和属性信息对reid任务的有效性。
Analysis of different spacial gates
除了信息迁移,我们还进行了实验,衡量我们的空间门 spacial gate 在LSTM组件的有效性。在这组实验中,我们使用时间步长n = 8,并隐藏了r = 128。这种形状可以保持长宽比,以便更好地保留局部关系。此外,在迁移dCNN之后,提取信息,经过4个池化层,feature map的大小为8×4。这四个结果如表3所示。

在四种不同的掩码映射类型中,全局掩码仅计算输入特征映射的均值,仅获得72.95%的top-1分。局部注意只集中在特征图的一部分,与全局注意掩模和软注意掩模相比,效果更好。虽然软注意被认为是从训练数据中学习注意区域,但它并没有明显提高 reid识别的精度。这可能是由于ResNet结构复杂造成的。网络的剩余连接具有选择通过网络的流量的能力,在一定程度上掩盖了软注意的功能。 因此,我们提出的细粒度注意掩码将注意添加到更底层的功能映射,其中的功能包含更多空间信息。这比原始的注意力模型显示了更好的性能,验证了我们的假设。

4.4 Comparison with state-of-the-art methods

5 Discussion

讨论了一些关于实验优化问题
训练分类模型时,用了两种数据集。第一个是Market1501数据集上,reid的识别准确率达到74.8%。第二部分 是在作者自己的数据集,源于网络的生图加上自己的标注。总计超过9000个人物。在相同的条件下准确率达到了78.3%。而且,最近Tong等人提出的Domain Guide Dropout reid模型在CUHK03数据集上实现了top-1 75.3%的准确率。他的方法跟作者的十分相似,用分类模型来迁移学习,但是特们融合了6个reid数据集来训练分类模型,包含了大约4000个ID。所以,更多的数据集或许会实现额外的准确度的提升。结果如表4所示。

我们一些reid结果示例在图7中有给出。该模型能够学习人的识别性特征表征,虽然有些特征即使是人眼也很难识别。
图7:在100个图像库设置的4个查询测试中,前5个reid匹配CUHK03测试数据。这显示了基于局部掩码的模型。注意,绿色框中的person图像具有与查询图像相同的person id。相似外观的标识在reid搜索空间中很接近。

6 结论

本文提出了一种基于information transfer的有效身份识别方法,利用身份分类、属性识别信息来提高身份识别的准确性。在LSTM结构中提出了一种新的空间门,利用比较注意comparative attention提取密集的人的特征。由于其出色的性能和可服务性,我们的方法适用于实际应用,如多对象跟踪。实验结果表明,该方法大大提高了人的再识别性能。
在未来的工作中,有可能**找到一种更好的分类与属性学习相结合的迁移学习方法来提高reid性能,或者同时提高彼此的性能。**此外,人的reid可以与单目标跟踪相结合,减少了识别人的工作量。作为一种现实世界的reid方法,在统一的框架下还应考虑检测和跟踪性能的影响。

Cross Domain Knowledge Transfer for Person Re-identification笔记相关推荐

  1. 【论文翻译】UniT: Unified Knowledge Transfer for Any-Shot Object Detection and Segmentation

    UniT: Unified Knowledge Transfer for Any-Shot Object Detection and Segmentation UniT:任意样本量的目标检测和分割的统 ...

  2. 关于ajax跨域请求(cross Domain)

    Cross Domain AJAX主要就是A.com网站的页面发出一个XMLHttpRequest,这个Request的url是B.com,这样的请求是被禁止的,浏览器处于安全考虑不允许进行跨域访问, ...

  3. 添加本地图层出现要求cross domain policy的错误

    错误描述: A security exception occured while trying to connect to the REST endpoint. Make sure you have ...

  4. 【cvpr2022-论文笔记】《L2G: A Simple Local-to-Global Knowledge Transfer .... Semantic Segmentation》

    目录 文章概述 网络架构 Classification Loss Attention Transfer Loss Shape Tansfer Loss 相关讨论 本文记录弱监督语义分割领域论文笔记&l ...

  5. Dreaming to Distill Data-free Knowledge Transfer via DeepInversion

    Dreaming to Distill: Data-free Knowledge Transfer via DeepInversion 我们提出了DeepInversion,一种从图像分布中合成图像的 ...

  6. Dreaming to Distill: Data-free Knowledge Transfer via DeepInversion

    Dreaming to Distill: Data-free Knowledge Transfer via DeepInversion 1. 论文信息 论文标题 Dreaming to Distill ...

  7. 科研速记(2):ICCV19-Wavelet Domain Style Transfer for an Effective Perception-distortion Tradeoff

    Zeros Paper:Wavelet Domain Style Transfer for an Effective Perception-distortion Tradeoff in Single ...

  8. CVPR 2017:Interspeices Knowledge Transfer for Facial KeyPoint Detection(跨物种脸部关键点检测知识迁移)

    CVPR 2017: Interspeices Knowledge Transfer for Facial KeyPoint Detection(跨物种脸部关键点检测知识迁移) 一.介绍 本文主要涉及 ...

  9. CL-ReLKT: Cross-lingual Language Knowledge Transfer for MultilingualRetrieval Question Answering论文阅读

    CL-ReLKT: Cross-lingual Language Knowledge Transfer for Multilingual Retrieval Question Answering 摘要 ...

最新文章

  1. 批量关闭公众号推送_微信推出“一键拒收”长期未读公众号推送功能
  2. java二级选择题要对一半吗_据说一半以上的java程序员会出错的题
  3. 焦李成院士:进化优化与深度学习的思考
  4. star ccm+ 用户指南_star-ccm边界层处理方法
  5. 编写高性能Web应用程序的10个技巧
  6. 非线性动力学_非线性科学中的现代数学方法:综述
  7. c语言 手动实现sizeof,sizeof究竟是怎样实现的?
  8. anaconda 安装在c盘_Tensorflow 2.1安装
  9. 查看pod网络范围_K8S Pod 内抓包快速定位网络问题
  10. NoSQL Redis的学习笔记
  11. ad采样频率_AD转换器是什么?快来一起学习一下
  12. 怎么通过当地时区计算格林尼治_时间规划局:时间能看到,标注在你的手臂上,那时的你会怎么样...
  13. [渝粤教育] 中国地质大学 建筑艺术赏析 复习题
  14. idea无法下载源代码
  15. HTML5 参考手册 ———— 颜色名
  16. csdn怎么搜索收藏夹
  17. excel输入公式显示公式_快速输入复杂的Excel公式
  18. navicat提权的两个方法(注册表+星号查看器)
  19. [脑科学]-这才是心理学
  20. DevOps落地实践:BAT系列:CICD:iPipe vs CCI

热门文章

  1. 终端定制行业分销初步设计
  2. 当 IDENTITY_INSERT 设置为 OFF 时,不能为表 'Logger' 中的标识列插入显式值
  3. 集合之六:Map接口
  4. 从产品角度,快速接盘新系统的一些经验及方法提炼
  5. 网络流量监控软件怎样实现
  6. CentOS软件包管理
  7. win10微软输入法不显示选字框?
  8. Python正则匹配一招完整去除文本中的各类表情符号
  9. android 内核老版本下载安装,百度极速版老版本下载安装
  10. 注册公司经营范围还不知道怎么写?看这一篇就够了!