参考文献：Zhao X, Sang LF, Ding GG, Guo YC, Jin XM. Grouping attribute recognition for pedestrian with joint recurrent learning[C]. Twenty-Seventh International Joint Conference on Artificial Intelligence IJCAI-18. 2018.
代码实现：https://github.com/slf12/GRLModel
包括理解！

Grouping Attribute Recognition for Pedestrian with Joint Recurrent Learning

摘要

行人属性识别是从监控图像中预测行人的属性标签，由于图像质量差、训练数据量小，对计算机视觉来说是一项极具挑战性的任务。研究发现，待识别的语义行人属性往往表现出语义或视觉空间相关性。属性可以根据相关性进行分组，而以前的工作大多忽略了这一现象。受循环神经网络（RNN）超强的上下文关联学习能力的启发，提出了一种利用组内互斥和组间关联提高行人属性识别性能的端到端分组递归学习（GRL）模型（理解：组内互斥：一个人不能同时具有16-30岁和31-45岁的属性；组间关联：女性留长发的几率更高）。我们的GRL方法首先通过Body Region Proposal检测精确的身体区域，然后从检测区域提取特征。这些特征和语义组一起被输入到RNN中，用于递归的分组属性识别，在RNN中可以学习组内相关性。大量的经验证据表明，基于行人属性数据集，即标准PETA和RAP数据集，我们的GRL模型达到了最新的结果。

1 引言

行人属性，如年龄、性别和服装，是可供人类搜索的语义描述，可作为视觉监控应用中的软生物特征，如人的重识别【Layne等人，2012年；Liu等人，2012年；Peng等人，2016年】、人脸验证【Kumar等人，2009年】和人类识别【Reid等人，2014年】。与低级视觉特征相比，属性对角度变化和观察条件多样性具有鲁棒性。虽然从人脸识别的角度来看，行人属性识别是有益的，但很少有研究集中在人的全身上。在图像质量差、训练数据量小的情况下，从真实监控图像中识别行人属性具有内在的挑战性。高成像质量和大规模训练数据不适用于行人属性，例如，两个最大的行人属性基准数据集PETA[Deng et al.，2014]和RAP[Li et al.，2016a]仅包含9500和33268个训练图像。此外，行人属性的识别还必须处理监控场景中质量差、标签不平衡、外观变化复杂的图像。

属性识别方法包括手工特征识别方法、CNN方法和CNN-RNN方法。早期的属性识别方法主要依靠手工制作的特征，如颜色和纹理【Layne等人，2012年；Liu等人，2012年；Jaha和Nixon，2014年】。最近，基于深度学习的属性识别模型被提出，因为它能够学习更具表现力的特征【Li等人，2015；Fabbri等人，2017；Liu等人，2017b】，这大大提高了行人属性识别的性能。例如，DeepMar方法【Li等人，2015】利用对象拓扑中的先验知识进行属性识别，并设计加权sigmoid交叉熵损失来处理训练属性识别模型时的数据不平衡问题。多向注意力模块应用于基于初始的深度模型HydraPlus Network【Liu等人，2017b】，以考虑视觉注意。CNN-RNN方法在挖掘标签相关性的多标签分类任务中取得了成功【Li等人，2017；Liu等人，2017a】。在行人属性识别任务中引入了一个循环的编码器-解码器框架【Wang等人，2017b】，旨在利用长短期记忆（LSTM）模型发现属性之间的相互依赖和关联。（这里列举的文献都是行人属性识别的经典算法）

行人属性总是表现出语义或视觉空间上的相关性，通过这些相关性可以对行人进行分组（理解：这里语义或视觉空间上的相关性包括了组内互斥和组间关联两种关系，把视觉空间分成了全身、头部、上半身、下半身几个部分）。例如，BoldHair和BlackHair不能出现在同一个人身上，因为它们都与一个人的头肩部位有关，所以它们可以在同一组中一起被识别。现有的方法试图分别挖掘属性间的相关性，但忽略了组内语义冲突和属性间的空间邻域关系（理解：就是说现有方法已经用RNN挖掘了属性之间的相关性，但是没有根据视觉空间分组，忽略了组内互斥和组间相关，空间邻域关系是视觉空间上组间关系，比如全身和头部之间的关系），能够提高了行人属性识别的性能。属性预测结果中存在两种类型的语义冲突。例如，一个人不能同时具有16-30岁和31-45岁的属性。如果这发生在预测结果中，则称为互斥共现。一个人不能既不是男性也不是女性。如果发生这种情况，则称之为“无”。表1显示了现有行人属性识别方法DeepMar的年龄和体形语义冲突率【Li等人，2015】，另外，由于属性是单独预测的，不考虑空间局部属性群，使得属性的空间邻域关系难以处理。

为了解决这些问题，一个想法是利用属性之间的相互依赖和相关性【Chen等人，2012；Li等人，2015；Wang等人，2016；2017a；Zhu等人，2017】，而另一种观点则侧重于特定空间视觉区域的相关属性，旨在避免背景的负面影响【Li等人，2016b；Liu等人，2017b】。然而，在现有的方法中，这两种方案大多是独立研究的，即单独研究属性之间相关性和特定视觉区域属性内的互斥性。

在这项工作中，我们建立了组内语义互斥和组间相关性的端到端递归架构。为了兼顾组内语义互斥关系和组间空间关联关系，提出了一种分组递归学习（GRL）框架，对行人属性进行分组识别。提出了一种新的分组属性识别网络，该网络专门用于行人属性的分组预测。该基于RNN的模型应用顺序分组属性预测，不同于现有基于CNN的属性预测策略【Li等人，2015；Fabbri等人，2017；Liu等人，2017b】。此外，与多模型联合递归学习（JRL）方法相比，它是一种无需预处理的端到端单模型方法【Wang等人，2017b】。在行人属性识别任务中，该方法比现有的方法具有更好的性能，能够更好地挖掘行人属性之间潜在的组内和组间依赖关系。总之，我们在本文中做出了以下贡献：

• 提出了一种新的行人属性识别方法GRL。据我们所知，这是第一个通过挖掘属性组的语义和空间相关性来逐组预测属性的工作。
• 采用单模型端到端的结构，易于训练，在特征提取前不需要进行更多的预处理，在属性预测后不需要进行多模型投票。
• 提出了一种用于挖掘属性组间相关性的递归学习方法。

2 相关工作

2.1 行人属性识别

行人属性识别被广泛用于人的识别【Jaha和Nixon，2014]和再识别[Layne等人，2012；Liu等人，2012；Peng等人，2016】。属性识别方法包括手工特征识别方法、CNN方法和CNN-RNN方法。早期的方法通常独立地建模多个属性，并基于手工制作的特征（如颜色和纹理直方图）为每个属性训练单独的分类器【Layne等人，2012；Liu等人，2012；Jaha和Nixon，2014】。随后，属性间相关性被视为用于提高预测性能的额外信息，例如，使用条件随机场或马尔可夫随机场捕获属性共现可能性的基于图模型的方法【Chen等人，2012；Deng等人，2015；Shi等人，2015】。但是现有的图模型在处理大量属性时计算代价很高。由于手工制作的特征识别性差，这些方法不能很好地工作。

最近，行人属性识别任务中采用了基于深度CNN的方法【朱等人，2015；李等人，2015；苏德等人，2015；法布里等人，2017；刘等人，2017b】，以学习更多的表达性表征，从而显著提高行人属性识别的性能。DeepMar模型【Li等人，2015】利用对象拓扑中的先验知识进行属性识别，并设计了加权sigmoid交叉熵损失来处理属性识别模型训练时的数据不平衡问题。提出了空间注意方法【Liu等人，2017b；Fabbri等人，2017】，以避免不相关图像区域的负面影响。尽管基于CNN的方法通过使用深度卷积网络来学习更具表现力的行人特征，但它们在挖掘属性相关性方面一直存在不足。

【Wang等人，2017b】提出了一种基于CNN-RNN的编解码框架，旨在利用LSTM模型发现属性间的相互依赖和相关性。但是，该方法没有考虑语义互斥约束和空间邻域。另外，利用多模型投票逐点预测属性在计算上非常昂贵。

2.2 Body Region Proposal

身体区域建议问题可以看作是一个目标检测问题。在目标检测任务中提出了基于区域建议的卷积网络（RCNN）方法，并取得了成功【Girshick，2015；Ren等人，2015】。提出了一种利用感兴趣区域（ROI）池层共享卷积特征图计算的快速R-CNN目标检测方法。然后采用同时预测每个位置的目标边界和目标得分的全卷积目标检测框架（RPN）【Ren等人，2015】进行实时目标检测，进一步提高了检测速度。

人体区域特征提取在个体识别中起着重要的作用。局部细节可以用区域特征更好地描述。一个完整的人体区域提议包括两个步骤，即人体关节定位和人体区域提议。为了获得更准确的局部特征，在人的再识别任务中，将RPN引入人体区域提议中【Zhao等人，2017年】，其中采用完全卷积网络（FCN）预测人体关节的定位，并将关节位置用于人体区域生成。在本研究中，我们使用此身体区域建议方法来侦测行人影像中的身体部位，并使用相关的空间区域来进行群组属性识别。图1显示了人体区域提议的流程。

3 Background

3.1 循环神经网络

略

3.2 LSTM

略

4 行人属性识别的分组联合递归学习

4.1 问题定义

分组行人属性识别有以下定义：给定nnn张训练图像III={I1,…,InI_1,…,I_nI1,…,In}，每张图像ImI_mIm有可视属性标记kmk_mkm；每个可视属性标记属于集合TTT={T1,…,TKTT_1,…,T_{K_T}T1,…,TKT}，KTK_TKT是集合TTT的大小；GGG={G1,…,GKGG_1,…,G_{K_G}G1,…,GKG}是TTT的一个集合分区，有GiG_iGi∩GjG_jGj =øøø(iii 不等于jjj)，所有GiG_iGi的交集等于TTT，同一组中的标记彼此具有语义或空间约束；每张图像ImI_mIm有一个标签向量ymy_mym∈ {0, 1}KT^{K_T}KT，图像ImI_mIm有标记TjT_jTj时ymj=1y_{mj}=1ymj=1，否则ymj=0y_{mj}=0ymj=0；我们的目标是学习属性识别模型RI:IR^I:IRI:I→{0, 1}KT^{K_T}KT来识别图像ImI_mIm的属性。

4.2网络架构

网络结构如图2所示。对于每个行人图像ImI_mIm，我们使用一个完全卷积的网络来检测身体的关节。然后我们使用一个身体区域提议网络来生成这个人的头部、上半身和下半身区域。ImI_mIm被输入到一个基于初始的CNN模型中，模型中包含了ROI平均池的人体区域建议结果。ROI平均池操作可以从初始模块提取的特征图中提取特定区域的特征，从而更容易地利用相关组的空间邻域。例如，发型、眼镜和帽子都在头部区域，它们在同一组中，并且这些属性是同时预测的。存在着与全身区域相关的具有语义关系的属性，通过这些属性可以将它们分成若干组，以利用彼此之间的语义关系。

如图2所示，同一组中的所有属性具有相同的完全连接特征，并且所有组的特征都被输入到LSTM单元中，用于递归分组属性预测。LSTM的每个输出全连接到一个预测向量中，该预测向量的维数与相关组中的属性数相同。预测向量随后与batch normalization layer（BN）连接在一起。batch normalization layer首先将预测向量规范化为均值和单位方差为零的向量，然后对其进行缩放并在其中添加偏差。

batch normalize layer用于平衡网络的正负输出，batch normalize layer的输出用于计算加权的sigmoid交叉熵损失，这将在第4.3节中说明。

4.3 损失函数与优化

在multi-class分类问题中引入sigmoid交叉熵损失，如公式3所示。

正如【Li等人，2015】所述，属性并不总是具有均匀分布，特别是在监视场景中存在样本不均衡。因此，我们使用【Li等人，2015】中提出加权的sigmoid交叉熵损失来解决这个问题。

公式6有错误吧？应该是占比越低的属性权重越大

5 实验

5.1 数据集

为了进行评估，我们使用了两个最大的可公开获取的行人属性数据集：
(1)PEdesTrain Attribute（PETA）数据集【Deng等人，2014】从10个小规模个人数据集收集的19000人图像组成。每个图像都用65个属性（61个二值+4个多值）标记。按照与【Deng等人，2015；Li等人，2015】相同的规定，我们将整个数据集划分为三个不重叠的分区：9500用于训练，1900用于验证，7600用于评估。在实验中，我们从PETA数据集中选取了35个属性。
(2) Richly Annotated Pedestrian（RAP）数据集【Li等人，2016a】有41585张图像，来自26个室内监控摄像头。每个图像都有72个属性（69个二值+3个多值）以及视点、遮挡、身体部位信息。我们采用与【Li等人，2016a】相同的数据分割：33268张用于训练，其余8317张用于测试。为了公平比较，我们评估了与【Li等人，2016a】相同的51个二值属性。
对于这两个数据集，我们将多值属性转换为二值属性。我们将PETA数据集中所选的35个属性分组为表2，RAP分组为表3。

5.2 评价

度量标准。我们使用四个指标来评估属性识别的性能。（1）以类为中心：对于每个属性标签，我们分别计算正样本和负样本的分类精度，将其平均，得到平均精度mA。（2）以实例为中心：对于每个实例，计算查准率、查全率、F1。

对比算法。比较了基于CNN的5种深度学习属性识别方法和基于CNN-RNN的3种联合学习模型的8种最新方法。Attributes Convolutional Network（ACN）[Sudowe等人，2015]联合训练所有属性的CNN模型，并在不同属性之间共享权重和传递知识。DeepSAR[Li et al.，2015]是一个深度模型，它通过基于Alexnet的多个属性特定模型的训练来单独处理属性类。与DeepSAR[Li et al.，2015]不同，DeepMar[Li et al.，2015]通过在单个模型中学习所有属性来额外考虑属性间相关性。我们为公平比较训练了一个基于初始阶段的DeepMar模型。HydraPlus-Net[Liu等人，2017b]是一个基于初始的多向注意网络，用于捕获局部属性的空间信息，以获得更好的识别性能。GAPAR在行人属性识别中采用基于Resnet的生成性对抗模型，提高了生成性对抗性行人属性识别的识别精度。Contextual CNN-RNN（CTX CNN-RNN）[Li et al.，2017]是一种基于CNN-RNN的序列预测模型，用于编码场景上下文和人与人之间的社会关系，以便在图像中建模多人。Semantically Regularised CNN-RNN（SR CNN-RNN）[Liu et al.，2017a]是一种最新的多标签图像分类模型，它利用真值属性标签进行强监督的深度学习和更丰富的图像嵌入。Multi-model Joint Recurrent Learning（JRL）[Wang等人，2017b]引入了一种编码器-解码器结构来处理图像上下文和属性相关性。

实现细节。我们采用tensorflow框架，以ImageNet图像分类任务中预先训练的Inception-v3模型进行微调。身体区域提议网络使用[Zhao等人，2017年]中所述的模型，以MPII人体姿势数据集进行训练[Andriuka等人，2014年]。采用SGD优化算法，初始学习率为0.1，最后降低到0.001。

结果。我们的方法和其他方法的对比结果见表4。表4中方法分为4组：CNN小模型、CNN大模型、CNN-RNN模型和多模型方法。我们的GRL方法优于SR CNN-RNN[Liu等人，2017a]，后者是最先进的单模型CNN-RNN方法，在四个指标中，PETA数据集的mA和F1中分别提高了3.87%和3.86%，而RAP数据集中的数据分别为6.99%和3.46%。尽管JRL是一种多模型集成方法，但GRL在mA和F1得分上优于JRL*[Wang等人，2017b]，在PETA中提高了1.03%和1.09%，在RAP中提高了3.39%和0.71%。与大模型CNN法相比，GRL在RAP的所有指标上都优于GAPAR[Fabbri等人，2017年]，其中GAPAR优于其他方法，在mA中提高了1.47%。基于Inception-v3的DeepMar[Li et al.，2015]在以实例为中心的度量方面优于以类为中心的度量。GRL在以实例为中心的F1得分上也没有什么优势（PETA为0.83%，RAP为0.99%）。实验结果表明了该方法在行人属性识别中的优越性,这主要是由于GRL挖掘组内和组间相关性的能力。

5.3 进一步分析和讨论

人体区域建议与分组递归识别的效果。GRL方法的改进主要体现在空间注意和语义相关挖掘两个方面，我们将讨论这两个方面带来的改进。首先，我们不利用人体区域建议信息，CNN的全身特征直接输入LSTM单元，无需ROI average pooling。与基于初始的DeepMar模型的基线方法相比，该方法只使用分组递归识别，从基线的改善表现了分组递归识别的效果。与完整的GRL系统相比，该方法缺乏对人体区域提议的空间关注，与完整的GRL系统的差异表现了身体区域提议的效果，实验结果见表5。

从表5可以看出，no ROI GRL跟基线的mA和F1相比，在PETA上分别提高了4.16%和0.33%，在RAP上分别提高了3.58%和0.40%。GRL跟no ROI GRL的mA和F1相比，在PETA上分别提高了1.04%和0.50%，在RAP上分别提高了1.52%和0.59%。我们可以看到，GRL的两个组成部分都是有意义的，GRL通过分组递归识别比身体区域建议在mA方面取得了更多的改进。

LSTM预测顺序的影响。预测顺序是影响识别精度的一个重要因素，因为最开始识别的属性不能观察到更多相关的识别结果。因此，我们应该把容易识别而不严重依赖他人的全局属性放在首位，例如，性别和年龄很容易被识别，即使许多其他属性还不清楚，对性别的认识有助于预测其他相关属性（如服装和鞋具）。在这一部分中，我们展示了从全局组到局部组的逻辑优化预测顺序和在表6中列出的随机顺序的实验结果，PETA和RAP中的逻辑优化预测顺序与表2和表3中的顺序相同。

表6所列的实验结果证实了我们的推论，即逻辑优化顺序优于随机顺序，两个数据集在mA和F1上分别提高了0.89%和0.62%，1.08%和0.59%。

属性相关性对GRL模型性能的影响更为仔细。图3显示了用于定性分析的RAP数据集的两个示例，其中，定性分析表明，分组行人属性识别需要适当的预测顺序。非序列预测模型DeepMar漏掉了长发，并且错误地预测了左图的年龄，而且它也会错过合适的发型和棉质衣服。相比之下，我们的GRL方法在预测顺序正确的情况下得到了正确的预测，例如，如果模型得出一个人是女性的结论，那么她留长发的几率就更高，因此在得到性别信息后预测与头发相关的属性组时，可以正确识别头发长的属性。一些全局属性（如年龄、体形等）的预测与其他局部属性的预测结果没有太大关系，因此应尽可能根据整体视觉特征来确定，以避免错误的局部属性标签的误导，像这样的属性应该在序列的开头进行预测。GRL在以错误的顺序预测时得到错误的体形和年龄结果，如图3所示。

6 结论

在这项工作中，我们提出了一个新的端到端深度分组递归学习（GRL）模型，以探索组关系，包括语义依赖和空间邻域以及组间行人属性关联。在GRL结构中，采用了人体区域提议的空间注意和分组递归识别。我们的GRL模型优于现有的行人属性识别方法，通过大量的实验，证明了人体区域提议和分组递归识别在空间注意方面的优势，此外还证明了一个逻辑优化的预测顺序可以得到更好的结果。

行人属性识别：Grouping Attribute Recognition for Pedestrian with Joint Recurrent Learning相关推荐

行人属性识别的一个调研
行人属性识别的一个调研 - 知乎 [前言] 我感觉我掌握了财富密码,从知乎的后台数据来看,大家貌似更喜欢看综述多一点 .因此这次给大家整个"行人属性识别(PAR)"的综述,同样的, ...
行人属性识别一：训练PA100k数据集
序言最近在做行人属性识别相关的任务,本文用于记录训练过程,供以后复习查阅. 目前网上可用的行人属性识别仓库还是比较多的,比如前段时间百度开源的PP-Human属性识别.PULC 人体属性识别,以及京 ...
【第66篇】行人属性识别研究综述（一）
文章目录摘要 1.简介 2 问题的表述和挑战 3 标准 3.1 数据集 3.2 评价标准 4 行人属性识别的常规流程 4.1 多任务学习 4.2 多标签学习 5 深度神经网络
【第66篇】行人属性识别研究综述（二）
文章目录 6 PAR(行人属性识别)算法综述 6.1全局基于图像的模型 6.1.1 ACN (iccvw-2015) 6.1.2 DeepSAR and DeepMAR (ACPR-2015) [6] ...
行人属性数据集pa100k_Attribute-Recognition行人属性识别资料
(摘自王逍同学的论文arxiv-2019+Pedestrian Attribute Recognition A Survey) 1. 数据集 Dataset Pedestrians Attribute ...
行人属性--HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis
HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis ICCV2017 https://github.com/xh-liu/Hy ...
行人属性识别二：添加新网络训练和自定义数据集训练
序言上一篇记录了训练过程,但是项目中提供的模型网络都是偏大的,如果想要在边缘设备上部署,还是比较吃力的,所以本文记录如何加入新的网络模型进行训练,以repvgg为例,加入mobilenet.shuf ...
Pedestrian Attribute Recognition
目录行人属性识别主要挑战数据集 RAP PETA PA-100k 评价指标 mA example-based evaluation 主流方法及未来方向相关工作 HydraPlus-Net: At ...
Pedestrian attribute recognition: A survey
Pedestrian attribute recognition: A survey Pedestrian attribute recognition: A survey 1 引言 2 问题表述和挑战 ...
行人属性数据集pa100k_基于InceptionV3的多数据集联合训练的行人外观属性识别方法与流程...
本发明涉及模式识别技术.智能监控技术等领域,具体的说,是基于Inception V3的多数据集联合训练的行人外观属性识别方法. 背景技术: 近年来,视频监控系统已经被广泛应用于安防领域.安防人员通过合 ...

行人属性识别：Grouping Attribute Recognition for Pedestrian with Joint Recurrent Learning