早期的行人再识别与深度行人再识别研究——行人再识别技术综述阅读笔记

这是对李幼蛟的一篇行人再识别综述做的学习笔记。新人第一次写博客，很多地方写的不够完善，还请大佬们多多指正！

行人再识别：判断不同摄像头下出现的行人是否属于同一行人[1]。

1.早期的行人再识别

早期的行人再识别使用手工设计特征，主要包含特征提取与表达、相似性度量。其中，特征影响识别性能，相似性度量影响准确率的进一步提升。行人再识别采用的特征分为低层视觉特征、中层滤波器特征、高层属性特征。而且基于视频的行人再识别中，不仅提取空间特征，还会提取时间特征来反映视频运动信息。

1.1 低层特征

低层特征，指颜色、纹理等基本的图像视觉特征。颜色对姿态和视角变化具有鲁棒性，但易受光照和遮挡的影响。纹理特征常包含在行人衣着，纹理特征涉及到相邻像素的比较，对光照具有鲁棒性。所以可将颜色和纹理结合起来使用，提供行人图像的全局信息，但这缺乏空间信息，所以可将行人图像分成多个重叠/非重叠的局部图像块，分别从中提取颜色或纹理特征，为行人特征增加空间区域信息，当计算两幅图像的相似度时，对应的图像块内的特征将分别进行比较，然后将各个图像块的对比结果融合，作为最终的识别结果。据此，可采用局部分割模型（上下半身，条纹，滑动窗，三角形等），通过对人体结构的多层次建模，提高局部特征的判别性和区分性，尽可能多地过滤掉背景信息。低层特征提取无需复杂的训练过程，可解释性较强，但是表达能力弱，面对复杂的识别环境，其泛化能力受到一定制约，无法针对具体的行人再识别任务进行优化。

1.2 中层滤波器特征

中层滤波器特征，指从行人图像中，具有较强区分能力的图像块组合中提取出的特征。滤波器反映了行人特殊视觉模式，视觉模式对应不同的身体部位，可以有效表达行人特有的身体结构信息。滤波器利用聚类算法，从行人图像中学习出一系列有表达能力的滤波器。每一个滤波器都代表一种与身体特定部位相关的视觉模式，也称显著区域（Salient region），如：若在同一行人的多幅图像中，存在由多干小的图像块组成的显著区域，如提包，会有助于做出判断，如右图虚线为显著区域检测结果。如果提包出现在多张图像中的不同空间位置，有些行人再识别方法由于只考虑大块的对应上衣和裤子的颜色区域，小的颜色区域因为不属于身体主要区域，会被当作异常值而忽略掉。显著区域对光照和视角变换具有鲁棒性，合理利用会提高再识别的性能。另外，人体由各个身体部分组成，具有良好的结构特性，使用与人体部位对应的滤波器特征，能够平衡行人描述符的区分能力和泛化能力。低层和中层特征结合使用，能够在一定程度上克服光照和视角变化的问题。但是人体为非刚性目标，外观容易受到姿态、遮挡等各种因素的影响，还需要其他更高层的特征。

1.3 高层属性特征

人类在辨识行人时会使用离散而精确的特有属性，如服装样式、性别、发型、随身物品等人类属性，这些是高层属性特征，属于软生物特征，比低层、中层特征更具区分能力。行人图像对应的属性特征通常采用离散的二进制向量表示形式，如定义【是否男性，是否长发，是否携带提包】，则图中对应的行人即可表示为[1,0,1]。由此可见，与其他特征相比，高层属性特征在提取和表达方面更加复杂，属性标定需要大量的人工和时间成本，但有更加丰富的语义信息，对于光照和视角变化具有更强的鲁棒性。因此，属性特征与低层特征联合使用，可以有效地提高识别性能。而且，属性特征可以对行人图像进行语义层面的解释，有效缩小低层视觉特征与高层语义特征之间的语义鸿沟，所以再识别过程中，使用高层属性特征，性能将会明显提升。

1.4 相似性度量

行人再识别利用特征之间的相似性来判断行人图像的相似性，特征相似的行人图像将被看作同一个人。相似性度量分为无监督度量、监督度量和基于视频的距离度量（略）。
无监督度量：直接利用特征表达阶段获得的特征向量进行相似性度量。因为特征向量之间的相似性往往通过特征向量之间的距离进行度量，特征向量之间的距离越小，行人图像越相似。监督度量：距离度量学习基于成对约束的监督度量方法，利用给定的训练样本集，学习得到一个能够有效反映数据样本间相似度的度量矩阵，在减少同类样本之间距离的同时，增大非同类样本之间的距离。距离度量学习需要额外的学习过程，在训练样本不足时容易产生过拟合现象，且图像库和场景变化时需要重新训练。目前的距离度量算法大多是基于成对约束的，约束的数量是训练样本数量的平方，导致大样本时，约束数量将变得非常巨大，此时需要构建合理的训练约束库，设计更加快速有效的训练机制。

1.5 距离度量学习

距离度量学习：如欧氏距离，计算的是两个特征向量间的距离，成双成对的约束，算出来的结果具有物理意义上的可解释性的那种（如：就是在计算距离）。而损失函数约束则如三元组损失、身份损失、验证损失那样，基于多个变量的，以计算出的值的大小来约束，算出来的值没有什么物理意义，只知道这个是在计算损失值层面的东西。距离度量学习方法大多数是基于成对约束的，当大型数据集中的摄像头的数量超过两个时，距离度量学习的效果将大大减弱，而端到端的方法利用三元组损失函数取代了距离度量学习，取得了超过另外两种方法的效果。

2.深度行人再识别

2.1 深度行人再识别简述

深度学习与传统方法的最大不同之处在于，其特征是从大数据中自动学习得到的，通过建立分层模型结构，能够从大量数据中逐级提取从底层到高层的特征，获得适合于分类或者识别的深度特征。卷积层的作用为提取图像的各种信息，例如边缘和形状。池化层的作用为对卷积后的特征信号进行抽象，从而大幅度减少训练次数，还可以减少过拟合现象的出现。卷积层和池化层可以出现多次，获得行人抽象的、多层次的描述。全连接层的作用为将池化层得到的特征图投影到一维的特征空间，形成行人图像的特征向量。深度学习模型可以将特征表达和相似性度量两个环节整合到一起，通过两者的联合优化获取远超传统方法的性能。

2.2 基于深度学习的行人再识别方法

基于深度学习的行人再识别方法分为端到端式、混合式、独立式三种。
端到端式的将特征提取和相似性度量整合到一个统一的框架中，进行联合优化。早期的端到端方法在进行相似性比较时，往往采用简单的欧氏距离或余弦距离，缺少距离学习的过程，影响了识别准确率（思考：所以叶茫博士2018论文使用了基于双流网络的双约束Top rank损失[2]），可以在深度网络训练过程中，加入损失函数约束，使得同类样本距离变小，异类样本距离变大，达到距离学习的效果。混合式的深度行人再识别将深度特征和人工特征相结合，利用距离度量学习进行相似性度量。该方法可以采用较为成熟的人工特征表达行人的局部特性，采用浅层的网络结构，提取行人的全局特征，二者结合可以充分发挥各自的优势，在一定程度上弥补训练数据的不足，同时可以在一定程度上避免深度网络模型过于复杂、网络训练速度慢的缺点。
混合式行人再识别方法适用于中小型数据集，结合先验知识，已经证明其有效性的人工特征，只采用浅层网络结构即可达到较高的识别准确率，大大简化了网络训练过程。
独立式的深度行人再识别方法框架与基于人工特征的方法相似，不同的是采用深度神经网络提取行人图像的深度特征，再结合距离度量学习方法完成行人再识别。独立式的深度行人再识别方法设计思路简单，借助于新的网路模型，能够有效提高行人再识别的性能。随着网络深度的不断增加，识别准确率也相应提升，但是网络训练复杂度也随之增加，因此需要研究如何根据应用需求，获得网络深度与识别准确率之间的最优折中。

另外，为了提升小型数据集上的识别性能，可以采用预训练（Pre-training）+细调（Fine-tuning）的策略，在大型数据集上对网络参数进行预训练，然后利用小型数据集中的样本对网络参数进行细调，将其泛化到小型数据集上。

3.总结

基于深度学习的方法可以模拟人脑的抽象和迭代过程，获得行人图像的分层特征表达。深度网络的低层特征是从像素中学习得到刻画身体局部特性的边缘和纹理特征；中间层特征通过将各种边缘滤波器的组合来描述不同的人体部位；高层特征描述的是整个行人的全局特征。因此，基于深度学习的行人再识别方法仅经过极少的预处理就可以得到从原始像素到高层语义的有效特征表达。另外，各种诸如姿态、性别、着装等的复杂因素，往往以非线性的方式组合在一起，深度学习则可以通过不同的神经元，代表不同的因素，使其变成简单的线性关系，不再互相影响，从而提升识别效果。另外，通过增加网络深度，可以提升网络的非线性表达能力，使其更好地拟合目标函数，获得更优泛化能力的分布式特征表达，但是网络的整体复杂度也会增加，使得网络变得难以优化，这时需要大规模的数据集作为支撑，否则过拟合将不可避免。研究结果表明，行人再识别的精度随数据集规模的增加而增加。（思考：增加网络深度去提高拟合效果，这近似于一个个线性函数和非线性函数的组合，可以拟合出sin(x)一样。通过增加网络深度，一个个线性的神经元和非线性的激活函数的加入，使得这些组合越来越像目标函数了，但深度也不能过量了，否则会使得组合能够充分表示训练集，而在测试集里就表现不佳，即——过拟合）

Reference

[1]李幼蛟, 卓力, 张菁, 等. 行人再识别技术综述[J]. 自动化学报, 2018, 44(9): 1554-1568.
[2]Ye M, Wang Z, Lan X, et al. Visible thermal person re-identification via dual-constrained top-ranking[C]//IJCAI. 2018, 1: 2.