行人重识别综述学习笔记

文章目录

《行人重识别研究综述》
- 摘要：
- 1 行人重识别概述
- - 1.1 背景与研究意义
  - 1.2 研究现状
  - 1.3 评价标准
- 2 基于图像的行人重识别研究（传统+深度）
- - 2.1 特征表达方法
  - 2.2 度量学习方法
  - 2.3 数据集
- 3 基于视频的行人重识别研究
- - 3.1 传统方法
  - 3.2 结合深度学习方法
  - 3.3 数据集
- 4 发展趋势
- 5 结束语
- Q&A
- - Q1-度量学习：
  - Q7-马氏距离：
《基于深度学习的行人重识别研究进展》
《基于深度学习的行人重识别方法研究》

《行人重识别研究综述》

摘要：

行人重识别应用于智能监控领域，旨在非重叠视角域多摄像头网络下进行的行人匹配，即确认不同位置的摄像头在不同的时刻拍摄到的行人目标是否为同一人。本文根据研究对象的不同，将目前的研究分为基于图像的行人重识别(即在每个数据集中每个摄像机视角下只有一幅或者几幅行人图像)和基于视频的行人重识别两类，对这两类分别从特征描述、度量学习（Q1）和数据库集 3 个方面将现有文献分类进行了详细地总结和分析。此外，随着近年来深度学习算法的广泛应用，也带来了行人重识别在特征描述和度量学习方面算法的变革，总结了深度学习在行人重识别中的应用，并对未来发展趋势进行了展望。行人重识别（person re-identification）是近几年智能视频分析领域兴起的一项新技术，属于在复杂视频环境下的图像处理和分析范畴，是许多监控和安防应用中的主要任务。

1 行人重识别概述

1.1 背景与研究意义

行人重识别是指在已有的可能来源与非重叠摄像机视域的视频序列中识别出目标行人，行人重识别的研究面临着诸如图像分辨率低、视角变化、光线变化、姿态变化以及遮挡等带来的诸多挑战。比如，
1）监控视频的画面一般比较模糊，分辨率也比较低。
2）行人重识别的图像往往采自于不同的摄像机，由于拍摄场景、摄像参数不同，行人重识别工作一般存在光照变化及视角变化等问题。
3）进行重识别的行人图像可能拍摄于不同的时间，行人姿态、衣着会有不同程度的改变。
4）实际视频监控下的场景非常复杂，很多监控场景人流量大，场景复杂，画面很容易出现遮挡等情况。

1.2 研究现状

传统的行人重识别从特征提取和距离度量学习两个方面进行研究。2014 年后，越来越多的研究者尝试将行人重识别的研究与深度学习结合在一
起，深度学习不仅应用于提取高层特征，也为度量学习的研究带来了革新。行人重识别最开始是在基于图片的情况下，从 2010 年后，很多学者开始对基于视频的行人重识别进行研究。

1.3 评价标准

在研究中为了评价所提出的行人重识别方法的性能，通常将数据库中的行人分为训练集和测试集两个部分。在测试时，第 1 个摄像机所拍摄的数据作为查找集（query），而第 2 个摄像机中的行人数据为候选集(gallery)。
目前常用的评价标准主要是 CMC 曲线 (cumu-lated matching characteristic)，当查找的对象在候选集中进行距离比较之后，将候选集中的行人按照距离的远近由小到大进行排序，要查找的行人排序越靠前(可以设置一个R值，来计算查找的正确率)，则算法的效果越好（CMC®值越大，准确率越高）。
提出用平均正确率均值 (mean average precision, mAP) 来进行算法的评价标准，出自论文An asymmetric distance model for cross-view feature mapping in person re-identification.

2 基于图像的行人重识别研究（传统+深度）

属于图片检索，行人重识别算法大致可分为基于特征描述的方法和基于距离度量学习的方法两类。基于特征描述的方法关注的是找到较好的描述行人外貌特征的表观模型（Q2），基于度量学习的方法关注的是找到有效的行人特征相似度的度量准则(Q3)（能不能类比生成模型和判决模型？）。

2.1 特征表达方法

基于特征表示的方法重点在于设计鲁棒可靠的行人图像特征表示模型，即能够区分不同行人，同时能够不受光照和视角变化的影响。
常用组合特征：
ELF2008 (RGB, YCbCr, HSV, Gabor filters) 图像特征-颜色、纹理，结合 RGB、YCbCr、HS 颜色空间的颜色直方图，具有旋转不变性的 Schmid 和 Gabor 滤波器计算纹理直方图
CNN2012（CNN）图像特征-CNN颜色、形状
dColorSIFT2013 (Dense Color, Dense SIFT) 图像特征-颜色
gBiCov2014(BIF, Gabor, Covariance描述符) 图像特征-外观、纹理、生物激励特征
Color, LBP, HOG2015 图像特征-颜色、形状、纹理
Color&LBP, HOG3D, DynFV 2016 图像特征-颜色、局部、纹理、轨迹
GOG2016（区域Gaussian分布、LAB, HSV, nRGB）图像特征-局部、形状、颜色、梯度
神经网络2016（CNN RNN）图像特征-颜色、轨迹、CNN

其主要分为以下几类进行介绍：
1) 底层视觉特征(Q5)：这种方法基本上都是将图像划分成多个区域，对每个区域提取多种不同的底层视觉特征，组合后（Q4）得到鲁棒性更好的特征表示形式。
1颜色特征在不同光照或角度等行人识别的不适环境中具有一定的不变性。最常用的就是颜色直方图，通常用 RGB、HSV 直方图表示。把 RGB 空间的图像转化成 HSL 和 YCbCr 颜色空间，观察对数颜色空间中目标像素值的分布。
2形状特征如方向梯度直方图**-HOG特征**，局部特征如局部不变特
征–尺度不变特征变换（scale-invariant feature trans-form，SIFT）。
3纹理特征如Haar-like Represention（边缘特征、线性特征、中心特征和对角线特征）、局部二值模式（LBP）、Gabor 滤波器、共生矩阵（Co-occur-rence Matrics）
2) 中层语义属性：可以通过语义信息（Q5）来判断两张图像中是否属于同一行人,比如颜色、衣服以及携带的包等信息。分类器可以用 SVM 定义每幅行人图像的以上语义属性（ Q6），结合语义属性重要性加权以及与底层特征融合，最终描述行人图像。
3) 高级视觉特征： Fisher 向量编码、DynFV（dynamic fisher vector）特征、Fisher 向量编码的密集短轨迹时间金字塔特征、GOG（Gau-ssian Of Gaussian）、深度学习-对图像提取颜色和光流特征，采用卷积神经网络（CNN）处理得到高层表征，然后用循环神经网络（RNN）捕捉时间信息，然后池化得到序列特征。

2.2 度量学习方法

由于干扰，不同摄像头间可能会失去连续的位置和运动信息，使用欧氏距离、巴氏距离等标准的距离度量来度量行人表观特征的相似度不能获得很好的重识别效果。因此，研究者们提出通过度量学习的方法。该方法获得一个新的距离度量空间，使得同一行人不同图像的特征距离小于与不同人的距离。距离度量学习方法一般是基于马氏距离（Mahalanobis distance）（Q7）而进行。训练得到一个马氏矩阵，通过这样学习到的距离尺度变换，使得相同的人的特征距离减小，而不同的人特征距离增大，以此开创了行人重识别中距离度量学习的先河。
目前在行人重识别研究中有一些普遍用于比较的度量学习算法：
1大间隔最近邻居(large margin nearest neighbor, LMNN)-通过学习一种距离度量，使在一个新的转换空间（Q8）中，对于一个输入 xi的 k 个近邻属于相同的类别，而不同类别的样本与 xi保持一定大的距离。
2逻辑判别距离度量学习(logistic discriminant metric learning, LDML)-LDML 算法基于逻辑回归的思想, 使用 S 型函数来表示样本对是否属于等值约束的概率。
3RankSVM-将重识别问题抽象为相对排序问题。学习到一个子空间，在这个子空间中相匹配的图像有更高的排序。
4概率相对距离比较(probabilistic relative distance comparison, PRDC)-算法的基本思想在于增加正确匹配之间会拥有较短距离的可能性。同人的图像组成同类样本对，不同行人目标之间组成异类样本对，获得度量函数对应的系数矩阵，优化目标函数使得同类样本对之间的匹配距离小于异类样本对之间的距离，对每一个样本，选择一个同类样本和异类样本与其形成三元组，在训练过程通过最小化（？）异类样本距离减去同类样本距离的和，得到满足约束的距离度量矩阵。
5相对距离比较算法（relative distance comparison, RDC）-RDC 采用Adaboost 算法来减少对标注样本的需求。
6保持简单有效原则下的距离测度学习算法( Keep It Simple and Straightforward metric learning，KISSME）-认为所有相似样本对和不相似样本对的差向量均满足一个高斯分布，因此可以通过相似和不相似训练样本对分别大致计算出均值向量和协方差矩阵。该方法不要用迭代优化过程，适合用于大尺度数据的距离度量学习。
7局部Fisher判别分析(local fisher discriminant analysis, LFDA)-该方法在进行特征提取的时候，首先提取不同特征的主要成分，然后拼接成特征向量。在距离度量学习上，该方法考虑不是对所有样本点都给予相同的权重，考虑到了局部样本点，应用局部 Fisher 判别分析方法为降维的特征提供有识别能力的空间，提高度量学习的识别率。
8核局部 Fisher 判别分析 (kernel local fisher discriminant analysis, kLFDA ) -可避免求解高维的散列矩阵，既减少了运算量，又提高了重识别的准确率。
9XQDA(cross-view quadratic discriminative analysis)
10深度学习方法-基于孪生卷积神经网络的深度度量学习方法、基于邻域成分分析和深度置信网络的深度非线性度量学习方法、基于深度神经网络的可扩展距离驱动特征学习框架

2.3 数据集

VIPeR 数据集-包含 632 个行人，1 264 幅图片，具有两个相机视角，每个相机视角下包含一个行人的一副图片。数据集中同一行人的两个相机下的成像视角差距较大，大部分在 90°以上。数据集中所有的图像都归一化（Q9）到相同的分辨率 128×48。
CUHK01 数据集-该数据集包含 3 884 幅图像，971 个行人。每个行人
对应从两个相机的两个视角拍摄的 4 幅图像，每个相机 2 幅。所有图像分辨率均归一化到 160×60。
Market-1501数据集包含1 501个行人，超过30 000幅图像，视频图像来源于 6 个摄像机的多个不同视角。

3 基于视频的行人重识别研究

研究者们将行人重识别分为 single-shot 和 multi-shot 两种。single-shot 行人再识别是指每个行人在每个场景（Q10）中只有一幅图像，而 multi-shot 行人重识别主要是指每个行人在一个摄像机场景中对应一个视频或者图像序列中每个行人在每个场景有多幅图像或图像序列。
Multi-Shot研究工作也更具有挑战性：一方面，multi-shot 包含较多冗余信息，如何提取行人图像序列的关键部分是该类问题的难点；另一方面，如何有效地利用行人序列特征设计度量模型，也是该类问题需要考虑的部分。
下面将介绍基于视频序列的 multi-shot 行人重识别的方法：

3.1 传统方法

不少方法尝试去提取视频中的三维数据来进行外貌表征，如 HOG3D以及 3DSIFT等特征都是从广泛使用的 2-D 扩展而来的。不少工作拿步态来研究基于视频的行人再识别问题。然而步态的获取需要行人轮廓信息或者身体部位信息等。在遮挡较多、背景较复杂的监控环境下，如何提取到精确的行人轮廓或身体部位信息，仍是一个比较棘手的问题。Simonnet 等提出了用动态时间弯曲距离，对视频序列进行度量学习。Wang 等提出了一种基于时空描述子对行人进行重识别的方法，提取视频中光流强度值 (FEP) 进行步态周期检测，进而提取出运动特征。You 等提出 top-push distance learning model(TDL)，在特征提取上融合了颜色特征、LBP 特征和 HOG3D 特征, 并通过改进了 LMNN 算法提出TDL 算法。

3.2 结合深度学习方法

一个基于视频序列的行人重识别数据集 MARS。
1、随着 CNN 在基于图像的任务中应用的成熟，部分研究者把其运用到了基于视频的领域中，此外，为了弥补 CNN 只能处理空间维度信息的缺陷，获取更多的时间信息，研究者们开始将 RNN 以及其改进模型 LSTM 等用于序列建模。
2、Mclaughlin 等提出将输入的信息分为外观特征和光流信息，将 CNN 和 RNN 网络相结合，在 CNN 的基础上加入 RNN 使得该网络可以处理视频序列，而在 RNN 层上加入时域池化层使得该网络可以处理任意长度的视频，进行联合调参。
3、Zhou 等提出利用深度神经网络将特征学习和度量学习统一在一个框架下，进行端到端的训练和推理。在特征学习阶段，我们利用基于时序的注意模型（temporal attention model）来自动识别具有判别力的帧，使其在特征学习阶段具有较大的权重；度量学习阶段（Q11），我们首先逐个位置计算一对视频片段的相似度量，然后利用基于空间的循环神经网络模型（spatial recurrent model）来考虑空间位置的信息，使得相似度度量融合进了上下文信息而变得鲁棒。
Liu 等提出基于累积运动上下文（Q12）的视频行人重识别，采用了时间和空间分离的两路卷积网络结构, 之后将获得的表观特征和运动特征融合，作为 RNN 的输入。

3.3 数据集

iLIDS-VID数据集也是基于视频情况下的行人重识别最为常用的数据集之一。由于该数据集在一个机场大厅拍摄，很多行人的外观特征比较接近，两个摄像机的成像效果比较差，成像视角和光照强度都存在较大差异，每个图像中存在遮挡等不少干扰信息，因此是很有挑战性的数据集。
PRID2011数据集也是基于视频的情况下行人重识别最为常用的数据集之一。与iLIDS-VID数据集相比背景比较干净，图像中较少存在遮挡这种干扰
信息，图像的成像效果比较好。和 iLIDS-VID 类似，两个摄像机成像视角和光照强度也存在很大的差异。
随着深度学习在行人重识别中的应用，小规模的数据集逐渐难以满足需求，因此近些年，在基于视频序列的行人重识别研究中，也有大规模的数据集提出，如 MARS数据集-6个相机、1261个行人。

4 发展趋势

在基于图像的行人重识别研究中，VIPeR （规模较小）作为最广泛被采用的数据集。由于这些数据集的规模都不大，因此，即使使用了深度学习的方法，依然和手工设计出的特征以及度量方法取得的最好结果近似。
但是在Market-1501（6摄像头多视角，规模较大）上，深度学习的应用明显提高了 rank-1 的准确率。

5 结束语

1、为了更好地结合 CNN、RNN 等方法，在今后的发展中大规模的数据集将会成为研究者的研究重点，另外更多的有实际研究价值的大规模数据集会被提出，适应研究发展的需要。
2、在新技术的应用方面还非常不足。虽然引入了深度学习进行特征提取或分类，但多集中于深度判别式学习，而很少用到深度生成式模型（生成式模型的目的是找到一个函数可以最大的近似数据的真实分布-概率密度函数）。

Q&A

Q1-度量学习：

度量学习的对象通常是样本特征向量的距离（欧氏距离、曼哈顿距离、马氏距离），度量学习的目的是通过训练和学习，减小或限制同类样本之间的距离，同时增大不同类别本之间的距离。
度量学习 (Metric Learning) == 距离度量学习 (Distance Metric Learning，DML) == 相似度学习度量学习简介

Q7-马氏距离：

距离度量之马氏距离定义、距离公式

注：以上所提到的研究和方法以及数据集，在原survey中都对应了参考文献，如果想深入了解更多细节，可以阅读参考论文。

目前的挑战：图像分辨率低、视角变化、光照变化、行人姿态变化、存在遮挡

《基于深度学习的行人重识别研究进展》

《基于深度学习的行人重识别方法研究》