论文笔记：DeepReID: Deep Filter Pairing Neural Network for Person Re-Identification

总体框架图
Feature extraction
Patch matching
Modeling mixture of photometric transforms
Modeling part displacement
Modeling pose and viewpoint transforms
Identification Recognition

这是2014年发的一篇CVPR，算是一篇很早的文章，号称“this paper is the first work to use deep learning for person re-identification”。当然，论文最后的呈现结果rank-1只有20%，而且对比算法都是传统的非深度学习算法如KISSE等。这个结果放到现在可以说是非常之low了，然而考虑到2014年的技术环境，何凯明的resnet那时还没有放出来（现在很多效果很好的re-id模型都要用到resnet做特征提取或者预训练）。所以本文作为re-id深度学习的入门文章还是可以一看的。

我们知道，流行的re-id深度学习框架主要分为两类：identification和verification。郑良在¹中专门提到并对比了两种框架，并总结到identification总体上要比verification框架要好，因为verification框架并没有完全利用标注信息。但也有人不同意这种说法，²这篇文章直指郑良的说法是不准确的，并给出了verification框架中三元组损失的一种更好的改进方式。其实verification框架相对于identification框架是由天然优势的，那就是样本比identification更多，这是应用深度学习的天然优势。当然，随着数据集的不断扩大和一些数据增强手段的应用（如GAN）,identification框架样本数量也不再是一个问题。

本文是一个verification框架。

针对re-id问题中的photometric transforms和geometric transforms，本文分别建立了模型。具体而言，针对亮度转换，本文通过滤波器对来学习这种转换，使得两组滤波器学习到不同摄像头下图像的共同的特征。而对于几何转换，本文通过块匹配层，卷积最大池化层和全连接层来建模。

总体框架图

下面我们按照论文的顺序总结

Feature extraction

上面提到了用两组滤波器对来学习不同摄像头下的共有特征。这里我放一下原文的话来解释这个模型的作用：
Two paired filters represent the same feature most discriminative for person re-identification. They are applied to different camera views and their difference reflects the photometric transforms. The convolutional layer is followed bymax-pooling, which makes the features robust to local misalignment.

这个不难理解，通过训练过程来学习滤波器对，使他们学习到这种不同摄像头之间造成的GAP，并且关注到更有鉴别力的特征。
这里注意到通过最大池化操作将feature map大小降到H1×W1×K，来增加一些对于局部不匹配的鲁棒性。其中K为通道数。对应公式为：

Patch matching

本文将行人图片水平分为M条带,对与在同一个通道的两张feature map，各有M个水平带。本文引入了displacement matrices的概念。定义为：

由于feature map代表的是对滤波器的相应，所以当两张feature map 中同一水平带上的patch对这一通道的滤波器相应都很高时，他们的乘积就会很大。所以displacement matrices 的作用是什么呢？引入原文中的原话：These displacement matrices encode the spatial patterns of
patch matching under the different features.
总结就是编码了两张图片在不同通道的空间模式。后面的鉴别就是基于两张图片的空间模式。

到现在为止其实本文的主要模型和思想都已经阐述完了。
紧接往下看

Modeling mixture of photometric transforms

这个就非常简单了，相当于在通道的维度做了最大池化操作。这个层叫做maxout-grouping layer。

除了增加鲁棒性，这一部分还提到这种做法的一种缘由：使图像块对滤波器对有稀疏的响应（因为此时响应的维度已经低于滤波器的维度）。而稀疏往往代表着强健。

Modeling part displacement

这给也非常简单，算是一种对displacement matrices 的一种鲁棒化吧，达到放大特征视野的作用。原文的话是：obtain the displacement matrices of body parts on a larger scale。

Modeling pose and viewpoint transforms

最后就是一个全连接啦，文章也对全连接层做了物理上的解释：Such global geometric transforms can be viewed as different combinations of part displacement and their distributions are multi-modal。

Identification Recognition

这个就是我们熟悉的softmax和对应的损失函数啦。不多讲了。值得注意到的是
在这个公式中设置了a和b的学习参数。

这是我的第一篇CSDN博客，写的不好希望大家多多包涵，刚刚入门re-id。还有很多理解不到位，请大家多批评指正。

Person Re-identification:Past, Present and Future ↩︎
In Defense of the Triplet Loss for Person Re-Identification ↩︎