Unsupervised Cross-Dataset Transfer Learning for Person Re-identiﬁcation阅读总结

Unsupervised Cross-Dataset Transfer Learning for Person Re-identiﬁcation(UMDL)阅读笔记

What？

学习一些潜在属性

如a中的红色上衣，b中的黑色裤子，c中的短袖，d中的牛仔

为什么能这么表示？
个人理解：我们用一个网络学习到的特征，例如2048d，可能其1-5维可以表示这个人有没有背书包，4-6维表示这个人穿的上衣颜色…，只不过这些信息对于我们来说不能理解，但其确实应该具有这些信息。那么如果我们学习一个网络，让网络将每张行人图像都映射到一个共享空间中，得到这个行人的特征，那就很容易进行reid。对于这个网络，就是文章中所提到的“字典(dictionary)”，学习的共享空间中的行人特征就是行人图像经过dictionary变换的结果。而对于跨域问题，我们只需要要求这个共享空间是域不变的就OK了，而另一些算法可能会把域特殊特征也给学出来，也只不过是一个扩展而已。而本文进一步扩展，考虑了三个方面的特征：域贡献特征(域不变特征)、目标域域特殊特征，域残差特征(每个域都有，用于学习前两个没有学到的信息，共T个，分别是T-1个源域和1个目标域的残差特征)，然后就是每个特征用一个网络去学，而优化的时候注意一些流程问题就可以了。

算法如下：

xt,ix_{t,i}xt,i表示数据集ttt中第iii张行人图像的特征表示，是一个MMM维的列向量，这个数据集中共NtN_tNt张行人图像，于是这个数据集的所有行人特征组成一个矩阵可以表示为Xt∈RM×NtX_t \in R^{M \times N_t}Xt∈RM×Nt。而t∈[1,2,...T]t \in [1,2,...T]t∈[1,2,...T]分别表示T-1个源域和1个目标域。然后我们要学习一个变换函数(文中叫做dictionary)，其目的是将MMM维的行人特征变换成kkk维的新行人特征，于是这个字典维度也就很容易确定，即D∈RM×kD \in R^{M \times k}D∈RM×k。具体地，这个DDD我们考虑了三个方面，一是要求这个新的行人特征与域无关，需要是各个域都共享的，即这个dicrionary将T个域的样本的行人特征全部映射到一个新的更低维的共享空间中，记为DsD^sDs（对共T个域的样本都进行变换）。此外，还需要学习一个目标域特有的变换dictionary，从而学习目标域特殊的特征，也就相当于是在做一个域适应，记为DTuD^u_TDTu（仅对目标域样本进行变换）。最后是再学习一个变换dictionary，干嘛呢？去学习各个域中前两者不能表达到的残差信息，记为DtrD_t^rDtr（也同样是对T个域的样本都进行变换）。

然后就是需要构建出优化目标了，作者给出如下：

等号左边是优化后需要得到什么，等式右边是怎么优化以达到这个目的。对上面的符号，我们还进行一些解释：
其中D在前面介绍过了，那A是什么呢？A其实就是D对应的样本经过D变换后得到的更低维的行人特征(文章中叫做code)，而其第iii列的结果就集为aia_iai，如at,isa_{t,i}^sat,is就是AtsA_t^sAts的第iii列的结果。D的也是同理，如disd_i^sdis就是DsD^sDs的第iii列的结果。而η\etaη和λ\lambdaλ都是权重超参。如果xt,ix_{t,i}xt,i和xt,jx_{t,j}xt,j是跨视野(不同相机，作者应该是重点针对了跨视野reid，而现在的精度计算都是算跨视野的，因此加了这个应该是能涨点的)下相同人的两张图像，那么wt,i,j=1w_{t,i,j}=1wt,i,j=1，否则为0，于是就组成了Wt，t∈[1,2,...,T−1]W_t，t \in {[1,2,...,T-1]}Wt，t∈[1,2,...,T−1]，而对于目标域，由于没有标签，因此WTW_TWT就是个全0矩阵(初始情况，其实就相当于ECN中的样本不变性，注意：这个矩阵后面会更新的，不会一直全是0的，更新后的意义也就和其他的一样了)。

逐项解释：

前两项：
第一项是学习共享特征，第二项是学习共享特征+残差特征，由于仅对源域，因此没有特殊特征，stepsize的结构，我个人理解其相当于加权作用。

中间三项：

针对目标域的，也是stepsize的结构。分别是目标域的共享特征的重构损失/误差，共享+特殊特征，共享特征+特殊特征+残差特征。

最后两项：

相当于正则。其只考虑了所有域的共享特征和目标域特殊特征，不考虑任何与的残差特征，作者说的是没什么用，解释为they are not subject to the graph Laplacian regularisation because they are either untransferrable to the target task or are view-variant thus useless for Re-ID，但其实没懂，应该也是实验的结果吧。上面两项其实是基于graph Laplacian regularisation的，可以重写为：

其中：

作者指出：这里字典学习使用F范数而不是传统的1范数，是因为1范数是稀疏的，也就是使用1范数主要为了省开销，而reid不适合用这些稀疏的表达，信息不够丰富，此外，F范数更容易优化(1范数可以理解为尖角的V函数，0点不可导)。

那剩下的交给优化就可以了，优化过程如下：

至于提到的几个公式，感兴趣的可以看原文。大致就是更新某个dictionary时，固定其他的，那这些其他的就可以看作常量了，重写一下式1再求导就得到相应的式子了。

最后一个问题

之前提到的WTW_TWT怎么更新：
算法1执行完之后，每个目标域样本都可以通过式10得到编码的结果特征(共享+特殊+残差，只有目标域需要，源域不用算特征)，如果样本iii的目标域特殊特征是样本jjj的目标域特殊特征的kkk近邻(特征之间算相似度，然后arg max操作，但这个过程不可导，因此算法其实不是端到端的)，且样本jjj的目标域特殊特征是样本iii的目标域特殊特征的kkk近邻，那就让：

否则设为0就可以了。然后重新执行算法1，进入下一次迭代。作者指出，最多迭代5次就够了。

实验

（多个源数据集，因此比较不是很公平）

性能给了几个表：

stepsize和目标域特殊特征学习的消融

在别的文章中，给出了多个源数据集，在Market上的性能为： rank@1=34.5, mAP=12.4 ; 在Duke上的性能为： rank@1=18.5, mAP=7.3