基于视频行人重识别--解决遮挡问题

基于视频行人重识别–遮挡问题

原文链接2019cvpr VRSTC: Occlusion-Free Video Person Re-Identiﬁcation

时空完成网络STCnet，能有效解决视频行人重识别的部分遮挡问题。不同于其他传统途径（直接抛弃遮挡帧），这篇文章提出了，基于时间信息和空间信息的生成遮挡部分的算法。在三个数据集都取得了state-of-the-arts的效果。

一、整体框架

STCnet框架的一个总览. 空间生成器将被遮盖的图片作为输入然后输出生成的图片.时间注意力生成器利用当前帧的前一帧和后一帧的信息来更新空间生成器生成的图片. 两个分类器用来判断整体图片和局部图片的真实性. ID 引导网络来确保生成图片的身份.
二、遮挡部分的选取
要生成遮挡部分被遮挡部分的信息，那么首要的是不是要先将被遮挡的那一部分在图片里面定位出来？本文章先将图片均匀分成上，中，下三份。

先将原图均匀分成上，中，下，三部分。
上公式表示第t帧输入的图像帧，u,m，l分别表示被分成的上，中，下局部区域。

表示t帧图片的特征，由cnn获取的特征表示

通过平均池化方法，将图片区域特征取平均。即把每一帧上，中，下区域的特征表示分别累加取平均

按照如上公式，将所有帧每一部分分别于那一部分的均值作上述运算，得到一个文章所谓分数，表示该部分和所有帧该部分的一个相似程度。figure3所示，可以得到一系列的分数。然后设定一个阈值，
表示上述计算的分数如果小于设定的阈值，将被视为遮挡部分。然后这一部分会拿来作为STCnet进行修补

三、空间结构生成器

利用图片帧里面可以看见的部分来大致粗略的预测被遮挡的部分。，作者介绍的比较简短。
首先将判定的遮挡部分全部变成白色（像素直接变成0）。整个空间结构生成器可以看作是一个自动编码器，把上面处理的部分当作编码器输入，然后输出该图像的特征表示，然后再用译码器根据这些特征表示生成被遮挡部分的信息（怎么感觉这有点玄学？？）。其中这个编码器由四层卷积层组成（3*3卷积核，elus激活函数）和堆积了4层空洞卷积

四、时间注意力生成器

该部分对三中粗略生成的部分进行refine,利用相邻帧的信息对被遮挡部分进行更加精细的补充。

空间生成器生成的图片被设定成当前图片，f 表示当前图片的特征，r表示相邻帧图片特征。文章每次取一小块（3*3）进行当前图片和相邻图片的比较。

(a,b)表示小块（3 * 3）的中心点，上式表示将当前图片区域和相邻帧图片区域进行点积运算，其目的是表示区域之间的相似程度。然后将其用softma进行归一化得到权重向量

将该权重向量，或者称为分数，利用相邻图像帧r（a’,b’）进行加权求和，求得结果就是生成的图片，将上述过程迭代，就求出生成图片的每一像素，得到修复遮区域的图片

了解过注意力机制的应该能很容易理解，注意力机制本质就是加权求和，本文章处理方法就是利用注意力机制，对得到空间生成的图片和其相邻帧的图片进行相似性的比较，得到了一个打分向量，然后利用打分向量和相邻帧进行加权求和，得到时间注意力生成的图片。

五、判别器

本文章采用了全局判别器，和局部判别器来鉴定生成图片遮挡部分的质量好坏。局部判别器用生成的遮挡部分作为输入，输出这个生成部分信息的真实程度，全局判别器将全局生成图片作为输入，来调整整体图片机构，两个判别器协同提高生成图片的质量。
两个判别器网络结构相似，采用6层卷积层和1层全连接，卷积层由3*3核构成，全连接采用sigmoid激活函数
（该文章这这部分介绍太少）

六、目标函数

（1）

（2）
（3）
（4）
（5）
（6）
（7）
X，表示空间生成器的输入；
Xp表示前一帧；
Xn表示后一帧；
X1（上面有个∩，打不出来）表示空间生成器的输出；
X2（上面那个∩打不出来）表示时间生成器的输出；
M 丢失像素的地方（既遮掩部分，全被致0）设为1，其他地方为0，这相当于一个过滤器，可以选着想要的部分和忽视不要的部分；
Gs表示全局分类器；
Gt表示局部分类器；
La1表示整个图片损失，代表全局图片正确性
La2表示局部图片损失，代表局部图片的准确性
qk表示真实分布
R()是 ID guider网络
最后的目标函数合起来就是 L。λ1，λ2分表示各部分的权重
我们先看（1）M可以看做是一个非0，既1的二进制矩阵，起作用就是过滤被遮掩的局部部分。（1-M）*X表示选取没被遮掩的部分作为空间生成器的输入，然后又和M内积，表示选取生成的图片中被掩盖那部分这一部分和原图片没被遮掩的部分线性相加。得到的是原图遮掩部分被生成图片遮掩部分替换掉了，而没被遮掩的部分继续用原图，这个X1是生成器最后输出的杰作
然后来看看（2）Gt为时间注意力生成器，以X1为输入，辅以Xp,Xn,既上下帧作为输入，输出一张比空间更好的图片。然后和M内积，取被遮掩的部分，再和原图未被遮掩的部分相加，得到时间注意力模块生成的图片。
（3）两者与原模块求距离然后相加，得到第一个损失函数Lr

（4）是全局图片损失，在优化Dg全局判断器时，使整个等式取最大，在优化Gs,Gt两个生成网络的时候，使等式取最小（gan有了解的朋友应该很容易看懂）
（5）与（4）同理，就是局部图片的损失，与M内积，取被遮掩的局部部分

（6）Lc是一个交叉熵损失，验证真实分布和时间注意力网络吐出来的分布的一致性程度
（7）L就是最后的整体损失函数，是上述的一个线性累加，

总结

这篇文章就是利用gan生成被遮掩的部分来提高数据集的质量，不同与以往的方法（直接舍弃有遮掩的图片）该方法能得到更好的数据集，因此最后能得到更好的性能。但是在图片生成过程中，方法有些复杂，甚至有些玄玄的感觉？
大家认真阅读，相信会有收获