论文笔记:Deeply-Learned Part-Aligned Representations for Person Re-Identification


这是ICCV2017的一篇person Re-id的论文。论文提出了一种新的对其方法,以便在摄像机移动的场景下,更准确地匹配不同姿势、位置的person re-identification。不同于以往常用的空间分割方法,本文采用人类身体部分分割(human body part partition)。



首先用一个FCN提取整张图片的特征图,对于这个特征图,使用K个分支网络提取区域特征,最后将这K个分支拼接起来就是最终的hunman representation。

其中,Feature map是一个3维的特征图,用t(x,y,c)表示第c个(x,y)位置的响应;分支网络学习到的结果是一个2维的mask——MkM_kMk​(类似于像素级别的注意力权重),mk(x,y)表示(x,y)位置落在第k个区域的程度。将t和m点乘,并通过一个平均池化,就可以得到一个分支(区域)的特征向量。
tk(x,y,c)=t(x,y,c)×mk(x,y)t_{k}(x,\ y,\ c)=t(x,\ y,\ c)\times m_{k}(x,\ y)tk​(x, y, c)=t(x, y, c)×mk​(x, y)
fk(c)=Averagex,y[tk(x,y,c)]{f}_{k}(c)=\mathrm{Average}_{x,y}[t_{k}(x,\ y,\ c)]fk​(c)=Averagex,y​[tk​(x, y, c)]


