行人重识别论文阅读1-Watching You: Global-guided Reciprocal Learning for Video-based Person Re-identification
论文链接:GRL框架论文
论文总结
本文提出一个基于视频的全局引导的交互学习框架(GRL Global-guided Reciprocal Learning)。
- 提出全局引导相关估计生成局部特征和全局特征的特征相关图,然后将区分特征分界为高相关特征和低相关特征。
- 提出全局特征估计模块生成解纠缠视频表示下的引导图。
- 提出一种新的TRL(时间交互学习)模块,可以有效监控信息和视频中的细粒度信息,用于依次增强高相关性语义信息和积累低相关性亚关键线索。
模型特点:
可以增强来自高相关区域的显著信息,还可以积累来自低相关特征的细粒度线索。
概述:本文将全局特征与帧中像素级局部特征相关联,以生成两个相关图,这两个相关图用于将一般特征分解为高相关性和低相关性特征。
高相关性特征意味着在时间上频繁出现在空间上显著。需要增强策略显著挖掘时空信息。
低相关性意味着特征不明显不连续但是有意义。需进一步揭开时空特征挖掘细粒度线索。引入临时记忆策略逐帧对特征进行分析。
算法过程:
视频–(RRS严格随机采样)–> 训练视频帧 --(主干网络ResNet50)–> 提取帧级特征 --TAP&GAP(时间平均池化,全局平均池化)–> 视频级表示 --(GCE全局指导的相关性估计)–>相关性图 -->高级相关性特征/低级相关性特征–(TRL时间交互学习)–>增强和积累前向和后向的解纠缠特征–(OIM在线实例损失验证损失)–>优化后的网络
具体部件分析:
GFD(Global-guided Feature Disentanglement):
GCE模块解开两个互补的空间特征。
一个标注每一帧的注意力信息,另一个保留细粒度的亚临界线索
具体部件分析:
在视频sample出T帧来,ν={I1,I2,...,IT}\nu=\{I_1,I_2,...,I_T\}ν={I1,I2,...,IT}作为输入,在ResNet50提取出帧级特征,χ={Xt∣t=1,2,...,T}\chi=\{X_t|t=1,2,...,T\}χ={Xt∣t=1,2,...,T},用TAP和GAP获取视频级别的表示:
Fg=∑t,h,w=0T,H,WXt,h,wH×W×TF_g = \frac {\sum^{T,H,W}_{t,h,w=0}X_{t,h,w}} {H \times W \times T} Fg=H×W×T∑t,h,w=0T,H,WXt,h,w
GCE将帧特征Xt,FgX_t,F^gXt,Fg作为输入,FgF^gFg经过线性投影并扩展成与XtX_tXt同样size的F~g\tilde F^gF~g与XtX_tXt连接起来,整个全局和局部特征并共同推断相关度。
全局引导下与XtX_tXt有关的特征映射Rt∈R1×H×WR_t\in R^{1\times H \times W}Rt∈R1×H×W可计算为:Rt=σ(Wr([F~g,Xt]))R_t = \sigma(W_r([\tilde F^g,X_t]))Rt=σ(Wr([F~g,Xt])),WrW_rWr是两个1×11 \times 11×1的卷积层的可学习权值,它是通过BN层和ReLU激活函数插入的。
低相关图是通过反转获得相关图得到的。将相关图与原始帧级特征相乘激活不同的区域最后在全局表示指导下将帧级特征分解为:
高相关特征:Xth=Xt⊙RtX^h_t=X_t \odot R_tXth=Xt⊙Rt
低相关特征:Xtl=Xt⊙(1−Rt)X^l_t = X_t \odot (1-R_t)Xtl=Xt⊙(1−Rt)
TRL机制
用来探索高相关性和低相关性之间的关系,引入EMUs(Enhancement and Memory Units)增强高相关性GCE在全局视图中突出显示信息区域。最后通过前向和后向方向提供的特征被集成为输出结果。
EMU输入: 高相关性特征,低相关性特征,来自先前时间步长的积累Xth,Xtl,Mt−1X^h_t,X^l_t,M_{t-1}Xth,Xtl,Mt−1,
Dt=(f2(Mt−1)−f1(Xth))2D_t = (f_2(M_{t-1})-f_1(X^h_t))^2 Dt=(f2(Mt−1)−f1(Xth))2
此处的减法模拟的事语义上的差异,f1,f2f_1,f_2f1,f2两个带有ReLU激活函数独立的1×11 \times 11×1卷积操作。
差异映射有GAP汇总以生成每个通道的总体响应dt∈RCd_t \in R^Cdt∈RC,引入特征选择的通道注意力机制,at=σ(Wc(dt))a_t = \sigma(W_c(d_t))at=σ(Wc(dt)),WcW_cWc是生成信道权重的参数。
X′th=(1+at)⊙Xth{X'}^h_t = (1 + a_t) \odot X^h_t X′th=(1+at)⊙Xth
设计内存块积累细粒度特征,用于充分低相关性特征。
将t时刻的低相关性特征添加到t-1步的累积特征中,
Mt=Res(Mt−1+Xtl)M_t = Res(M_{t-1}+X^l_t)Mt=Res(Mt−1+Xtl),开始时,M0M_0M0被初始化为{Xtl}t=1T\{X^l_t\}^T_{t=1}{Xtl}t=1T的均值。
双向信息集成:
前进方向定义为视频帧的排列顺序。
前后向的增强特征,Fth,1,Fth,2F^{h,1}_t,F^{h,2}_tFth,1,Fth,2,累计特征MT1,MT2M^1_T,M^2_TMT1,MT2在GAP后被连接起来,然后使用全连接层集成更鲁棒的表示:
Fth=Wh([Fth,1,Fth,2])FTl=Wl([MT1,MT2])F^h_t = W_h([F^{h,1}_t,F^{h,2}_t]) \\ F^l_T = W_l([M^1_T,M^2_T]) Fth=Wh([Fth,1,Fth,2])FTl=Wl([MT1,MT2])
增强高相关区域的显著特征,并自适应的从低相关特征区域空挖掘亚关键细节。
训练方式:
使用交叉熵损失和OIM,对输入的向量对{pj,gk}\{p_j,g_k\}{pj,gk}有
ℓveri=−1J∑n=1Jyilog([pj,gk])+(1−yi)log(1−[pj,gk])\ell_{veri} = - \frac 1 J \sum^J_{n=1}y_i\log([p_j,g_k])+(1-y_i)\log(1-[p_j,g_k]) ℓveri=−J1n=1∑Jyilog([pj,gk])+(1−yi)log(1−[pj,gk])
JJJ是采样序列对的总和,yiy_iyi表示[pj,gk][p_j,g_k][pj,gk]的真实值标签,[pj,gk]∈(0,1)[p_j,g_k]\in (0,1)[pj,gk]∈(0,1),若属于同一个人,则yi=1y_i=1yi=1否则为0.
OIM损失函数使用查找表来存储训练集中所有标识特征,而不是传统的具有多类softmax层的交叉熵。可以将OIM分为帧级别的和视频级别的。
帧级别的OIM:
ℓf=−1N×T∑n=1N∑t=1T∑i=1Iyt,nilogeWi,Ft,nh∑j=1Iewj,Ft,nh\ell_f = - \frac 1 {N\times T}\sum^N_{n=1}\sum^T_{t=1}\sum^I_{i=1}y^i_{t,n}\log \frac {e^{W_i,F^h_{t,n}}} {\sum^I_{j=1}e^{w_j,F^h_{t,n}}} ℓf=−N×T1n=1∑Nt=1∑Ti=1∑Iyt,nilog∑j=1Iewj,Ft,nheWi,Ft,nh
Ft,nhF^h_{t,n}Ft,nh第n个视频第t帧的增强高相关特征向量,若第n个视频频第t帧图像属于第i个人,则yt,ni=1y^i_{t,n}=1yt,ni=1,否则为0.
WiW_iWi是与第i个的特征系数是相关联的。
在最后一个时间步长有存储块累积的特征FtlF^l_tFtl由视频级别的OIM损失来监督,其试图从低相关区域逐步收集所有亚关键细节。
ℓv=−1N∑n=1N∑i=1IynilogeWiFtl∑j=1IeWjFTlℓ=λ1ℓf+λ2ℓv+λ3ℓveri\ell_v = - \frac 1 N \sum^N_{n=1}\sum^I_{i=1} y^i_n\log \frac {e^{W_iF^l_t}} {\sum^I_{j=1}e^{W_jF^l_T}}\\ \ell = \lambda_1 \ell_f + \lambda_2 \ell_v + \lambda_3 \ell_{veri} ℓv=−N1n=1∑Ni=1∑Iynilog∑j=1IeWjFTleWiFtlℓ=λ1ℓf+λ2ℓv+λ3ℓveri
实验设置:
硬件和数据集
作者在实验中所使用的数据集:PRID-2011,MARS,iLIDS-VID。
iLIDS-VID:小数据集,由300个不同身份的600个视频序列组成,两个摄像头来采集图像。每个视频序列包含23-192帧。
PRID-2011:两个非重叠摄像机的200个身份的400个图像序列组成。序列长度5-675帧不等,但是只使用超过21帧的序列对。
MARS:大规模数据集,有18000视频序列1261个身份组成。所有视频序列由至少两个摄像机捕获。
评估标准:CMS累计平均特征和mAP平均精度。因为iLIDS-VID图库集中只包含一个正确的匹配,所以只有累积的重识别精度。
设备:i4790 CPU 和 两个 NVIDIA GTX 2080ti GPU(12G内存)
BatchSize = 16, T=8,视频图像大小256 * 128 输入图像经过随机裁剪水平翻转和随机擦除进行增强。
实验结果
一个采样序列通常会有另一个相同标识不同角度的视频序列的序列来填充。删除最后的空间下采样来提高特征分辨率。训练时,使用多级OIM损失和二元交叉熵损失对网络进行50个epoch的训练。
实验结果如上图所示。
消融实验:
- 看模型中如果去掉一部分对模型有什么影响。FgF^gFg表示不带解纠缠元素的全局特征向量,FlF^lFl代表最终特征向量,具有未纠缠的低相关特征,并有视频级OIM损失来监督。FhF^hFh表示最终的特征向量, 具有分离的高相关特征,由帧级OIM损失进行监督。+GCE意味着我们添加了全局引导的相关性估计来引导空间特征的解纠缠。解纠缠之后性能有了显著的提高。因此全局视图下引导特征解纠缠是有益的。+TRL意味着双向的时间交互学习用于增强和积累时间信息。**低相关性和高相关性特征的组合可以进一步提高性能。**上述结果清楚地证明了我们所提出的GCE和TRL模块的有效性。
- EMU模块的作用:GRL是本文的方法,第二行移除了EMUs。其中高相关特征XthX^h_tXth在没有信道关注的情况下受到帧级OIM损失的监督。mAP和等级1的准确率在MARS上分别下降了1.4%和0.9%。增强块和记忆块都有利于学习更多有区别的空间特征。
- 不同帧的长度对模型的影响:用不同的序列长度训练和测试我们的双向全局引导的交互学习。增加序列长度获得更好的性能,8的长度获得最佳性能。一个可能的原因是,**随着序列长度的增加,我们的时间往复学习可以捕捉到更细粒度的线索。**太长的序列对于训练时间交互学习模块是不利的。
- 时间方向的影响,验证GRL时间方向的有效性。双向交互学习表现出更高的性能,这得益于前向和后向时间学习的结合。实验结果表明,通过往复学习得到的聚集特征对识别更为鲁棒。
- 多尺度的OIM损失影响:F_OIM用于帧级损失,V-OIM用于视频的损失。
可视化分析:
高相关图中学习的特征相比,前向或后向过程中的低相关图的特征可以用红色边界框捕获不连贯和有意义的线索。在同一个时间步长内,前向和后向过程的特征之间存在一定的差异。因此,收集更多有区别的信息是有用的。视觉映射能进一步验证该方法能够在时间上突出最显著和对齐的信息,在空间上捕捉次关键线索。
行人重识别论文阅读1-Watching You: Global-guided Reciprocal Learning for Video-based Person Re-identification相关推荐
- 【行人重识别论文阅读笔记——VPM】
[阅读心得] 行人重识别经典论文--VPM 写在前面 1. Abstract 2. Introduction 3. VPM 3.1 Architecture 3.2 Inference 3.3 Sel ...
- 行人重识别论文阅读2-视频中基于时空相关性和拓扑学习的行人重识别(CTL)
视频中基于时空相关性和拓扑学习的行人重识别 Spatial-Temporal Correlation and Topology Learning for Person Re-Identificatio ...
- [行人重识别论文阅读]无监督学习发展与小结
Unsupervised domain adaptation (UDA) for person re-ID. UDA methods have attracted much attention bec ...
- [行人重识别论文阅读]Fine-Grained Shape-Appearance Mutual Learning for Cloth-Changing Person Re-Identification
论文地址 论文代码:暂无 文章思想 在上篇文章中我们引入了sketch(行人轮廓图)的思想去解决换衣问题,但是我们会在实践中发现sketch的优劣性严重影响了最后实验结果的好坏.此篇论文的核心思想就提 ...
- [行人重识别论文阅读]Invariance Matters: Exemplar Memory for Domain AdaptivePerson Re-identification
论文链接:https://arxiv.org/abs/1904.01990 代码:https://github.com/zhunzhong07/ECN Abstract 1.传统的无监督方法只关注于缩 ...
- 行人重识别论文阅读(2021.7.3-7.11)
一 各种方法性能比较 Method Key Market r1 Market mAP Duke r1 Duke mAP (1)BOT global+BNNeck 94.5 84.5 86.4 76. ...
- [行人重识别论文阅读]AlignedReID: Surpassing Human-Level Performance in Person Re-Identification
论文地址: 代码地址: Abstract 摘要部分明确提出了本文的重要思想,利用局部特征学习影响全局特征学习,并指出局部特征的学习方法是通过计算局部特征间的最短距离进而aligned局部特征. 原文: ...
- 行人重识别 代码阅读(来自郑哲东 简单行人重识别代码到88%准确率)
来自郑哲东 简单行人重识别代码到88%准确率 阅读代码 prepare.py 数据结构 部分代码 一些函数 model.py ClassBlock ResNet50 train.py 一些参数 使用f ...
- 行人重识别论文--A Bottom-up Clustering Approach to Unsupervised Person Re-identification
A Bottom-up Clustering Approach to Unsupervised Person Re-identification 目录 A Bottom-up Clustering A ...
- 行人重识别论文(五)Beyond Part Models: Person Retrieval with Refined Part Pooling
论文地址 代码实现:Pytorch 摘要 作者主要的目标是学习描述局部信息特征.并且做出了以下两点贡献: 1. 提出了 Part-based ConvolutionalBaseline (PCB),给 ...
最新文章
- Go语言中如何进行测试
- 虚机大比拼之HYPER-V
- Quick Audience组织和工作空间功能解读
- Beyond Compare 4
- 郭明錤:华为可能在10月开始出货鸿蒙手机
- 读《微波工程(第三版)》笔记 (9:传输线模型)
- 梯形面积php,梯形的面积公式是什么
- 如何制作MacOS安装U盘
- java 蜂鸣器_蜂鸣器驱动
- CentOS7下collectd简单安装使用
- 哆啦A梦纯HTML代码
- 隧道安全管理八大系统
- 外汇天眼:央行人民币降息意味着什么?有什么影响?
- Linux基础----文件管理、用户管理、用户权限
- 手码万字-带你全面了解存储基础知识
- 1253寻找肇事司机
- PL/0语言 词法分析
- c++商店信息管理系统的设计与实现
- JMP官方网络课程 | DOE结果的可视化呈现
- linux虚拟IP/yum Invalid version flag: if 错误//configure:错误:HTTP重写模块需要PCRE库。
热门文章
- 怎么调大计算机浏览器内字体,电脑网页字体大小怎么调整(电脑里点击哪个是变换字体的)...
- C语言之for循环应用之断案篇----找凶手
- 所谓的1261考核法算不算是末尾淘汰?
- freebsd上运行hpool
- beanstalkd协议解读(中文翻译加个人理解)
- java 对象转xml 工具类_工具类 Java对象和XML之间的相互转换-搜云库
- 1005打印任务取消不了 hp_HP打印机打印时任务打印不了时无法取消
- CPU HQ 什么意思
- 【Flutter 问题系列第 7 篇】TextField 去掉下划线
- js文本框设置必填项_JS校验表单必填项