Silhouette based View embeddings for Gait Recognition under Multiple Views

github: 有
分类: 步态

Link

GitHub - ctrasd/gait-view: The codes for the paper “Silhouette-based View-embeddings for Gait Recognition Under Multiple Views”

核心问题

跨视角

解决方案

3.1. View projection matrix selection

Backbone可以使用GaitSet、GaitPart、GaitGL、MT3D等方法

  1. 序列(Xin∈RT×H×WX_{in}\in \mathbb{R}^{T\times H\times W}XinRT×H×W) 经过Backbone网络(E)得到特征(Xf∈RCf×Hf×WfX_f\in \mathbb{R}^{C_f \times H_f\times W_f}XfRCf×Hf×Wf

  2. 第一分支:HPM 的结果是 fHPM∈Rn×Df_{HPM}\in \mathbb{R}^{n\times D}fHPMRn×D

  3. 第二分支:polling操作 fv∈RDvf_v\in \mathbb{R}^{D_v}fvRDv

    1. projection matrices {W1,W2,…,Wn}(Wi∈RD×D)\lbrace W_1,W_2,\dots,W_n \rbrace(W_i \in \mathbb{R}^{D\times D}){W1,W2,,Wn}(WiRD×D) are selected according to the predicted view, where n is the number of strips cut in the HPP Module [4].

    b. fvf_vfv classification feature

    Xf=E(Xin)andfv=F(PGlobal_Avg(Xf))X_f=E(X_{in}) \quad \text{and} \quad f_v=F(P_{Global\_Avg}(X_f))Xf=E(Xin)andfv=F(PGlobal_Avg(Xf))

特别对于GaitSet,还有一个XgX_gXg可供使用,因此

fv=F(PGlobal_Avg([Xf;Xg]))f_v=F(P_{Global\_Avg}([X_f;X_g]))fv=F(PGlobal_Avg([Xf;Xg]))

F()F()F() 表示全连接层 , PGlobal_AvgP_{Global\_Avg}PGlobal_Avg 表示GAP操作

  1. predicted view probability p^∈RM\hat{p} \in \mathbb{R}^Mp^RM and of the input gait silhouettes and the view of maximum probability y^\hat{y}y^ are calculated as:

    p^=Wviewfv+Bviewandy^=arg⁡max⁡ipi^\hat{p} = W_{view}f_v + B_{view} \quad \text{and} \quad \hat{y}=\mathop{\arg\max}\limits_{i} \hat{p_i}p^=Wviewfv+Bviewandy^=iargmaxpi^

    where M is the number of discrete views, Wview∈RM×DvW_{view} \in \mathbb{R}^{M\times D_v}WviewRM×Dv are weight matrices, BviewB_{view }Bview are the bias terms and y^∈{0,1,2,…,M}\hat{y}\in \lbrace0,1,2,\dots ,M\rbracey^{0,1,2,,M}

    所以p^\hat{p}p^ 相当于是由fvf_vfv 经过一个全连接得出的, p^\hat{p}p^是一个MMM的向量, MMM是view的个数, 所以p^\hat{p}p^表示的是当前的fvf_vfv 特征属于各个视角的概率, 而y^\hat{y}y^ 则是最大的概率所对应的那个视角

  2. For predicted view y^\hat{y}y^ , a corresponding view projection matrix group Zy^∣{Wi∣i=1,2,…,n}Z_{\hat{y}}|\lbrace W_i|i=1,2,\dots,n\rbraceZy^{Wii=1,2,,n} will be trained where Wi∈RD×DW_i\in \mathbb{R}^{D×D}WiRD×D is the projection matrix. And all the view projection matrix can be expressed as S={Zi∣i=1,2,…,M}S = \lbrace Z_i|i=1,2,\dots,M\rbraceS={Zii=1,2,,M}

    对于一个y^\hat{y}y^ 有对应的一个Zy^Z_{\hat{y}}Zy^, 每个Zy^Z_{\hat{y}}Zy^ 内有n个Wi∈RD×DW_i\in\mathbb{R}^{D\times D}WiRD×D 的权重矩阵.

    所有的权重矩阵构成SSS集合, 即S∈RM×n×D×DS\in \mathbb{R}^{M\times n \times D\times D}SRM×n×D×D(M 个视角,)

    Gengeration的是个啥东西他是如何将这个p^\hat{p}p^y^\hat{y}y^ 与对应y视角的下的矩阵联系起来的

3.2. HPP feature projection

  1. 此分支的输入为fHPM∈Rn×Df_{HPM} \in \mathbb{R}^{n\times D}fHPMRn×D , 第iii 个水平条表示为fHPM,ii=1,2,…,nf_{HPM,i}\quad i=1,2,\dots,nfHPM,ii=1,2,,n

  2. 假定 输入轮廓序列的y^\hat{y}y^被认定为θ\thetaθ , 预测特征可以表示为

    ffinal,i=WifHPM,iffinal=[ffinal,1,ffinal,2,…,ffinal,n]f_{final,i} = W_if_{HPM,i} \\ f_{final}=[f_{final,1},f_{final,2},\dots,f_{final,n}]ffinal,i=WifHPM,iffinal=[ffinal,1,ffinal,2,,ffinal,n]

    where i=1,2,…,ni=1,2,\dots ,ni=1,2,,n , Wi∈ZθW_i\in Z_{\theta}WiZθ 最终使用ffinalf_{final}ffinal用作最终的特征衡量

3.3. Joint losses

损失函数

Lce=−∑j=1N∑i=1Myjlog(pji)w.r.t.pji=ep^ji∑i=1Mep^ji\mathcal{L}_{ce}=-\sum^N_{j=1}\sum^M_{i=1}y_jlog(p_{ji}) \quad w.r.t.\quad p_{ji}=\frac{e^{\hat{p}_{ji}}}{\sum^M_{i=1}e^{\hat{p}_{ji}}}Lce=j=1Ni=1Myjlog(pji)w.r.t.pji=i=1Mep^jiep^ji

NNN 所有的步态序列, yjy_jyj是第j个序列的独立真值, (Q,P,N)(Q,P,N)(Q,P,N)表示三元组,其中Q,P来自同一对象,Q,N对应不同对象

Denote KKK triplets of fixed identity as {Ti∣Ti(ffinalQi,ffinalPi,ffinalNi,i=1,2,…,K)\lbrace T_i|T_i(f^{Q_i}_{final},f^{P_i}_{final},f^{N_i}_{final},i=1,2,\dots,K){TiTi(ffinalQi,ffinalPi,ffinalNi,i=1,2,,K), then combining the Equation (4), the triplet loss can be expressed as:

Ltrip=1K∑i=1K∑j=1nmax⁡(m−dij−+dij+,0)\mathcal{L}_{trip}=\frac{1}{K}\sum^K_{i=1}\sum^n_{j=1}\max (m-d_{ij}^-+d_{ij}^+,0)Ltrip=K1i=1Kj=1nmax(mdij+dij+,0)

where dij−=∣∣ffinal,jQi−ffinal,jNi∣∣22,dij+=∣∣ffinal,jQi−ffinal,jPi∣∣22d_{ij}^-=||f^{Q_i}_{final,j}-f^{N_i}_{final,j}||^2_2, \ d_{ij}^+=||f^{Q_i}_{final,j}-f^{P_i}_{final,j}||^2_2dij=ffinal,jQiffinal,jNi22,dij+=ffinal,jQiffinal,jPi22

L=λCELCE+λtripLtrip\mathcal{L}=\lambda_{CE}\mathcal{L}_{CE}+\lambda_{trip}\mathcal{L}_{trip}L=λCELCE+λtripLtrip

其中λCE\lambda_{CE}λCEλtrip\lambda_{trip}λtrip是超参数

实验结果

我可以使用的想法



图2。条形 0 和条带 20 的视图投影矩阵示例。Diff 列显示了同一条带中不同视图的两个矩阵之间的绝对差异。

In order to explain the effectiveness of our framework, we compare the projection matrices of different views in ViGaitGL (trained on OU-MVLP). As illustrated in Figure 2, their difference has obvious vertical texture, which indicates that the projection matrices of different views has view specificity for feature mapping.

为了解释我们框架的有效性,我们比较了 ViGaitGL 中不同观点的投影矩阵(在 OU-MVLP 上接受过培训)。如图 2 所示,它们的差异具有明显的垂直纹理,这表明不同视图的投影矩阵具有特征映射的视图特异性。

【文献阅读】Silhouette based View embeddings for Gait Recognit相关推荐

  1. 文献阅读笔记 # Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

    <Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks> 用于快速搭建NLP任务的demo的开源项目sbert的原始 ...

  2. 【步态识别】LagrangeGait基于拉格朗日《Lagrange Motion Analysis and View Embeddings for Improved Gait Recognition》

    目录 1. 论文&代码源 2. 论文亮点 3. 模型结构 3.1 建模思路 3.2 建立拉格朗日方程 3.3 网络结构 3.3.1 运动分支(Motion Branch) 3.3.2 视图嵌入 ...

  3. 文献阅读:SimCSE:Simple Contrastive Learning of Sentence Embeddings

    文献阅读:SimCSE:Simple Contrastive Learning of Sentence Embeddings 1. 文献内容简介 2. 主要方法介绍 3. 主要实验介绍 1. STS ...

  4. 谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolu

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  5. 经典文献阅读之--Swin Transformer

    0. 简介 Transfomer最近几年已经霸榜了各个领域,之前我们在<经典文献阅读之–Deformable DETR>这篇博客中对DETR这个系列进行了梳理,但是想着既然写了图像处理领域 ...

  6. 最大熵模型(Maximum Entropy Model)文献阅读指南

    最大熵模型(Maximum Entropy Model)是一种机器学习方法,在自然语言处理的许多领域(如词性标注.中文分词.句子边界识别.浅层句法分析及文本分类等)都有比较好的应用效果.张乐博士的最大 ...

  7. 条件随机场(Conditional random fields,CRFs)文献阅读指南

    与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注.中文分词.命名实体识别等)都有比较好的应用效果.条 ...

  8. 文献阅读-Pan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor

    Pan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor Cont ...

  9. 文献阅读总结:网络表示学习/图学习

    本文是对网络表示学习/图学习(Network Representation Learning / Graph Learning)领域已读文献的归纳总结,长期更新. 朋友们,我们在github创建了一个 ...

最新文章

  1. 正确理解Spring AOP中的Around advice
  2. 腾讯---生成格雷码
  3. MFC随机博弈黑白棋
  4. 远程登陆时,页面登陆不了,提示“user profile serveice服务未能登陆”
  5. 最近发现的一个c# winform的一个很好用很强大的excel控件 reogrid控件
  6. Linux驱动开发(十三)---USB驱动HID开发学习(鼠标)
  7. tplink 无线打印服务器,tplink打印服务器设置
  8. Chrome浏览器快捷键大全
  9. 【神经网络】一文带你轻松解析神经网络(附实例恶搞女友)
  10. python教程55--D-Tale使用介绍
  11. 2021110701-java前后台传递时间对象相差8个小时的时区问题
  12. pdf实现页眉或者页脚代码
  13. 安卓编程常见错误记录
  14. 心脏流血(Heartbleed )漏洞详解
  15. mysql嵌套查询效率低,连接查询代替嵌套查询提高select效率
  16. java基础/java调用shell命令和脚本
  17. kakaotalk语音验证码,已读怎么破?KakaoTalk超实用的隐藏功能,真的太好用了!
  18. 业精于勤,荒于嬉;行成于思,毁于随
  19. 十一、Word参考文献的跳转引用
  20. Linux中级实战专题篇一:nginx服务(特性优势,yum安装,编译安装详解,虚拟主机技术详解)

热门文章

  1. Rust学习日记番外篇——代码写诗
  2. moto Z2 Force ATT 版手机刷安卓8.0系统教程
  3. 安装pandas及相关包的经验(对同款问题有用)
  4. 真正的帅哥没人说帅_男生长得帅的标准五官 教你判断谁才是真正的帅哥
  5. 09年电子商务格局的个人臆断
  6. O2OA框架使用笔记
  7. 计算机体系结构的一知半解
  8. ubuntu14.04的自带的拼音输入法问题
  9. 信息无障碍专业术语---障碍
  10. 教程|GIS制图教程02