行人重识别论文阅读7-基于图卷积的行人骨架识别
0. 怎么看论文
怎么看论文:带着目的,你是想要解决什么问题,这篇论文的摘要能给你带来什么收获。
摘要、结论:是否和你的研究方向高度相关,或者如果你应用这个模型能解决什么问题。
引言部分:作者为什么开展这项研究。这篇文章是否值得精读。
深度挖掘结论和讨论部分:如何开展实验获得初始数据、数据分析解读数据内涵等。
做笔记(Endnote、Mendeley):列出对自己有价值核心信息,方便后面定位相关文献。
或者表格列出文献:
序号、文献名称、文献类型、发表年份、关键部分、研究方法、存在问题、产生原因、解决方法、创新点、下一步工作
我总结的论文各部分对于我的作用:
摘要:重要。这个文章是干什么的,解决了什么问题,用了什么方法。
引言:现有的问题和不足,自己提出什么方法。
研究现状:介绍研究背景和技术。
提出的方法:对模型进行分析。
实验:模型的结果。
消融实验:告诉你模型各部分或参数的作用或者设置什么值最合理。
结论:阐述模型的牛逼之处,有的文章会总结出不足之处。
基于骨架动作识别的时空图卷积网络
1. 解决的问题
传统骨架建模方法依赖于手工制作的部分或遍历规则,导致表达能力有限和泛化困难。
本文提出时空图卷积网络(ST-GCN),通过从数据中自动学习空间和时间模式来超越以前方法的限制,并且能够自动捕捉关节空间结构中嵌入的模式以及它们的时间动态不仅有更强的表达能力,而且有更强的概括能力。
2. 小知识点
动态骨架模态可以自然地以2D或三维坐标的形式由人体关节位置的时间序列来表示。然后可以通过分析其运动模式来识别人类动作。
大多数方法依赖手工制作的零件或规则来分析空间模式。本文涉及一个用于动作识别的骨架序列的通用表示。
在图上的GCN原理遵循以下几点:1)光谱透视,其中以光谱分析的形式考虑图形卷积的局部性。2)空间透视,其中卷积滤波器直接应用图节点及其邻域。
该模型将图形神经网络应用于基于骨架的动作识别任务的人。它可以通过利用图卷积的局部性和时间动态性来隐式的学习部分信息。通过消除手动零件分配的需要,模型更容易涉及并且能够学习更好的动作表示。
3. 模型概述
模型建立在一系列骨架图的基础上,每个节点对应与人体的一个关节。有两种类型的边缘,即符合关节自然连通性的空间边缘和跨连续时间步长连接相同关节的时间边缘。在其上构建多层空间时间图卷积,这允许沿着空间和时间维度整合信息。
ST-GCN的层次性质消除了手工制作零件分配或遍历规则的需要。这不仅会带来更强的表达能力,从而获得更高的性能,而且有很好的泛化性。
4. 总结
这篇文章带给我的收获:
- 多模态相关:骨架信息可作为多模态相关的部分特征,用于RGB和光流的补充信息。
- ST-GCN:能够自动捕捉关节空间结构中嵌入的模式以及它们的时间动态,不仅有更强的表达能力,而且有更强的概括能力。
- GCN有用到一些拉普拉斯矩阵的东西,防止出现A矩阵的对角线出现0元素。
- 局部卷积使用稀疏联合图作为ST-GCN使用具有非共享权重的卷积滤波器。
- 多个子集划分比单一标记效果好得多,在多子集划分策略中空间配置划分获得了更好的性能。
5. 实验结果
5.1 数据集和评价指标
Kinetics:人体动作数据集。300000个视频片段,400多人类行为类别,大概有10s的持续动作。数据集提供包含240000个剪辑的训练集和20000个剪辑的验证集。
NTU-GRB+D:最大的具有3D关节标注的用于人体动作识别的任务数据集。有60个动作类中的56000个动作片段。
作者推荐了两个基准:X-sub:440320训练,16560验证。训练片段来自一个演员子集,模型根据来自其余演员的片段进行评估。X-View:37920训练,18960验证,训练集来自摄像头2和3,测试集来自摄像头1.
评价指标: top-1 和 top-5.
5.2 消融实验
5.2.1 时空图的必要性
具有良好划分策略的时空卷积模型始终优于baseline model。局部卷积使用稀疏联合图作为ST-GCN使用具有非共享权重的卷积滤波器。
5.2.2 划分策略
结论:多个子集划分比单一标记效果好得多,在多子集划分策略中空间配置划分获得了更好的性能。
5.2.3 与现有技术比较
表2所比较的方法有手工制作特征的特征编码方法。NTU-RGB+D数据集是在约束环境中捕获的,这使得需要稳定骨架序列的方法能够很好地工作。
结论,所提出的ST-GCN可以在两个数据集上很好地工作,证明了所提出的时空图卷积运算和所得到的ST-GCN模型的有效性。
基于骨架的方法准确性不如基于视频帧的模型。因为Kinetics中有很多动作类需要识别演员与之互动的物体和场景。
为了验证这一点,表4是选择与身体运动密切相关的30个类别的子集,Kinetics-Motion,结果如下表示:
此外,表5探索two-stream style action recognition.基于骨架的RGB和光流模型提供补充信息。使用ST-GCN时,骨架可以提供补充信息。
6. 模型详述
ST-GCN模型:将CNN引入到基于骨架的动作识别中。在图像目标识别的任务中,分层表示和局部性由卷积神经网络的固有特性实现,而不是手动分配目标部分。
6.1 模型概览
基于骨架的数据可以从运动捕捉设备或视频中的姿态估计算法获得。数据是一系列帧,每一帧包含一组关节坐标。给定2D或3D的身体关节顺序。本文构建时空图,关节是图的节点,人体结构和时间的自然联系是图的边。模型的输入是图节点的联合坐标向量。它被认为是基于图像的CNN的模拟,输入由在2D图像网格上的像素强度向量形成。将对输入数据使用多层时空图卷积运算,在图上生成更高级别的特征图,然后使用softmax分类器到相应的动作类别,整个模型通过反向传播以端到端的方式进行训练。
6.2 骨架图构造
骨架图通常由帧中人体关节的2D或3D坐标来表示。模型使用时空图形成骨架序列的层次表示,在N个关节和T帧的骨架序列上构造了一个无向时空图,同时具有intra-body和inter-frame连接。
V={vti∣t=1,...,T,i=1,...,N}V = \{v_{ti}|t=1,...,T,i=1,...,N\}V={vti∣t=1,...,T,i=1,...,N}表示骨架序列的所有关节
ST-GCN的输入,节点F(vti)F(v_{ti})F(vti)的特征向量由t帧上第i个关节的坐标向量以及估计的置信度组成。
分两步构建骨架图:根据人体结构的连通性,一个框架内的关节与边缘连接。然后每个关节将连接到连续帧中的同一关节。所以该设置中的连接是自然定义的,无需手动分配零件。这也使得网络架构能够在具有不同数量的关节或关节连接的数据集上工作。
Formally,边集E由两个子集组成:每一帧的骨架内连接:ES={vtivtj∣(i,j)∈H}E_S = \{v_{ti}v_{tj}|(i,j)\in H\}ES={vtivtj∣(i,j)∈H},H是自然连接的人体关节的集合。还有一个包含帧间边缘,它连接连续帧中与EF={vtiv(t+1)i}E_F=\{v_{ti}v_{(t+1)i}\}EF={vtiv(t+1)i}。因此,一个特定关节的所有边缘I将表示其随时间的轨迹。
两个子集:骨架内的连接和帧间骨架的运动轨迹
6.3 时空图卷积网络ST-GCN
单帧内的模型图:在τ\tauτ时刻的N个关键节点VtV_tVt,骨架边ES(τ)={vtivtj∣t=τ,(i,j)∈H}E_S(\tau)=\{v_{ti}v_{tj}|t=\tau,(i,j)\in H\}ES(τ)={vtivtj∣t=τ,(i,j)∈H}。给定一个K×KK \times KK×K的卷积核,通道为c的输入特征图finf_{in}fin,在位置x中的单通道输入值为:
fout(x)=∑h=1K∑w=1Kfin(p(x,h,w))⋅w(h,w)f_{out}(\mathbf x) = \sum^K_{h=1} \sum^K_{w=1}f_{in}(\mathbf p(\mathbf x,h,w))\cdot\mathbf w(h,w) fout(x)=h=1∑Kw=1∑Kfin(p(x,h,w))⋅w(h,w)
采样函数:p:Z2×Z2→Z2\mathbf p:Z^2 \times Z^2 \rarr Z^2p:Z2×Z2→Z2枚举位置x的邻域,在图像卷积的情况下,也可表示为p(x,h,w)=x+p′(h,w)\mathbf p(\mathbf x,h,w)=\mathbf x + \mathbf p'(h,w)p(x,h,w)=x+p′(h,w)。
权重函数:w:2→Rc\mathbf w:^2 \rarr \mathbb R^cw:2→Rc在c维空间提供权重向量,用于c为采样输入特征向量计算内积。波器权重在输入图像上的任何地方都是共享的。
图卷积运算时将上述公式扩展到输入要素图位于空间图VtV_tVt上的情况。特征图fint:Vt→Rcf^t_{in}:V_t \rarr R^cfint:Vt→Rc是图的每个节点上的向量。下一步是重新定义采样函数p和权重函数w。
采样函数:在节点vtiv_{ti}vti的邻域集合B(vti)={vtj∣d(vtj,vti)≤D},(D=1)B(v_{ti})=\{v_{tj}|d(v_{tj},v_{ti})\leq D\},(D=1)B(vti)={vtj∣d(vtj,vti)≤D},(D=1)。d(vtj,vti)d(v_{tj},v_{ti})d(vtj,vti)表示从vtjv_{tj}vtj到vtiv_{ti}vti的最小长度,则采样函数B(vti)→VB(v_{ti}) \rarr VB(vti)→V可以表示为:
p(vti,vtj)=vtj(2)\mathbf p(v_{ti},v_{tj}) = v_{tj} ~~~(2) p(vti,vtj)=vtj (2)
权重函数:权重函数通过根据空间顺序索引(c,K,K)(c,K,K)(c,K,K)维度的张量来实现。所以没有给每一个neighbour一个唯一的标签,而是通过将一个联合节点的节点vtiv_{ti}vti属性划分为固定数量的k个子集B(vti)B(v_{ti})B(vti)来简化这个过程,其中每个子集都有一个数字标签。所以可以将邻域中的节点映射到其子集标签lti:B(vti)→{0,...,K−1}l_{ti}:B(v_{ti})\rarr\{0,...,K-1\}lti:B(vti)→{0,...,K−1}。权函数w(vti,vtj):B(vti)→Rc\mathbf w(v_{ti},v_{tj}):B(v_{ti})\rarr R^cw(vti,vtj):B(vti)→Rc可以通过索引(c,K)维的张量来实现:
w(vti,vtj)=w′(lti(vtj))(3)\mathbf w(v_{ti},v_{tj}) = \mathbf w'(l_{ti}(v_{tj})) ~~~ (3) w(vti,vtj)=w′(lti(vtj)) (3)
空间图卷积:
fout(vti)=∑vtj∈B(vti)1Zti(vtj)fin(p(vti,vtj))⋅w(vti,vtj)(4)f_{out}(v_{ti}) = \sum_{v_{tj}\in B(v_{ti})} \frac 1 {Z_{ti}(v_{tj})}f_{in}(\mathbf p(v_{ti},v_{tj}))\cdot \mathbf w(v_{ti},v_{tj}) ~~~(4) fout(vti)=vtj∈B(vti)∑Zti(vtj)1fin(p(vti,vtj))⋅w(vti,vtj) (4)
Zti(vtj)=∣{vtk∣lti(vtk)=lti(vtj)}∣Z_{ti}(v_{tj})=| \{v_{tk}|l_{ti}(v_{tk})=l_{ti}(v_{tj})\}|Zti(vtj)=∣{vtk∣lti(vtk)=lti(vtj)}∣等于相应子集的基数。是为了平衡不同子集对输出的贡献。
则经过变换
fout(vti)=∑vtj∈B(vti)1Zti(vtj)fin(vtj)⋅w(vti,vtj)(5)f_{out}(v_{ti}) = \sum_{v_{tj}\in B(v_{ti})} \frac 1 {Z_{ti}(v_{tj})}f_{in}(v_{tj})\cdot \mathbf w(v_{ti},v_{tj}) ~~~(5) fout(vti)=vtj∈B(vti)∑Zti(vtj)1fin(vtj)⋅w(vti,vtj) (5)
若将一个图像当做一个规则的2D网格,此公式可类似于标准的2D卷积。
时空建模:
可以定义一个简单的策略将空间图CNN扩展到空间时间域。即扩展邻域的概念,将时间上相连的关节包括在内:
B(Vti)={vqj∣d(vtj,vti)≤K,∣q−t∣≤⌊Γ/2⌋}B(V_{ti}) = \{v_{qj}|d(v_{tj},v_{ti}) \leq K,|q-t|\leq \lfloor \Gamma/2\rfloor \} B(Vti)={vqj∣d(vtj,vti)≤K,∣q−t∣≤⌊Γ/2⌋}
Γ\GammaΓ主要控制包含在邻域图中的时间范围,也成为时间内核大小。在时空图中的卷积操作,需要采样函数和权函数。时间轴是有序的,直接修改标签图的lSTl_{ST}lST以获得一个以vtiv_{ti}vti根的时空邻域:
lST(vqj)=lti(vtj)+(q−t+⌊Γ/2⌋)×Kl_{ST}(v_{qj}) =l_{ti}(v_{tj}) + (q-t+\lfloor\Gamma/2\rfloor)\times K lST(vqj)=lti(vtj)+(q−t+⌊Γ/2⌋)×K
第一项是vtiv_{ti}vti中单帧情况的标签映射。
6.4 划分策略
区分策略用来实现标签映射。
uni-labeling:每个上的特征向量将具有相同权重向量的内积。但是在单帧情况下相当于计算所有相邻节点的权重向量和平均特征向量之间的内积。有可能会丢失局部信息。K=1,lti(vti)=0,∀i,j∈VK=1,l_{ti}(v_{ti})=0,\forall i,j \in VK=1,lti(vti)=0,∀i,j∈V。
Distance partitioning:根据节点到根节点的距离划分邻域集。D=1,所以当d=0时为根节点,其他为d=1的子集中,因此有两个不同的权重向量能模拟局部微分属性,例如关节之间的相对平移。K=2,lti(vtj)=d(vtj,vti)K=2,l_{ti}(v_{tj})=d(v_{tj},v_{ti})K=2,lti(vtj)=d(vtj,vti)。
Spatial configuration partitioning:在分割过程中利用身体骨骼是空间定位的配置。该策略将邻域分为三种:根节点本身,向心组(比根节点更接近骨骼重心的相邻节点),离心组。所有关节的平均坐标被视为其重心。这一策略的灵感来源于身体部位的运动可以大致分为同心运动和偏心运动。
lti(vtj)={0,ifrj=ri1,ifrj<ri2,ifrj>ril_{ti}(v_{tj}) = \begin{cases} 0, if~~~ r_j = r_i \\ 1, if~~~ r_j \lt r_i \\ 2, if~~~ r_j \gt r_i \end{cases} lti(vtj)=⎩⎪⎨⎪⎧0,if rj=ri1,if rj<ri2,if rj>ri
rir_iri是训练集中所有帧从中心到关节i的平均距离。
6.5 可学习的边权重
在做动作时一个关节可能因为成群移出现在身体的多个部位。在时空图卷积的每一层上增加了一个可学习的掩码M。该掩码将基于专家系统中每个空间图边的学习重要性权重来缩放节点特征对其相邻节点的贡献。
6.6 ST-GCN
单帧内关节的体内连接有表示自连接的邻接矩阵A\mathbf AA和单位矩阵I\mathbf II来表示。在单帧情况下,具有第一分区策略的ST-GCN为:
fout=Λ−12(A+I)Λ−12finW.f_{out} = \mathbf \Lambda^{-\frac 1 2}(\mathbf A + \mathbf I)\mathbf \Lambda^{- \frac 1 2}\mathbf f_{in} \mathbf W. fout=Λ−21(A+I)Λ−21finW.
Λii=∑j(Aij+Iij)\mathbf \Lambda^{ii} = \sum_j(A^{ij}+I^{ij})Λii=∑j(Aij+Iij)。多输出通道的权重向量堆叠形成权重矩阵W\mathbf WW。时空情况下,特征图表示为(C,V,T)的张量。图卷积是由1×Γ1 \times \Gamma1×Γ的标准2D卷积实现,将结果在第二维度上乘以邻接矩阵Λ−12(A+I)Λ−12\mathbf {\Lambda}^{-\frac 1 2}(\mathbf A + \mathbf I)\mathbf \Lambda^{-\frac 1 2}Λ−21(A+I)Λ−21。
具有多个子集划分的情况(距离划分和空间配置划分)也用这种策略。邻接矩阵被分解为几个矩阵:A+I=∑jAj\mathbf A + \mathbf I = \sum_j \mathbf A_jA+I=∑jAj
举例:
A0=I,A1=Afout=∑jΛj−12AjΛj−12finWj\mathbf A_0 = \mathbf I,\mathbf A_1 = \mathbf A \\ f_{out} = \sum_j \mathbf \Lambda_j^{-\frac 1 2}\mathbf A_j \mathbf \Lambda_j^{-\frac 1 2}\mathbf f_{in}\mathbf W_j A0=I,A1=Afout=j∑Λj−21AjΛj−21finWj
Λjii=∑k(Ajik)+α,α=0.001\Lambda^{ii}_j = \sum_k(A^{ik}_j)+\alpha,\alpha=0.001Λjii=∑k(Ajik)+α,α=0.001避免Aj\mathbf A_jAj出现空行。
对每个邻接矩阵用一个可学习的权重矩阵M来伴随。用(A+I)⊗M(\mathbf A + \mathbf I)\otimes \mathbf M(A+I)⊗M来代替A+I\mathbf A + \mathbf IA+I。用Aj⊗M\mathbf A_j \otimes \mathbf MAj⊗M替代Aj\mathbf A_jAj。⊗\otimes⊗代表矩阵之间的元素乘积,M\mathbf MM被初始化为全1矩阵。
网络架构和训练:ST-GCN在不同节点上共享权重。首先将输入骨架送到BN层来规范化数据。
行人重识别论文阅读7-基于图卷积的行人骨架识别相关推荐
- 论文浅尝 | 基于图卷积网络的跨语言图谱实体对齐
论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识图谱问答 本文提出了一种基于图卷积网络的跨语言实体对齐方法,通过设计一种属性 embedding 用于 GCN 的训练,发现GCN能同时学习到特征 ...
- 论文阅读:基于图神经网络的分类法自动更新模型
Evolving Taxonomy Based on Graph Neural Networks 摘要 分类法是人类对领域知识的理解和组织.在这个知识爆炸的世界中,如何自动进化分类法变得至关重要.在本 ...
- 【项目调研+论文阅读】基于BERT的中文命名实体识别方法[J] | day6
<基于BERT的中文命名实体识别方法>王子牛 2019-<计算机科学> 文章目录 一.相关工作 二.具体步骤 1.Bi-LSTM 2.CRF结构 三.相关实验 1.数据集 2. ...
- 论文盘点:基于图卷积GNN的多目标跟踪算法解析
©PaperWeekly 原创 · 作者|黄飘 学校|华中科技大学硕士 研究方向|多目标跟踪 随着这两年 GNN 的发展,其对于关系的建模特性也被引入了多目标跟踪领域,这次我通过对这两年基于 GNN ...
- 【论文解读】基于图卷积的价格感知推荐
Paper:Price-aware Recommendation with Graph Convolutional Networks Link:https://arxiv.org/pdf/2003.0 ...
- [论文阅读] (10)基于溯源图的APT攻击检测安全顶会总结
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
- 论文阅读_基于GCN的知识图对齐
介绍 英文题目:Cross-lingual Knowledge Graph Alignment viaGraph Convolutional Networks 中文题目:基于GCN的跨语言知识图对齐 ...
- 行为识别论文阅读(2)——3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children
行为识别论文阅读(2)--3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children ...
- 论文阅读笔记(二)——牛的人脸识别,能做到吗?
论文阅读笔记(二)--牛的人脸识别,能做到吗? 论文简介 论文中文翻译:<牛的人脸识别,能做到吗?> 论文名称:<Face Recognition of Cattle: Can it ...
- 论文阅读笔记——基于CNN-GAP可解释性模型的软件源码漏洞检测方法
本论文相关内容 论文下载地址--Engineering Village 论文阅读笔记--基于CNN-GAP可解释性模型的软件源码漏洞检测方法 文章目录 本论文相关内容 前言 基于CNN-GAP可解释性 ...
最新文章
- C# winform treeview node添加右键菜单并选中节点
- 台湾大学林轩田机器学习基石课程学习笔记2 -- Learning to Answer Yes/No
- 【Java】获取目录及其子目录文件的相关事宜
- 哈佛大学计算机科学专,哈佛大学计算机科学专业
- 防止文件重复定义之方法
- 卸载Android app弹出浏览器的一种实现
- Python3爬虫(六) 解析库的使用之Beautiful Soup
- 遇到新项目启动各种乱报错
- 201671010129 2016—2017—2 《Java程序设计》Java总结
- [CareerCup] 12.6 Test an ATM 测试一个自动取款机
- 杨辉三角Python
- 统一配置管理工具confd
- lora信号测试小助手_LoRa技术——30个常见问题解答
- Telnet Sequence Diagram
- Maven的安装与配置教程
- 基于目标检测的回归创新实验感想(基于yolo v1)
- 蚂蚁金服收购印度外卖APP?
- SX1278与STM8L
- 促使新网站快速增加百度收录的几个不外传技巧
- Java 输出四叶玫瑰数
热门文章
- MAR DASCTF明御攻防赛
- 基于rietveld搭建CodeReview平台
- leetcode 741. 摘樱桃
- nas磁盘用什么软件测试,手把手教你从NAS拿点空间当电脑硬盘使用 iSCSI开启网络硬盘共享...
- 发论文为嘛这么难?灵魂画手扒一扒“同行评审”那些事
- 大数据毕设/课设 - 基于大数据的公司业务监控大数据平台设计与实现
- 软件测试与软件调试的区别
- P2183 [国家集训队]礼物
- Hyper-V虚拟机设置固定IP
- 关于防火墙DMZ区的使用和防火墙的DMZ区域规则的配置