文章目录

  • 前言
  • 总览
  • 一、Introduction
    • 背景
    • 主要贡献
  • 二、Related Works
    • Skeleton-based Action Recognition.(骨架动作识别)
    • Recurrent Neural Networks(RNN)
    • Graph Neural Networks(图神经网络)
  • 三、Methods
    • Problem Formulation(问题阐述)
    • Spatial Graph Router Sub-network(空间图路由器子网)
      • Spatial Graph Pool(空间图pool)
      • Squeeze-and-Excitation Attention(挤压&激发注意力)
    • Temporal Graph Router Sub-network(时间图路由器子网)
      • LSTM encoder(LSTM编码器)
      • Relation modeling(关系建模)
  • 四、Network Architecture and Optimization
    • Discussion(讨论)

前言

笔者从人工智能小白的角度,力求能够从原文中解析出最高效率的知识。
之前看了很多博客去学习AI,但发现虽然有时候会感觉很省时间,但到了复现的时候就会傻眼,因为太多实现的细节没有提及。而且博客具有很强的主观性,因此我建议还是搭配原文来看。

请下载原文《Spatio-Temporal Graph Routing for Skeleton-Based Action Recognition》搭配阅读本文,会更高效哦!

若要更好地理解此篇文章,请参考其改进的前身:
【读前请读】:《论文超详细精读|六千字:ST-GCN》
以及,同样以ST-GCN为基础改进的:
【读后再读】:《论文超详细精读|万字:2s-AGCN》
【读后再读】:《论文超详细精读|八千字:AS-GCN》

总览

首先,看完标题,摘要和结论,我了解到了以下信息:
1.提出了一种新的基于骨架的动作识别的时空图路由(STGR)方法,该方法自适应地学习物理上分离的骨骼关节的内在高阶连通性关系,解决了预定义人体结构的不足。
2.具体来说,该方法由两部分组成:空间图路由(SGR)、时间图路由(TGR)。SGR的目的是基于子群聚类在空间维度上发现关节之间的连通性关系,而TGR则是通过测量关节节点时间轨迹之间的相关程度来探索结构信息。
3.该方法被自然地无缝地整合到图卷积网络(GCNs)框架中,生成一组骨架-关节-连通性图,并进一步输入到分类网络中。
4.此外,还对图节点的接受域进行了深入的分析,说明了该方法的必要性。

一、Introduction

背景

  1. 基于骨骼的人体动作识别:输入:以三维人体坐标,输出:动作类别
  2. 人体骨骼将人体几何构型表征为刚体,其动力学以连续的方式捕捉运动模式。这种动态几何结构不仅在空间上而且在时间上表达了关节之间的关系,采用的是GCN的网络结构。通常,基于图的方法将固定的人体骨架应用到图卷积运算中,并用邻域特征迭代聚合隐藏特征。
  3. 在复杂场景中捕捉多变的人体结构是一项挑战。这就带来了三个需要进一步改进的问题:
    1)骨骼本身是可变的,依赖于特定的数据集。例如NTURGB+D中有25个关节(Shahroudy et al. 2016),而Kinetics中有18个关节(Kay et al. 2017),导致对真实人体骨骼的混淆 。
    2)接头连接高度不平衡。躯干关节过度平滑,肢体关节仍可能欠平滑,导致肢体关节特征共享极为困难。
    3)对每个样本采用全局图结构。提出了“一刀切”的问题,这可能是次优的。在固定的图中,数据流被限制在预定义的条目中,这大大降低了模型的灵活性。通过与计算机网络的类比,我们将其称为“静态路由”。
  4. 本文更注重寻找更灵活的连接方案,针对特定样本自适应学习骨架节点之间的内在高阶连通性,即“动态路由”。在现实场景中,动态骨架本身嵌入了丰富的信息,隐式地显示了两个物理上分离的关节之间的强烈联系,例如动作类“拍手”中的两个手部关节。因此,本文将这个动态路由问题表述为一个图拓扑学习问题,该问题自动为所有节点选择信息量最大的连接。

主要贡献

  1. 如上图,三种路由方式的说明:
    (a)通过物理连接的固定路由。
    (b)考虑局部聚类的空间路由。
    (c)通过建模节点轨迹的相关度来实现时间路由。
  2. 提出了一种新的时空图路由方案,利用骨架节点之间的内在高阶关系
    该模块与分类网络共同学习,更好地匹配动作识别任务。
  3. 在图节点上提出了感受野,证明了之前模型的瓶颈是不同节点不平衡的感受野,证明了本文的时空图路由方案的有效性。

二、Related Works

Skeleton-based Action Recognition.(骨架动作识别)

传统的基于骨骼的动作识别方法主要关注于手工制作的关节运动动态特征,如轨迹的协方差矩阵。后有基于CNN的端到端的方法被提出,以多种方式将原始骨架转换为伪图像。

Recurrent Neural Networks(RNN)

循环神经网络有效地模拟了时间依赖性。为了更好地处理复杂的时空变化因素,宋、刘等人提出了保证鲁棒性要求的注意机制,如关键帧选择(Song et al. 2017)和全局信息关节挖掘(Liu et al. 2017)。

Graph Neural Networks(图神经网络)

两种方法:1.谱域:基于图傅里叶变换。2.空间域:学习迭代聚合每个节点的领域作为其新的隐式表示。本文采用第二种。

三、Methods

在本节中,

  1. 阐述本文的问题。
  2. 通过分别描述两个子网络(SGR和TGR)来介绍时空图路由(STGR)方案。
  3. 描述总体架构和优化。
  4. 在图上讨论了感受野,进一步验证了STGR的必要性。

Problem Formulation(问题阐述)

三维人体骨架记为X={xnt}∈RCin×T×NX = \{x^t_n\}∈\mathbb{R}^{C_{in}×T ×N}X={xnt​}∈RCin​×T×N,有 TTT 帧和NNN 个关节。每个个体都表示为第 nnn 个关节在第 ttt 个时间步处的 xyzxyzxyz 坐标特征向量,因此 Cin=3C_{in} = 3Cin​=3。

首先将输入的三维骨架序列分别转换为时间帧骨架轨迹和节点轨迹。空间图路由器(SGR)和时间图路由器(TGR)分别生成新的骨架-关节-连通性图。ST-GCN接收这些图形并输出操作类。

Spatial Graph Router Sub-network(空间图路由器子网)

在现实世界的场景中,关节通常聚集在一起来表达一个特定的动作。换句话说,每个关节的位置和成对关节之间的距离编码了关系的强度,这对引导信息流至关重要。

Spatial Graph Pool(空间图pool)

为了提取空间连通图,首先对每个帧骨架Xt∈RCin×NX^t∈\mathbb{R}^{C_{in}×N}Xt∈RCin​×N使用非参数图割聚类方法(Shi and Malik 2000),形成 KKK 个子群。对于每个子组,其视为一个完全连通图,即每两个节点在同一子组内是连通的。通过这种方式,作者为每个帧 ttt 定义一个空间连通图,并将所有这些图集合起来形成“空间图池”。

Squeeze-and-Excitation Attention(挤压&激发注意力)

由于已经获得了一系列空间连通图,作者的目标是选择信息最丰富的一个作为代表。为此,作者提出了一种用于图融合的联合学习帧重要性帧注意机制。如图3所示,我们以挤压和激发的方式对框架注意力进行建模(Hu、Shenin和Sun 2018)。首先采用7×7的大卷积来聚集局部特征。然后通过全局平均汇集层进行挤压操作,以获得中间特征。

Temporal Graph Router Sub-network(时间图路由器子网)

LSTM encoder(LSTM编码器)

Relation modeling(关系建模)

在编码的特征空间中对成对节点关系进行建模。作者用归一化点积来度量这种关系。实现:给定每个轨迹的编码特征 v=[v1,...,vn]v=[v_1,...,v_n]v=[v1​,...,vn​],成对相似度被提出。

四、Network Architecture and Optimization

1.模型由STGR和ST-GCN构建。STGR负责探索空间和时间域中语义相关关节的内在连通性关系。ST-GCN将3D骨架和图形作为输入输出动作类别。
2.ST-GCN堆叠了多个用于表征学习的“GCN-TCN”单元,其中每个“GCN-TCN”单元被视为一层。每个GCN单元在空间维度上与缺省图GDefault和学习图Gspat和Gtemp进行图形卷积运算,而TCN单元在时间维度上应用TCN单元来获得高级特征图feature map。

3种连接类型的比较:

  • (a)物理连接;
  • (b)学会的与SGR的空间联系。
  • (c)学会的TGR的时间连接。
    上面是矩阵表示,下面是相应的关节连接可视化图。
    为了展示更加清晰,在可视化中使用阈值0.05对连接进行了二值化。

其中 S={Gdefault,Gspit,Gtemp}S = \{\mathcal{G}^{default}, \mathcal{G}^{spit}, \mathcal{G}^{temp}\}S={Gdefault,Gspit,Gtemp}。
MGM_\mathcal{G}MG​ 和 wGlw^l_\mathcal{G}wGl​ 是对应于特定图的掩码和卷积。
作者将多个GCN-TCN单元进行叠加,然后应用全局平均池化和全连接层,得到了动作评分。

Discussion(讨论)

在本节中,作者以分析的方式验证了STGR的必要性。首先介绍了“感受野”的直观定义,然后指出人体骨骼的“星形结构”使得肢体节点间的特征难以共享的情况。
上图,说明了3种类型的连接模式。预定义的骨架组织自己形成一个“星形结构”,其中一个躯干连接头部和所有的四肢。这样,躯干中心关节的伸展速度会远远快于肢体边缘关节,导致严重的不平衡。


上图中检查了肢体关节(右手)和躯干关节(下背部)的感受野
继之前的文献(Xu et al. 2018)之后,作者将图卷积的扩展转化为 kkk 步随机游走过程。颜色表示节点接收到的信息的比例。如上图所示,经过3步扩散后,两个关节接收到的信息范围都比较小。经过8步,躯干关节几乎可以接收全局信息,而右手关节仍在小范围内挣扎。

而本文提出的STGR方案,从另一个角度来看,通过关节的位置或运动来学习成对连接,打破了上述限制。如前两幅图所示,SGR学习图主要集中在局部聚集,其中紧密的节点具有强连接。另一方面,TGR学习图从长期来看主要关注相关的关节。STGR方案有效地扩大了每个关节的接受野,进一步促进了训练过程。

论文超详细精读|五千字:STGR相关推荐

  1. 论文超详细精读|八千字:AS-GCN

    文章目录 前言 总览 一.Introduction 背景 AS-GCN 主要贡献 二.Related Works 三.Background 3.1 Notations (符号注记) 3.2 Spati ...

  2. 论文超详细精读|六千字:ST-GCN

    文章目录 前言 总览 一.Introduction 背景与局限 解决问题思路 新方法及主要贡献 二.Related work Neural Networks on Graphs(图神经网络) Skel ...

  3. 论文超详细精读|八千字:DGNN

    文章目录 前言 总览 一.Introduction 背景 问题解决过程 主要贡献 二.Related work 2.1 Skeleton-based action recognition(骨架动作识别 ...

  4. 经典神经网络论文超详细解读(三)——GoogLeNet InceptionV1学习笔记(翻译+精读+代码复现)

    前言 在上一期中介绍了VGG,VGG在2014年ImageNet 中获得了定位任务第1名和分类任务第2名的好成绩,而今天要介绍的就是同年分类任务的第一名--GoogLeNet . 作为2014年Ima ...

  5. 经典神经网络论文超详细解读(八)——ResNeXt学习笔记(翻译+精读+代码复现)

    前言 今天我们一起来学习何恺明大神的又一经典之作: ResNeXt(<Aggregated Residual Transformations for Deep Neural Networks&g ...

  6. 经典神经网络论文超详细解读(二)——VGGNet学习笔记(翻译+精读)

    前言 上一篇我们介绍了经典神经网络的开山力作--AlexNet:经典神经网络论文超详细解读(一)--AlexNet学习笔记(翻译+精读) 在文章最后提及了深度对网络结果很重要.今天我们要读的这篇VGG ...

  7. 计算机论文一千五,1.论文字数不够,正文要五千字,至少增加1000,但不要抄袭.DOC...

    PAGE 1.论文字数不够,正文要五千字,至少增加1000,但不要抄袭 2.格式不对.格式要求及例子我给你附在后面,照葫芦画瓢,每一部分都要有,格式都要对. 请3日内改好,已经来不及了.4月末系统关闭 ...

  8. 基于Android的漫画阅读器App设计与实现,安卓、MySQL、Java、Andriod Studio,前台用户+后台管理,完美运行,有一万五千字论文。

    基于Android的漫画阅读器App设计与实现,安卓.MySQL.Java.Andriod Studio,前台用户+后台管理,完美运行,有一万五千字论文. 用户模块功能: 引导页:首先进入APP之后会 ...

  9. 【YOLO系列】YOLOv1论文超详细解读(翻译 +学习笔记)

    前言 从这篇开始,我们将进入YOLO的学习.YOLO是目前比较流行的目标检测算法,速度快且结构简单,其他的目标检测算法如RCNN系列,以后有时间的话再介绍. 本文主要介绍的是YOLOV1,这是由以Jo ...

最新文章

  1. uniapp中qrcode生成二维码后传的参数不见了_阿虚教你制作动态二维码,超详细教程!
  2. 禁止COOKIE后对SESSION的影响
  3. Google 菜市场(Android Market)上不去的解决方法
  4. codeforces Balanced Substring
  5. 关于调用Oracle存储过程时发生“BCD Overflow”错误的处理
  6. 【文末有福利】卷积学习与图像识别的技术发展
  7. Codeforces | CF1029F 【Multicolored Markers】
  8. openfire mysql 乱码_Openfire:解决乱码问题
  9. SQL Server时间粒度系列----第4节季、年时间粒度详解
  10. 计算机多系统启动光盘制作,制作启动光盘,小编教你如何制作光盘启动盘
  11. 三国时代微博(佩服博主琢磨先生太有才了!)
  12. 10句狠话,教你用英语发泄不满情绪(可可英语)
  13. 【Pygame小游戏】魂斗罗经典BOSS都回来了 准备好再次击败他们了吗?(附源码)
  14. 新人小白面试软件测试必问
  15. 计算机软件工作室起名'',半永久工作室名字大全
  16. 洛谷 租用游艇 C++ Dijkstra 单源最短路/dp
  17. ACM常见问题之【三角形的外心】
  18. 今天帮某个女生解决 鼠标无法移动,自己乱动的问题
  19. error LNK2038: 检测到“RuntimeLibrary”的不匹配项 解决方法
  20. Vue高仿网易云网页端源码

热门文章

  1. java网课|Scanner
  2. golang控制结构之select
  3. linux centos7.x 编译安装php7.4.2
  4. 【单片机学习笔记】(6):字符串处理函数、变量的三种情况、用函数实现模块化程序设计、晶振与延时、指针
  5. 微软服务器模式表格多维,用挖掘功能实现多元回归分析
  6. 深度:从 Office 365 新图标来看微软背后的设计新理念
  7. 雪球网爬取上市公司信息(一):爬取上市公司代号
  8. 天津少儿编程培训班费用多少呢?值不值?
  9. Graph Visualization and Navigation in Information Visualization: A Survey 译文
  10. matlab 无穷符号,MATLAB强大的符号运算