对Action Recognition Using Attention-Joints Graph Convolutional Neural Networks(19年ieee上的一篇)这篇论文的翻译,可能在有些地方自己翻译的不是很到位或者出现一定的错误,希望大佬能指出。

ABSTRACT 人体骨骼包含着重要的动作信息,因此将骨骼纳入人体动作识别中是非常直观的。人类骨骼类似于一个图形,而人体的关节和骨骼则模仿节点和边缘的图形。这种人体骨骼与图形结构的相似性是将图卷积神经网络应用于人体动作识别的主要动机。因此,我们建议使用与对特定动作有显著贡献的关节相对应的注意关节。只与这些注意节点对应的特征被计算并赋值为图的节点特征。在我们的方法中,节点特征(也称为注意关节特征)包括i)注意关节距离人体重心的距离,ii)相邻的注意关节之间的距离,iii)关节流特征。该方法通过将更多的相对距离和相对坐标连接到其它节点,给出了一种简单但更有效的骨架序列表示方法。提出的方法已经在singleimagestanford40 - actionsdataset,以及基于时间骨骼的动作识别PKU-MDD和NTU-RGBD数据集上进行了评估。结果表明,该框架优于现有的最先进的方法。

  1. INTRODUCTION

视频中的人体动作识别在视频监控、视频内容解析、医疗保健、娱乐等领域有着广泛的应用。在文献中,不同的模式已经被研究用于视频中的动作识别,如rgb图像、光流/扭曲光流和人体骨架。在[1]和[2]中,利用时空两流网络识别人的动作。此外,基于骨骼的行为识别方法已经存在 [3], [4]。这种方法已经在动作识别方面取得了早期的成功,因为人类骨骼具有外观和光照不变性。人体骨架可以用图形来表示,但是卷积神经网络(CNN)在人体骨骼上的直接应用并不是那么直观。具体来说,由于图卷积神经网络(Graph Convolutional Neural Networks, GNN)使得CNN可以应用于非欧氏域,例如任意节点和边的图。多年来,GNN已成功应用于图像和文本分类[5]、目标识别[6]和人类活动识别[7]等诸多领域。图卷积神经网络是如此强大的模型,一个随机初始化的两层GNN可以生成网络[8]中节点的有用特征表示。

在图卷积网络中,图的统计通过适当地设计图形内核[9]来利用(即图形特性),[9]承诺在图上出现可变的图形(即子图)。直观地说,属于特定类的图应该具有与该类相关的特定特性。这种独特的图形特征有利于分类任务。

卷积神经网络在处理欧氏数据时表现良好,例如图像、语音或视频,然而其在非欧几里得数据上表现不好。为了解决这一问题,图卷积网络(graph convolutional networks),简称几何CNNs。可以应用于非欧几里德空间中的节点分类和链路预测,如社交网络、分子生物学和脑信号处理等。从经验上讲,图卷积网络从图中提取高级特征,因此适合于应用于人体动作识别,例如,具有身体关节的骨骼分别对应于节点,关节之间的骨骼对应于边缘。从传统的空间卷积到图形卷积的一个类比如图1所示,其中图像像素被表示为图形节点,它们的空间关系被描述为图形边。在此基础上,将空间卷积核扩展为图卷积核来计算相邻节点的乘积和。池化操作以图粗化和分区的形式定义。平衡切割和重边缘匹配(HEM)是用于图池化的技术。图2解释了图的下采样和汇集操作。

从空间卷积中可以清楚地看出,一个图可能包含冗余或有噪声的边。因此,在抑制冗余节点的同时,利用注意机制来强调重要节点是一种实用的方法。该方法利用了注意节点对最终动作识别的贡献,而冗余节点可能导致噪声或错误预测。例如,像饮酒和打电话这样的动作的注意力节点来自于手臂、头部和颈部,如图3所示。

我们工作的贡献总结如下:

1)我们发现并开发与某些动作最相关的注意关节。

2)我们利用归一化距离和关节流的特征来处理这种注意节点。

3)设计了一种新的基于骨骼的动作识别的注意关节图卷积神经网络,在三个公共基准上达到了最先进的性能。

II. RELATED WORK

在文献中,基于骨架的动作问题已经被i) CNN和ii) GCN所解决

  1. CONVOLUTIONAL NEURAL ACTION RECOGNITION

【10】提出了一种基于身体部位的单图像动作识别方法。在[4]中,提出了一种基于路径签名的方法,利用人体骨骼进行动作识别。【11】讨论了一种基于原始骨架坐标和骨架运动的动作识别技术。在[12]中研究了端到端卷积共现方法。[13]在卷积神经网络中融合了多种模式(如RGB、depth、Flow和IR)用于动作识别。

  1. GRAPH NEURAL ACTION RECOGNITION

近年来,卷积神经网络已经从欧几里德域(图像或音频)推广到非欧几里德域,如图、[5]、[11]、[14]等。图卷积网络的初步工作是在[9]中完成的。这项开创性的工作在[15]中进行了扩展,在图卷积神经网络中引入了门控递归单元。在[16]中提出了一种边缘条件卷积方法,将卷积滤波器配置在边缘标签上。在[8]中,作者提出了图形CNN来解决半监督学习的问题。应用卷积神经网络有两个不同的视角, i)光谱透视,卷积滤波和池操作应用于光谱域[14],[17],ii)空间透视,卷积滤波直接应用于图节点和相邻的[5]上。为了将卷积网络应用于频谱领域,设计了一个频谱卷积层,如[5]所示。在[16]中,作者从具有不同节点和边的任意图中推广了由欧几里德网格引导的卷积滤波器。参考[18]建立了一个深度可分的图卷积,其性能优于其他图卷积和几何卷积网络。参考[19]提出了一个基于骨架的时空图卷积动作识别的数学公式。

实验表明,基于骨架的动作识别模型的节点和边缘具有互补性。参考[21]讨论了利用共享中间层使用图关节点卷积积和图边缘卷积来模拟互补性。在[22]中,作者使用图形回归提出了一个基于骨骼的动作识别GCN对数据的时空变化进行建模。参考[23]提出了一种基于人体关节和骨骼之间的运动依赖关系,将骨骼数据表示为有向无环图(DAG)的新方法。最近的一个维

III. PROPOSED METHODOLOGY

分为两个部分:i) attention network and ii) graph convolutional network.

  1. ATTENTION NETWORK

我们研究了从人体中提取注意力关节的残差注意力网络。残差注意力网络的主要动机是将大量的注意模块以残差的方式叠加。注意力网络将原始的rgb图像作为输入,并生成注意力掩码。这些注意力掩码与骨骼图像以元素的方式相乘,来识别注意力关节。数学上,注意掩码与输入图像的元素相乘定义如下,

where i denotes the spatial index and c denotes the channel index of a pixel in the masks. 因此,残差注意网络强调输入RGB-image中最重要的区域并抑制该图像中不太重要的区域,用于修饰或说明某些动作。残差注意网络的一个主要优点是与残差网络参数[20]相比,它大大减少了网络参数。

在残差注意网络中,每个块由两个分支组成,一个是主干分支,另一个是掩码分支,其中主干分支是为学习面向目标的特性而设计的,可以由任何现有的CNN架构来实现。在本文中,我们使用vgg -16实现了残差注意网络的主干分支。与主干分支不同,掩模分支是在自底向上和自顶向下结构的上实现的用来学习注意力掩码Mi(x)。掩模分支是动作识别的剩余注意网络性能优越的主要原因,它作为一个特征选择器来增强信息最丰富的部分,并抑制从主干分支获得的特征的冗余部分。剩余注意网络的结构如图5所示。

在残差注意网络中,主干分支特征自适应改变掩码分支注意力。利用空间注意力和sigmoid对每个通道的feature map进行归一化处理,得到与空间信息相关的软掩码。在本文中,我们将空间注意用数学描述为

where i and c represent spatial positions and channels respectively. Also, µ c and σ c corresponds to the mean and standard deviation of feature-map for the c-th channel and x i denotes the feature vector at the i-th spatial position.

  1. SKELETON GRAPH FORMULATION

人体骨骼及其相关的关节可以被重新设置为2D或3D坐标的坐标系。在回顾性研究中,人类骨骼被表示为单个特征向量[19]或时空图[25]。根据人体结构的连通性,将一帧内的关节通过边进行连接,得到无向图[25]。在我们的工作中,节点和关节这两个术语是可以互换的。

  1. ATTENTION JOINTS ENCODING

为了保持一个简单的结构,只考虑人体的14个关节。图4显示了注意力关节点的特征编码。如图所示,输入骨架的身体关节是从0到13枚举的。残差注意网络提取的注意节点在图节点上标记为“1”,其他节点标记为“0”。

如第I节所述,节点标记过程包括三种类型的特征,I)从身体中心到注意节点的加权距离,d CoG ii)相邻的注意节点之间的距离,d AN和iii)每个注意节点的流动特征,即OFF。:第一类特征d CoG定义为人体顶点或重心(CoG)到注意关节的欧氏距离。这些距离,d CoG,是加权的距离,因为人体的一些关节被很好地连接起来,对最终的动作预测有更大的贡献。举个例子,如图4所示,与关节2相比,关节3和关节4的移动更灵活,因此它们的权重大于关节2。同样地,关节6和关节7比关节5连接得更好。其他对关节(9,10)和(12,13)也可以进行同样的观察,因为它们分别比关节8和11更灵活。

在我们的工作中,与注意关节相关的第二个特征是一个注意关节到邻近关节的标准化欧氏距离,记作d AN1…d ANn。如果注意节点只连接一个节点,则只有一个距离d AN1,如果连接两个注意节点,则有d AN1和d AN2等。相邻节点距离d AN的概念如图4所示,其中节点“4”只有一个相邻邻居和一个相对的相邻距离d AN1,而节点“3”有两个相邻邻居,因此有两个相应的相邻距离d AN1和d AN2。

与注意节点相关的最后一个特征是注意节点的流特征(OFF),其中节点的光流流包含了一系列帧上的注意节点的时间信息。我们计算了关节的三层流动特征,包括: i)关节在N和N−1这两个连续的坐标系之间流动;ii)接头-当前帧与第三帧之间的流动,N和N−3,和iii)当前帧与第五帧之间的接头-流动,N和N - 5。图6描述了这个概念。计算连续帧joints-flow帧之间的这3个层次的两个原因是:也就是说,第一个原因:连续帧之间joint-flow可能虚假的运动和导致噪声joint-flow和行动的最可能延长3 - 5帧,所以joints-flow超过5张照可以更好的模型这样的时间框架之间的关系。

上述特征的编码如图4所示,其中每个注意力节点特征向量包含d CoG,d AN doff特征。这些特征向量只针对注意力节点进行编码。输入帧的骨架包含所有节点和边的信息,其中注意节点的输出标记为“1”,节点特征只与注意节点相关。图的最后输出在培训过程中被标记为一个类标记,就像一种监督学习方式。

  1. IMPLEMENTATION OF GRAPH CNN

与欧式二维卷积神经网络相比,基于几何图形的卷积神经网络的实现具有挑战性。为了实现人体骨骼的图形卷积,将一帧内的关节表示为邻接矩阵a,将自连接表示为单位矩阵I。定义从H (l)层到H (l+1)层的图卷积传播规律为:

where ˜ A is the adjacency matrix, ˜ D is the degree matrix of ˜ A.。该因子用于对大度节点进行归一化,称为归一化邻接矩阵。

池化是卷积神经网络的一个重要特性,它在图神经网络中被实现为图下采样或粗化。图数据池是这样实现的:类似的节点特性被下采样,并被汇集在一起,以创建多层的全局不变性。非线性多尺度粗化、图划分和重边缘匹配(HEM)是常用的图池策略。图2解释了图池操作。

Action Recognition Using Attention-Joints Graph Convolutional Neural Networks翻译相关推荐

  1. Graph Convolutional Neural Networks for Web-Scale Recommender Systems(用于Web级推荐系统的图形卷积神经网络)

    Graph Convolutional Neural Networks for Web-Scale Recommender Systems 用于Web级推荐系统的图形卷积神经网络 ABSTRACT R ...

  2. Graph Convolutional Neural Networks for Predicting Drug-Target Interactions

    1. 摘要 2. 数据集 DUDE数据集改进 DUDE-chemBl负样本数据集 最大无偏数据集(MUV) 3. 图构建 pocket graph molecuar graph 4. 口袋pretra ...

  3. SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks

    论文名称:SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks 作者:Lingxiao ...

  4. 论文阅读——ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

    ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 改进版通道注意力 from CVPR2020 期 ...

  5. 论文翻译:Skeleton-Based Action Recognition with Multi-Stream Adaptive Graph Convolutional Networks

    摘要: 抽象图卷积网络(GCNs)将神经网络推广到更一般的非欧几里得结构,在基于骨架的动作识别方面取得了显著的性能.但是,以往基于gc的模型仍然存在一些问题.首先,图形的拓扑被启发式地设置并固定在所有 ...

  6. Hyperbolic Graph Convolutional Neural Networks

    斯坦福出的,双曲空间上的GCN,有点抽象,但还是想啃啃. 原文地址:https://arxiv.org/abs/1910.12933v1 GCN将图上的节点映射到欧式空间,在映射无标度网络或分层结构时 ...

  7. AW-Convlution:An Attention Module for Convolutional Neural Networks

    AW-Convlution 文章目录 AW-Convlution 参考 创新点 问题&思想描述 模块结构 实验结果 参考 原文 Xception: Deep Learning with Dep ...

  8. SA-NET: SHUFFLE ATTENTION FOR DEEP CONVOLUTIONAL NEURAL NETWORKS

    论文地址:https://arxiv.org/pdf/2102.00240.pdf Github地址:https://github.com/wofmanaf/SA-Net/blob/main/mode ...

  9. Spectral-based graph convolutional neural network

    这里写自定义目录标题 Spectral-based graph convolutional neural network 1. 来自对<[A Comprehensive Survey on Gr ...

最新文章

  1. Sass函数:Sass Maps的函数-map-has-key($map,$key)
  2. Redisson实现Redis分布式锁的N种姿势
  3. 图解第一个Matlab仿真实例
  4. C# WPF ASP.net 上传多文件和数据
  5. 春节见闻之北京前门步行街
  6. 5. JavaScript RegExp 类型
  7. 【优化求解】基于matlab遗传算法求解仓库货位优化问题【含Matlab源码 1770期】
  8. 苹果开发者账号全解-关于申请开发者账号的所有答案
  9. symantec linux版命令,Symantec Backup Exec Agent for Linux详细安装方法
  10. 2021 年 五一数学建模比赛 B 题(第四问至第六问)
  11. java 汇率转换_汇率转换 实现了一个用于多币种之间汇率转换的程序 联合开发网 - pudn.com...
  12. 给Excel的数字单元格左上角加上绿色小三角
  13. 四川轻化工大学计算机网络技术分数线,四川轻化工大学录取投档线
  14. iOS通过URL Scheme启动app(收集了常用的app的URL Scheme)
  15. 查看已下载的Docker镜像latest具体版本
  16. 分门别类刷leetcode——链表(C++实现)
  17. 技术支持----用户和产研沟通的桥梁
  18. 哼唱识别(query by humming)
  19. web导出excel文件的几种方法
  20. 机器学习概述----机器学习并没有那么深奥,它很有趣(2)

热门文章

  1. 关于互联网的那些小创意
  2. python ascii错误处理
  3. Python知道cos值求角度_机械臂正运动学-DH参数-Python快速实现
  4. 软件企业和双软企业的区别
  5. Visual Studio 高亮引用颜色设置
  6. arduino读取水位传感器的数据显示在基于i2c的1602a上_基于PC-CAN适配卡和总线技术实现潜水电机分布式监控系统的应用方案...
  7. STM32 F105 USB CDC host
  8. 找零钱问题刨析(Python代码)
  9. c语言符号错误怎么避免,C语言中常见符号问题探析
  10. python网络爬虫(第八章:图像识别与文字处理)