An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition

基于骨架的注意增强图卷积LSTM网络

0摘要:

基于骨架的动作识别是一种重要的任务,需要对给定骨架序列的人体动作的运动特性进行充分的理解, 最近的研究表明,探索骨骼序列的空间和时间特征是这项任务的关键。然而,如何有效地提取区分性的时空特征呢?模型仍然是一个具有挑战性的问题。本文提出了一种新的基于骨架数据的注意增强图卷积LSTM网络(AGC-LSTM)。该方法不仅可以捕捉空间形态和时间动态上的判别特征,而且还可以研究时空域之间的共现关系。我们还提出了一种时态层次结构,以增加顶级agc-lstm层的时态接受字段,从而增强了学习高级语义表示和sig的能力。大大降低了计算成本。此外,为了选择区分空间信息,采用关注机制来增强每个AGC-LSTM层中的关键关节的信息。给出了两组数据集的实验结果:NTU RGB D数据集和西北UCLA数据集.比较结果表明了该方法的有效性,并证明了该方法的有效性。t对这两个数据集执行现有技术的方法。

图1.一个AGC-LSTM层的结构.与传统的LSTM不同,AGCLSTM中的图卷积算子使AGCLSTM的输入、隐藏状态和单元记忆成为图形。结构化数据。

1.介绍

在计算机视觉中,人的行为识别起着至关重要的作用。目的是从视频中删除动作类,此外,由于其广泛的潜在应用,如视频监控、人机交互、运动分析等,已经研究了几十年,至今仍很受欢迎。17, 33, 1].

行动识别是计算机视觉界具有挑战性的任务。基于RGB视频和3D骨架数据的人类动作识别有多种尝试。基于RGB视频的动作R认知方法[23,32,25]主要是从RGB帧和时态光流中模拟空间和时间表示。尽管基于rgb视频的方法已经取得了有希望的结果。但仍然存在一些局限性,如背景杂波、光照变化、外观变化等。三维骨架数据用一组三维坐标表示身体结构。关键节点的ONS。骨架序列不包含颜色信息,不受RGB视频的限制。

这种鲁棒的表示法允许模拟更有区别的节奏-arxiv:1902.09130v1[cs.CV],2019年2月25日人类行为的特征。此外,Johansson等人。[8]给出了关键关节能提供高效人体运动信息的经验和理论基础。此外,Microsoft Kinect[37]和AdvanCED人体姿态估计算法[2]使得获取骨架数据变得更加容易。对于基于骨架的动作识别,现有的方法探索不同的模型来学习骨架序列的时空特征。宋等人[24]采用时空注意力。基于LSTM的区分时空特征选择模型。在[3,13,9]中,卷积神经网络(CNNs)被用来从骨骼中学习时空特征。Yan等人[35]提出了一种用于行动识别的空间-时间图卷积网络(ST-GCN)。与ST-GCN[35]相比较,Si等[21]提出了利用图神经网络和LSTM的方法。分别表示空间和时间信息。总之,所有这些方法都试图设计一个有效的模型来识别骨架序列的时空特征。然而,如何有效地提取区分时空特征仍然是一个具有挑战性的问题。

一般来说,人类骨骼序列有三个显著的特征:1)每个节点与其相邻节点之间具有很强的相关性,使得骨架中含有丰富的骨架。身体结构信息。(2)时间连续性不仅存在于同一关节(如手、腕、肘),而且还存在于身体结构中。3)两者之间存在着一种共现关系。时空域本文提出了一种用于基于骨架的动作识别的新的通用框架--注意增强图卷积lstm网络(Agc-lstm)。通过同步学习上述时空特性来改进骨架表示。

图2中示出了所提出的AGC-LSTM网络的体系结构。首先,将每个关节的坐标变换成具有线性层的空间特征。然后我们将空间Featu连接起来两个连续帧之间的Re和FeatureDifference构成一个增广的特征。为了消除这两个特征之间的尺度差异,采用了共享的LSTM来处理每个联合Sequen。切斯。接下来,我们使用三个AGC-LSTM层来建模时空特征.如图1所示,由于agc-lstm中的图卷积算子,它不仅可以有效地捕获鉴别。空间形态和时间动态的特征,同时也探讨了时空域的共现关系。特别是利用注意机制在每个时间步长上增强关键节点的特征,从而促进AGC-LSTM学习更多的鉴别特征。例如,特性“肘”、“手腕”和“手”是动作“握手”的重要组成部分,在识别行为时应加强。特别是利用注意机制在每个时间步长上增强关键节点的特征,从而促进AGC-LSTM学习更多的鉴别特征。例如,特性“肘”、“手腕”和“手”是动作“握手”的重要组成部分,在识别行为时应加强。虽然基于关节的模型获得了最新的结果,但我们也探索了该模型在零件级的性能。对于基于零件的模型,接头的连接每个部分充当构造图的节点。此外,基于联合和部分的双流模型还可以进一步提高性能。

这项工作的主要贡献总结如下:

  • 提出了一种用于基于骨架的动作识别的新的通用AGC-LSTM网络,这是用于该任务的图形卷积LSTM的第一次尝试
  • 提出的AGC-LSTM能够有效地捕获具有鉴别性的时空特征.更特别的是,注意机制被用来增强关键节点的特性,这有助于改善时空表达。
  • 提出了一种时态层次结构,提高了学习高级时空语义特征的能力,大大降低了计算量。
  • 所提出的模型实现了NTURGB+D数据集和NorthwestUCLA数据集的最新结果。我们进行了广泛的实验以证明我们的模型的有效性。

2.相关工作

图神经网络

最近,基于图的模型由于对图结构数据的有效表示而引起了人们的广泛关注[34]。现有的图形模型主要分为两种体系结构。一层框架称为图神经网络(GNN),是图和递归神经网络的结合。通过消息传递和节点状态更新的多次迭代,每个节点捕获邻居节点内的发射关系和结构信息。齐等人[18]应用GNN处理在图像和视频中检测和识别人类-对象交互作用的任务。Li等人[14]利用GNN来建模角色和PRD之间的依赖关系表示一致的结构化输出,用于态势识别。另一个框架是图卷积将卷积神经网络推广到图的网络(GCN),GCNS有两种类型:光谱GCNS和空间GCNS。谱GCNS变换图信号在谱域上,然后在谱域上应用谱滤波器。例如,CNN依赖于图Laplacian[5,6]在谱域中使用。Kipf等人[11]引入谱GCNS对图结构数据进行半监督分类。对于空间GCNS,采用卷积运算,利用其邻域信息为每个节点计算一个新的特征向量。Simonovsky等人[22]对在空间域中执行的图形信号,提出一种类似卷积的运算,并且是第一个将图卷积应用于点云分类的运算。为了tO捕捉图序列的时空特征,在[19]中首次提出了一种图卷积LSTM,它是GCNS的扩展,具有递归结构。受[19]启发,我们利用新的AGC-LSTM网络从骨架序列中学习固有时空表示。

图2.建议的注意增强图卷积LSTM网络(AGC-LSTM)的体系结构。特征增强(FA)用位置特征和级联计算特征差异。ES的位置特征和特征差异。LSTM用于消除特征差异与位置特征之间的尺度差异。三层agc-lstm层可以建立判别空间温度模型。Al特征。时间平均汇总是在时间域中的平均汇集的实现。我们使用来自最后一个AGC的所有关节的全局特征和聚焦关节的局部特征-LSTM层预测人类行为的类别。

 基于骨架的动作识别

由于运动动力学的有效表示,基于骨架数据的人体动作识别得到了大量的关注。传统的基于骨架的动作识别方法主要关于手工设计功能的焦点[26,29,7]。Vmatapalli等人[27]使用不同身体部位之间的相对三维旋转来表示每具骨骼。所有pa之间的相对三维几何在[26]中,人体各部位的IRS被用来表示人体的三维骨骼。

最近的工作主要是通过深度学习网络来学习人类的行为表征。Du等人[4]根据人体的物理结构,将人体骨架分为五部分,然后分别进行。将它们送入分级递归神经网络来识别动作。在[24]中,时空注意力网络学会选择性地聚焦于区分性的空间和时间特征。张等人[36]提出了骨架序列的视图自适应模型。本身就能将观察观点调整到合适的观点。...在[35,13,21]中的工作进一步表明学习区分的空间和时间特征是人类行动识别的关键要素。在[13]到l中提出了一个分层的CNN模型。获取联合发生和时间演化的表示。文中提出了一种用于动作识别的时空图卷积网络(ST-GCN).每个时空图c卷积层用图卷积算子构造空间特征,用卷积算子对时间动态进行建模。与St-GCN[35]、Si等人作了比较。[21]应用图神经网络捕捉空间结构信息,然后利用LSTM对时间动力学进行建模。尽管表现不佳在[21]中,它忽略了时空特征的共现关系.本文提出了一种新的注意力增强图卷积LSTM网络。Y有效地提取了区分时空的特征,同时也探索了时空域之间的共现关系。

3.模型结构

在这一部分中,我们首先简要回顾了图卷积神经网络,然后介绍了我们关注的增强图卷积LSTM。最后,我们给出了所提出的adc-lstm网络的体系结构。

3.1. 图卷积神经网络

图卷积神经网络(GCN)是图形结构化数据的学习表示的通用和有效的框架。各种GCN变体在许多任务上都取得了最先进的成果.基于骨骼的动作识别,,设表示单个帧在时间t上的骨架图,其中是N个节点的集合,是骨架边的集合。节点的邻居集合被定义为,这里的为从的最小路径,图标记函数被设计为将标签{1,2,...,k}分配给每个图形节点,其可以将节点的邻居集合划分为一个固定数目的K子集。图卷积通常被计算为:

其中是节点的特征。w(·)是一种权重函数,其从k权重分配由标签索引的权重。 是相应子集的数目,它将特征表示规范化。 表示图在节点VTI处的卷积输出。更具体地说,使用邻接矩阵,Eqn。1可表示为:

其中是标号k∈{1,2,…,K}的空间构型中的邻接矩阵。是一个度矩阵。

3.2.注意增强图卷积LSTM

对于序列建模,大量的研究表明,LSTM作为RNN的一个变体,具有惊人的建模长期时间依赖的能力。各种基于lstm的模型被用于le。骨架序列的ARN时间动力学。然而,由于LSTM内的完全连接的算子,存在忽略基于骨架的动作识别的空间相关性的限制。与lstm相比,agc-lstm不仅可以捕捉空间形态和时间动态上的判别特征,而且可以探索时空共生关系。范围( domain的名词复数 )。

和LSTM一样,AGC-LSTM还包含三个门:输入门it、忘记门ft、输出门ot.然而,这些门是用图卷积算子得到的。输入XT,隐藏状态ht和adc-lstm的细胞记忆ct是图形结构的数据。图3展示了AGC-LSTM装置的结构 ,由于AGC-LSTM中的图形卷积算子,细胞记忆CT和隐藏状态Ht不仅具有时间动力学特性,而且还包含了空间结构信息。AG的功能C-LSTM单位的定义如下:

其中,表示图卷积算子,表示Hadamard乘积。是sigmoid激活函数.是调制输入。是一种中间隐藏状态。我们用是指的一个图卷积,可以写成Eqn.1。是一个能够选择关键节点识别信息的注意力网络。之和由于输出的目的是在不削弱非聚焦节点信息的情况下增强关键节点的信息,从而保持空间信息的完整性。

将注意力网络应用于关键关节的自适应聚焦,建立了一种能自动测量关节重要性的软注意机制。空间注意网络的图示如图4所示。AGC-LSTM的中间隐藏状态包含丰富的空间结构信息和时间动力学信息。Al在导向键接头选择中的应用,所以我们首先将所有节点的信息聚合为查询功能:

图4.空间注意力网络图解 

其中W是可学习的参数矩阵。然后,所有节点的注意力分数可以计算为:

其中是可学习的参数矩阵。是偏置,由于存在多个关键节点的可能性,我们使用了Sigmoid的非线性函数.节点的隐态也可以表示为。注意增强的隐藏状态将被输入到下一个AGCLSTM层。请注意,在最后一个AGC-LSTM层,所有节点功能的聚合将作为一个全局特性并且焦点节点的加权和将作为一个局部特征。

利用全局特征和局部特征来预测人类行为的类别。

3.3.AGC-LSTM网络

提出了一种基于骨架的端到端注意增强图卷积LSTM网络(AGC-LSTM).图2显示了我们模型的整体流水线。在下面我们会详细讨论建议的架构背后的理据。

关节特征表示。

对于骨架序列,首先利用线性层和LSTM层将每个关节的三维坐标映射到高维特征空间中。第一线性层将节点坐标编码成一个256个模糊矢量作为位置特征:表示关节I的位置表示。 由于只包含位置信息,使得位置特征PTI有利于学习图形模型中的空间结构特征。帧间差分特征Ecutive帧可以帮助获取AGCLSTM的动态信息。为了兼顾这两方面的优势,将这两个特性连接起来作为一个增强的特性来丰富特征信息。然而,位置特征PTI和帧差特征VTI的级联存在特征矢量的比例方差。因此,我们采用LSTM层来消除这两个特性之间的尺度差异:

其中是节点i在时间t处的增广特征,注意线性层和LSTM在不同的节点之间是共享的。

时态层次结构

LSTM层之后,增强特征的序列将被馈送到下面的GC-LSTM层中作为节点特征,其中 。该模型将三层AGC-LSTM层叠加起来,以了解AGC-LSTM的空间结构和时间动态.在cnn空间池的启发下,我们提出了一种Agc-L的时间层次结构。STM在时域具有平均池,以增加顶层AGC-LSTM层的时间感受场。通过时态层次结构,在AGCLSTM顶层的每次输入的时态接受域将成为来自帧的短期剪辑,这将对per更敏感。时间动态的感觉。此外,在提高性能的前提下,可以显著降低计算量。

学习AGC-LSTM

最后,将每个时间步长的全局特征和局部特征转化为C类的,其中ot=。然后,将预测的概率作为第类得到如下:

在训练过程中,考虑到在AGC-LSTM顶部的每个时间步长的隐藏状态包含一个短期动态,我们对我们的模型进行了监督,损失如下:

图5.基于联接和部件的混合模型的说明。

其中是地面真实标签。表示第j个AGC-LSTM层的时间步长数。第三个术语的目的是对不同的关节给予同等的注意。最后期限是限制感兴趣节点的数量。λ和β是重量衰减系数。请注意,仅在最后一步使用的和概率来预测人类行为的类别。

虽然基于AGC-LSTM的联合网络已经取得了最新的研究成果,但我们也从零件层面探讨了该模型的性能。根据人类的物理结构E体可分为几个部分。类似于基于联合的AGC-LSTM网络,我们首先捕获一个线性层和一个共享LSTM层的部分特征.然后将部分特征作为节点表示输入到三个agc-lstm层中。结果表明,该模型在零件级上也能取得较好的性能。此外,基于关节和零件的混合模型(如图5所示)可以导致进一步的性能改进。

4.实验

我们已经对我们提出的两个数据集的模型进行了评估:NutRGB+D数据集[20]和西北-UCLA数据集[31]。实验结果分析证实了该模型在基于骨架的动作识别中的有效性。

4.1.数据集

NTURGB+D数据集

该数据集包含60种不同的人类活动类别,分为三个主要群体:日常行动、相互行动和与健康有关的行动。总共有56880个动作样本HICH由40名不同的受试者进行。每个动作示例包含RGB视频、深度地图序列、3D骨架数据和由三个MicrosoftKinect v2摄像机同时捕获的红外视频。我们所关注的三维骨骼数据包括每帧25个身体关节的三维位置。该数据集有两种评估协议:交叉对象(CS)和交叉视图(CV)[20]。在CrossSubject方案下,由20名受试者执行的操作构成培训集,其余20名受试者执行的其他操作用于测试。用于交叉视图评估N、由前两个摄像机拍摄的样本用于训练,其余则用于测试。

Northwestern-UCLA dataset
此数据集包含涉及10个类别的1494个视频剪辑。它是由三个Kinect相机同时从不同的角度拍摄。每个动作样本都包含RGBD和人体骨架。数据由10个不同的研究对象进行。评估协议与[31]相同。来自前两个摄像机的样本构成训练集,来自另一个摄像机的样本构成测试数据集。 
4.2执行
在实验中,我们从每个骨架序列中抽取一个固定长度的T作为输入。我们分别为NTU数据集和西北-UCLA数据集设置长度T=100和50.在拟议中AGC-lstm,每个节点的邻域集只包含与自身直接连接的节点,因此D=1。为了与St-gcn[35]进行公平的比较,AGC-lstm中的图标记函数将进行分区。根据[35],将邻域集分为3个子集:根节点本身、向心群和离心群。三个AGC-LSTM层的通道设置为512.在训练期间,我们使用ADAM优化器[10]来优化网络。采用概率为0.5的辍学率,以避免在t上过度拟合。两个数据集。将λ和β分别设为0.0 1和0.001.初始学习率设置为0.0005,并通过将其乘以每20个周期0.1个来降低。NTU数据集的批处理大小西北-加州大学洛杉矶分校的数据集分别为64和30。
4.3.结果和比较
在这一部分中,我们将我们提出的注意力增强图卷积LSTM网络(AGC-LSTM)与几种最新的方法在所使用的两个数据集上进行了比较。

4.3.1 NTU RGB+D Dataset

从表1可以看出,我们提出的方法在NTU数据集中的两个协议方面达到了95.0%和89.2%的最佳性能。为了证明我们的方法的有效性,我们CHO采用以下相关方法对结果进行比较和分析:

AGC-LSTM对HCN。

HCN[13]采用CNN模型,用于从骨架数据中学习全局共同出现。将骨架的每个关节作为通道对待,然后使用卷积层学习GLOB共同发生所有关节的特征。我们可以看到,我们的表现显著超过hcn[13],在交叉视角评价和交叉主题评价方面分别比hcn高3.9%和2.7%。

表1与NTURGBD数据集上最先进的方法进行比较,用于交叉视图(CS)和交叉主题(C V)的准确性评估。

AGC-LSTM vs ST-GCN

为了与[35]进行比较,我们在建议的AGC-LSTM层中使用了与ST-GCN相同的GCN算子。对于St-gcn[35],它将gcn应用于关节的空间配置模型,然后使用学习各层时间动态的卷积算子。在联合评价方面,AGC-LSTM的结果分别为93.5%和87.5%,优于ST-GCN的5.2%和6.0%.比较结果表明,与ST-GCN相比,AGC-LSTM对基于骨架的动作识别是最优的.

时空域共现关系。

虽然Si等人[21]提出了一种基于图神经网络(GNN)和LSTM的空间推理和时态堆栈学习网络,但忽略了时空间的共现关系。L域。由于研究空间域和时间域之间的共现关系的能力,我们的AGCLSTM比[21]提高了2.6%和4.4%。

关节级和部分级的表演。

最近的方法可分为两类:基于关节的[35,36,12,28,13]和基于部分的方法[21,28,4]。我们的方法实现了对关节级和部分级的现有技术的结果,这说明了我们的模型对于联合级和部分级输入的更好的推广。

4.3.2 Northwestern-UCLA Dataset

如表2所示,在西北UCLA数据集上,建议的AGC-LSTM再次达到93.3%的最佳精度。以前的最先进的模型[12]采用了多时间滑动LSTM((ts-lstm)提取短期、中期和长期时间。动力学,它的功能类似于我们的时态层次结构。然而,我们的模型优于TS-LSTM[12]4.1%。与基于cnn的方法[16]相比,HOD也获得了好得多的性能。

表2.与美国西北大学洛杉矶分校数据集最新方法的准确性比较

4.4.模型分析 

为了了解我们的AGC-LSTM网络的特性,我们分析了NTURGB+D数据集和NorthwestUCLA数据集的几个关键组件的有效性,即时间分层ArchiteAGCLSTM和两流网络中的CATUE、AGC-LSTM、注意增强机制.最后,对几个失效案例进行了分析,讨论了基于骨架的动作识别中存在的问题.

4.4.1结构分析

表3和表4分别显示了NTU RGB D数据集和NorthwesternUCLA数据集上几条基线的实验结果。HT表示时间层次结构。与LSTM比较DGC-LSTM、LSTM+HT和GC-LSTM+TH可以增加顶层上每个时间步长的时间接收场。改进的性能证明了时间分层体系结构可以提高T他是时间动态的代表。

表3。在NTURGB+D数据集中,多个基线和AGC-LSTM之间的比较结果。 

表4.西北-加州大学洛杉矶分校数据集上几个基线与我们的AGC-LSTM的比较结果。 

用GC-LSTM代替LSTM,GC-LSTM HT对NTU数据集和西北UCLA数据集的准确率分别提高到2.5%、4.9%和10.9%。大幅度的性能改进-核实GC-LSTM的有效性,它可以从骨架数据中获取更多的区分时空特征.与gc-lstm相比,agc-lstm可以利用空间注意机制进行选择。关键节点的空间信息,提高了特征表示的能力。另外,基于部分和基于联合的AGC-LSTM的融合可以进一步提高性能.

我们还可视化了三个AGCLSTM层的注意权重,如图6所示。结果表明,对于“握手”动作,我们的方法可以逐渐增强对“右肘”、“右腕”的注意。和“右手”。同时,“右手顶端”和“右拇指”有一定程度的关注。此外,我们还分析了在北西村产生混淆矩阵的实验结果。数据集如图7(A)所示,LSTM识别类似行为是非常令人困惑的。例如,“用一只手捡起”和“用两只手捡起”的动作有非常相似的骨架序列。奈然而,我们可以看到,建议的AGC-LSTM可以显著提高对这些类似行为进行分类的能力(如图7(B)所示)。上述结果表明,所提出的AGC-LSTM IS是一种有效的基于骨架的交流方法。

图6。在动作“信号交换“的一个角色上显示三个AGCLSTM层的注意权重。纵轴表示关节。水平轴表示帧。(a)、(b)、(c)分别是第一层、第二层和第三层的注意结果。

图7.NorthwesternUCLA数据集上的混淆矩阵比较。(A)低STM。(B)AGC-LSTM。 

图8.NTU数据集上的混淆矩阵比较。它显示了混淆矩阵的部分比较行动(“吃饭/零食”,“阅读”,“写作”,“玩电话/平板电脑”,“打字”)。在键盘上,“用手指指着某物”、“打喷嚏/咳嗽”、“拍拍别人的背”),在NTU数据集上的准确率低于80%。 

4.4.2失效案例

最后,在NTU数据集上用混淆矩阵对错误分类结果进行了分析。图8显示了动作的部分混淆矩阵比较(“吃饭/零食”、“阅读”、“写作”、“pla”)。应与电话/平板电脑,“键盘打字”,“手指指向某物”,“打喷嚏/咳嗽”,“拍拍他人的背部”)的准确性低于80%的交叉主题设置。NTU数据集我们可以看到,错误分类的行动主要是非常相似的运动。例如,20%的“阅读”样本被错误地归类为“书写”,19%的“写入”错误序列被错误地分类。分类为“输入为键盘”。对于NTU数据集,只有两个关节被标记在手指上(“手尖”和“拇指”),因此要捕捉到Th的这种微妙的运动是很有挑战性的。E手

5.结论和今后的工作

本文提出了一种基于骨架-4328的注意增强图卷积lstm网络(Agc-lstm),这是图卷积lstm的第一次尝试。这是一项任务。所提出的AGCLSTM不仅可以捕捉空间形态和时间动态上的判别特征,而且可以探索时空d之间的共现关系。电源。此外,使用关注网络来增强每个AGC-LSTM层中的关键关节的信息。此外,我们还提出了一种用于捕捉高LE的时间分层结构。Vel时空语义特征在两个具有挑战性的基准上,提出的AGC-LSTM取得了最先进的结果.学习体位-对象关系可以帮助克服这些限制。在失败案例中提到过。在未来,我们将尝试将骨架序列和物体外观结合起来,以提高人类行为识别的性能。

【论文翻译】An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition相关推荐

  1. (论文笔记)An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition

    An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition 文章目录 An ...

  2. 视频动作识别--Convolutional Two-Stream Network Fusion for Video Action Recognition

    Convolutional Two-Stream Network Fusion for Video Action Recognition CVPR2016 http://www.robots.ox.a ...

  3. 论文翻译:2020_DTLN:Dual-Signal Transformation LSTM Network for Real-Time Noise Suppression

    论文地址:双路信号变换LSTM网络的实时噪声抑制 论文代码:https://github.com/breizhn/DTLN 引用格式:Westhausen N L, Meyer B T. Dual-s ...

  4. 译:Convolutional Two-Stream Network Fusion for Video Action Recognition

              这是双流神经网络的改进版,接下来会出他的读书笔记. 摘要:近年来,卷积神经网络(卷积神经网络)对视频中人类行为识别的应用提出了不同的解决方案,用于整合外观和运动信息.为了更好地利用 ...

  5. 论文翻译:Two-Stream 3D Convolutional Neural Network for Human Skeleton-Based Action Recognition

    摘要:在三维人体动作识别中,如何有效地从骨骼序列中提取时空信息仍然是一个挑战.虽然最近的动作识别方法是基于递归神经网络的,表现出了突出的性能,但这些方法的缺点之一是倾向于过分强调时间信息.由于三维卷积 ...

  6. [翻译]Convolutional Two-Stream Network Fusion for Video Action Recognition

    摘要 近年来,卷积神经网络(卷积神经网络)对视频中人类行为识别的应用提出了不同的解决方案,用于整合外观和运动信息.为了更好地利用时空信息,我们研究了许多在空间和时间上融合卷积塔的方法.我们得出以下结论 ...

  7. Convolutional Two-Stream Network Fusion for Video Action Recognition翻译

    本文转于:https://blog.csdn.net/weixin_42164269/article/details/80689653 若有侵权请联系删除 摘要 近年来,卷积神经网络(卷积神经网络)对 ...

  8. 论文阅读06——《CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network for Clustering》

    欢迎到我的个人博客看原文 论文阅读06--<CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network f ...

  9. 【论文翻译】Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting

    论文:https://arxiv.org/pdf/1506.04214.pdf 代码: (pytorch):https://github.com/automan000/Convolution_LSTM ...

最新文章

  1. 备份TB级别Oracle数据库的一些技巧
  2. 微服务架构_企业中的微服务:敌是友?
  3. 庖丁解牛看委托和事件(续)
  4. ssh 三者集合的思想
  5. java环境变量中classpath是必须配置吗
  6. Go-cron定时任务
  7. sed手册-3 例子
  8. selenium python 启动Chrome
  9. JMeter使用CSV Data参数化,中文参数传递过程出现乱码问题解决
  10. 任何时候都不要轻易满仓
  11. 如何将两个php超链接,php超链接跳转
  12. [数字dp] hdu 3271 SNIBB
  13. JDY-24M级蓝牙简介
  14. 基于STM32读取W25Q64(模拟SPI)
  15. LibreELEC 10.0.2发布
  16. 简单快速的视频上传分享网站,可做外链
  17. 修改域名需要重启服务器,GitLab修改域名host
  18. 计算机flash拉开效果,使用Flash制作卷轴展开效果
  19. 植物大战僵尸——最强阵容
  20. PS虚化背景突出主体

热门文章

  1. 1.1 SIG MESH简介
  2. 搭建自己的图床:七牛云+Mpic【弃】
  3. 网站加速与Linux服务器防护
  4. 鼠标单击按钮后就能弹出百度商桥聊天窗口
  5. 不同规模下呼叫中心的系统搭建解决方案
  6. Cocos Creator 3D v1.0.2 正式发布,新增小游戏平台支持
  7. Unity 十三 碰撞条件
  8. 转一位大哥的感悟,我也深有感触
  9. [BMC][IPMI] 快速理解 FRU 和 VPD
  10. 零售超市数据分析经典面试题(趋势和指标分析初探)