MiCT: Mixed 3D/2D convolutional tube for human action recognition

2024-04-11 12:35:50

MiCT: Mixed 3D/2D convolutional tube for human action recognition

Absatrct: 无论3D还是2D都是在静止图像上有很好的效果。对于时空融合的这种，巨大内存成本还是太高了。混合卷积MiCT,将2D/3D卷积模块相结合，以生成更深入，更丰富的信息特征图。

Introduction

空间和时间信号通过每个3D卷积彼此耦合，it becomes much more difficult to optimize the network with dozens of such 3D convolution layers because of the exponential growth of the solution space with respect to the case of 2D cnns.3D卷积储存成本太高，这使得3D cnn的特征通常不够深，11层3d cnn需要的内存几乎是152残差网络的1.5倍。基于上述观察，在限制3d 卷积层数目的同时增加特征图的深度是有意义的

基于2D-cnn和3D cnn的方法

基于2D-cnn特征的方法的共性在于涉及的特征都是通过2d cnn获得的。在视频中使用2d cnn的一个简单方法就是对视频中的每一帧使用2d卷积，但是视频是三维数据，这种方法忽略了视频中时间维度的信息，没有利用联系帧间的运动信息。于是，双流体系结构应运而生，它的迹象就是分别训练两个2Dcnn分别学习外观（RGB）和运动（光流）两路输入信息的特征，并基于这两类特征作出行为的判断。此外，lstm也用来探索帧级2d特征的时空关系。

2d cnn和3d cnn在结构上是相似的，但是3d cnn在卷积过程中可以将视频中连续帧堆叠为立方体，并在此立方体中运用3d卷积核，从而能够提取时空混合特征。

但是由于3d cnn比2d cnn结构复杂，参数量大，通常其网络深度有限，难以训练，于是，出现了一些近似的深度神经网络，2d卷积网膨胀或者2d+1d网络来逼近3d卷积网络。

3D/2D混合卷积模块

将时空维度混合在一起的同时，也增加了3D cnn网络的优化难度。与相应的2d cnn相比，参数量大，大量参数堆叠在一起形成3d cnn，这极大的增加了优化难度，内存使用和计算成本，使得训练一个深度3d cnn变得非常困难

视频图像中时空信息的分布并不是均衡的，同空域信息相比，视频中时域信息的冗余度较高，相邻两帧间的内容通常很相似。

每个空域都会产生一个混合了时空信息的2d特征图，增强2d特征图的分析能力也能够进一步提升3d卷积的性能

在模块中，我们提出在每个3D卷积之后串联一个深度2d cnn。通过3D/2D串联模块，我们可以有效的增加3d cnn的深度，加强2d空域的学习能力，从而生成更深更强的3d特征，并使得3d cnn可以充分利用在图像数据上预先训练的2d cnn模型，在相关的网络设计中，我们提出相应的减少3d卷积的数目，从而进一步的减少墨香的大小，提升模型的效率。

（3d cnn有自己的卷积操作，这就是说通过对cnn之后的卷积进行2d cnn从而减少3d cnn的纵深，尽量少的使用3d cnn）

3D/2D跨域残差并联模块

通过3D/2D串联模块的使用，我们得到了一个更深的3D卷积神经网络，然而，更深的cnn通常意味着更难的训练过程。如果只是简单堆叠层数来加深网络可能造成梯度消失并导致更大的训练误差。为了解决这个问题，我们提出利用3d和2d特征图之间的相关性，让3d和2d卷积来共享空间信息。由于2d空间特征相对容易学习，我们可以利用2d卷积并通过残差学习的方式来促进3d特征的学习。

（通过2d cnn加深3d cnn的cnn空域能力）

在3d cnn的输入和输出之间引入另一个2d cnn的残差连接，以进一步降低时空融合的复杂性，并有效的促进整个网络的优化

Shortcut是跨域的，并联的两路并不是相同的2d或者3d卷积，其中一路是处理3d输入的3d卷积，一路是处理2d输入的2d卷积

由于视频流中包含大量相似连续帧，这导致沿着时间维度的特征图中包含大量的冗余信息。通过引入2d卷积来提取信息丰富但是静止的2d特征，mict中3d卷积仅需要沿时间维度学习残差信息。同时，2d和3d卷积共享空域信息，因此，跨域残差连接在很大程度上降低了3d特征学习的复杂性。

结合上述两个子模块：3D/2D串联混合模块和3D/2D跨域残差并联模块，实现功能和效率的提高

深度Mict网络mict-net

4个mict模块，4个3d cnn，将rgb视频序列作为输入，可进行端到端学习，最后一层使用时间维度上的全局池化，使网络可以接受任意长度的视频作为输入

包含较少的用于时空融合的3d卷积，但是产生可更深的特征图，同时有效的控制了整个深度模型的复杂性。此外，与传统的3d cnn不同，我们的框架能够利用在大型图像数据集上预训练的2d模型，可能会为2d卷积模块提供更好的初始化。

MiCT: Mixed 3D/2D convolutional tube for human action recognition相关推荐

论文笔记 Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition - CVPR
Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition 2020 CVPR | c ...
(论文笔记)SC4D: A Sparse 4D Convolutional Network for Skeleton-Based Action Recognition
SC4D: A Sparse 4D Convolutional Network for Skeleton-Based Action Recognition 摘要一.介绍二.相关工作 1.骨架动作识 ...
3DCNN参数解析：2013-PAMI-3DCNN for Human Action Recognition
3DCNN参数解析:2013-PAMI-3DCNN for Human Action Recognition 参数分析 Input:7 @ 60 ×\times× 40, 7帧,图片大小60 ×\ti ...
SGN：CVPR20-Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition
Abstract In this paper, we propose a simple yet effective semantics-guided neural network (SGN) for ...
译：3D Convolutional Neural Networks for Human Action Recognition
用于人体行为识别的三维卷积神经网络摘要:我们考虑在监控视频中自动识别人体行为.当前大多数方法是基于原始输入计算得到的复杂手工特征构建分类器.卷积神经网络(CNN)是一种可以直接作用于原始输入的深度模 ...
论文阅读_Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition
Abstract 人体骨架动力学为人体动作识别提供了重要信息.传统的骨架建模方法通常依赖于手工制作的部件或遍历规则,从而导致表达能力有限和泛化困难.在这项工作中,我们提出了一种新的动态骨架模型,称为时 ...
论文翻译：Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition
基于骨骼的人体动作识别由于其易于获取人体骨骼数据而引起了人们的极大兴趣.近年来,在不考虑计算效率的情况下,利用深度前馈神经网络对关节三维坐标进行建模成为一种趋势.在本文中,我们提出一种简单而有效的基于 ...
spatial temporal graph convolutional network for skeleton-based action recognition
PPSIG:Paddlesports ST-GCN动作识别 - 飞桨AI Studio数据集为fsd-10花样滑冰,项目为ST-GCN从PaddleVideo抽取代码,可直接运行,acc为0.48 - ...
GCN代码超详解析Two-stream adaptive graph convolutional network for Skeleton-Based Action Recognition（三）
代码地址https://github.com/lshiwjx/2s-AGCN 本篇解析对应 2s-AGCN/graph/ntu_rgb_d.py ,用于创建NTURGB-D对应的图结构,以及2s-AG ...
GCN代码超详解析Two-stream adaptive graph convolutional network for Skeleton-Based Action Recognition（二）
代码地址:https://github.com/lshiwjx/2s-AGCN 本篇解析代码为[2s-AGCN/model/aagcn.py] import mathimport numpy as n ...

最新文章

热门文章