前言

因为最近再看C3D+LSTM手势识别方面的文章，故记录一下，一方面来加深理解记忆，另一方面以备后面回顾复习

团队介绍

作者来自西安电子科技大学软件学院

Motivation

１：利用三维卷积网络学习较短的时空特征，然后利用卷积LSTM构建长时的时空特征。这个套路很熟悉，在上一篇笔记《Temporal Activity Detection in Untrimmed Videos with Recurrent Neural Networks
》中是利用C3D+LSTM框架，区别在于这篇文章是自己简单设计了三维卷积网络和卷积LSTM（上一篇是LSTM）。２：在多模态数据（RGB 和depth）上相互pre-train和finetune能提升识别率（今年Chalearn isolated gesture recognition challenge中一个参赛队伍就利用了这个trick ）。

Framework

各个模块介绍：

3DCNN

作者借鉴C3D网络，简单构建了一个三维卷积网络，加上了BN层。时域感受野大小：

(３＋２)∗2+2+2=14

(３＋２)*2 + 2 + 2 = 14

ConvLSTM

将LSTM的全连接替换为卷积，结束。具体参考[1]

SSP

空间金字塔池化，据说能提取不同尺度的特征。这里利用了四层金字塔卷积，逐渐扩大池化核。

Multimodal Fusion

将RGB和depth模型的分类分数相加，除以２．简单粗暴

loss function

常用的多类交叉熵

训练过程

数据预处理：将视频采样到特定长度（代码中是３２），随机crop为正方形，然后resize到112x112
分别训练RGB和depth的网络

借鉴

RGB和depth数据相互pre-train

引用

Xingjian S H I, Chen Z, Wang H, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting[C]//Advances in neural information processing systems. 2015: 802-810.
Zhu G, Zhang L, Shen P, et al. Multimodal Gesture Recognition Using 3D Convolution and Convolutional LSTM[J]. IEEE Access, 2017.

Multimodal Gesture Recognition Using 3-D Convolution and Convolutional LSTM相关推荐

Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion
Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion 标题 Multimodal E ...
Gesture recognition based on binocular vision(基于双目视觉的手势识别)
基于双目视觉的手势识别 Gesture recognition based on binocular vision 原文见:https://link.springer.com/article/10.1 ...
Gesture Recognition
"Gesture Recognition" allows Media Input devices(such as cameras) through the use of algor ...
多模态 |COGMEN: COntextualized GNN based Multimodal Emotion recognitioN论文详解
论文:COGMEN: COntextualized GNN based Multimodal Emotion recognitioN COGMEN: 基于GNN的多模态情感识别技术论文实现可参考另外 ...
论文阅读：Push the Limit of Acoustic Gesture Recognition
这篇文章是香港理工大学郑元庆副教授团队在2020年IEEE INFOCOM(IEEE International Conference on Computer Communications)会议上的文 ...
阅读笔记：Zero-Effort Cross-Domain Gesture Recognition with Wi-Fi
摘要为了推进领域无关的感知,一个在较低的信号级别的领域无关的特征是关键.提出Widar3.0,主要为了在较低的信号级别推导和估计手势的速度分布.开发了一个只需一次训练但是可以适应不同数据领域的模 ...
Gesture Recognition Dataset: Jester 数据集解压
1. 官方说明 The Jester gesture recognition dataset includes 148,092 labeled video clips of humans perfor ...
❀论文篇❀EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege’s Principle论文翻译
情绪识别论文:EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's Principle 论文地址:https://a ...
Whole-Home Gesture Recognition Using Wireless Signals 论文阅读
由华盛顿大学在2013年发表的Whole-Home Gesture Recognition Using Wireless Signals,曾获得Mobicom2013的最佳论文.这篇文章提出了一个Wi ...

Multimodal Gesture Recognition Using 3-D Convolution and Convolutional LSTM

前言