Multimodal Gesture Recognition Using 3-D Convolution and Convolutional LSTM
前言
因为最近再看C3D+LSTM手势识别方面的文章,故记录一下,一方面来加深理解记忆,另一方面以备后面回顾复习
团队介绍
作者来自西安电子科技大学软件学院
Motivation
1:利用三维卷积网络学习较短的时空特征,然后利用卷积LSTM构建长时的时空特征。这个套路很熟悉,在上一篇笔记《Temporal Activity Detection in Untrimmed Videos with Recurrent Neural Networks
》中是利用C3D+LSTM框架,区别在于这篇文章是自己简单设计了三维卷积网络和卷积LSTM(上一篇是LSTM)。2:在多模态数据(RGB 和depth)上相互pre-train和finetune能提升识别率(今年Chalearn isolated gesture recognition challenge中一个参赛队伍就利用了这个trick )。
Framework
各个模块介绍:
3DCNN
作者借鉴C3D网络,简单构建了一个三维卷积网络,加上了BN层。时域感受野大小:
(3+2)*2 + 2 + 2 = 14
ConvLSTM
将LSTM的全连接替换为卷积,结束。具体参考[1]
SSP
空间金字塔池化,据说能提取不同尺度的特征。这里利用了四层金字塔卷积,逐渐扩大池化核。
Multimodal Fusion
将RGB和depth模型的分类分数相加,除以2.简单粗暴
loss function
常用的多类交叉熵
训练过程
- 数据预处理:将视频采样到特定长度(代码中是32),随机crop为正方形,然后resize到112x112
- 分别训练RGB和depth的网络
借鉴
- RGB和depth数据相互pre-train
引用
- Xingjian S H I, Chen Z, Wang H, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting[C]//Advances in neural information processing systems. 2015: 802-810.
- Zhu G, Zhang L, Shen P, et al. Multimodal Gesture Recognition Using 3D Convolution and Convolutional LSTM[J]. IEEE Access, 2017.
Multimodal Gesture Recognition Using 3-D Convolution and Convolutional LSTM相关推荐
- Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion
Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion 标题 Multimodal E ...
- Gesture recognition based on binocular vision(基于双目视觉的手势识别)
基于双目视觉的手势识别 Gesture recognition based on binocular vision 原文见:https://link.springer.com/article/10.1 ...
- Gesture Recognition
"Gesture Recognition" allows Media Input devices(such as cameras) through the use of algor ...
- 多模态 |COGMEN: COntextualized GNN based Multimodal Emotion recognitioN论文详解
论文:COGMEN: COntextualized GNN based Multimodal Emotion recognitioN COGMEN: 基于GNN的多模态情感识别技术 论文实现可参考另外 ...
- 论文阅读:Push the Limit of Acoustic Gesture Recognition
这篇文章是香港理工大学郑元庆副教授团队在2020年IEEE INFOCOM(IEEE International Conference on Computer Communications)会议上的文 ...
- 阅读笔记:Zero-Effort Cross-Domain Gesture Recognition with Wi-Fi
摘要 为了推进领域无关的感知,一个在较低的信号级别的领域无关的特征是关键.提出Widar3.0,主要为了在较低的信号级别推导和估计手势的速度分布.开发了一个只需一次训练但是可以适应不同数据领域的模 ...
- Gesture Recognition Dataset: Jester 数据集解压
1. 官方说明 The Jester gesture recognition dataset includes 148,092 labeled video clips of humans perfor ...
- ❀论文篇❀EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege’s Principle论文翻译
情绪识别论文:EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's Principle 论文地址:https://a ...
- Whole-Home Gesture Recognition Using Wireless Signals 论文阅读
由华盛顿大学在2013年发表的Whole-Home Gesture Recognition Using Wireless Signals,曾获得Mobicom2013的最佳论文.这篇文章提出了一个Wi ...
最新文章
- 单链表的建立、排序和翻转
- css笔记 - transition学习笔记(二)
- Python基础教程:字符串中split与rsplit的方法原理教程
- DateTime.Now.Ticks.ToString()说明
- 西北纺织工学院97级计算机系学生毕业名单,原西北纺织工学院更名为西安工程大学...
- 问号在c语言中运算符,C# 运算符 ?、??、?: 各种问号的用法和说明
- python36安装numpy_安装numpy
- 养老金上涨后,退休老人每个月6500元的养老金,属于什么水平?
- [转载] python实现三角形面积计算
- 九小时九个人九扇门(01背包)
- 苹果手机截图的两种方法
- 分子动力学模拟-gromacs的基本使用
- kettle官方使用文档地址
- storm任务提交流程
- paddlepaddle波士顿房价预测
- ORA-01830: date format picture ends before converting entire input string的几种原因
- 博客中Java开发的软硬件环境
- docker安装了nacos,浏览器却无法访问到页面
- 一个程序员的减肥方法(男女通用); 饮食+运动
- 合上笔记本屏幕 Ubuntu 20.04 不休眠