前言

因为最近再看C3D+LSTM手势识别方面的文章,故记录一下,一方面来加深理解记忆,另一方面以备后面回顾复习

团队介绍

作者来自西安电子科技大学软件学院

Motivation

1:利用三维卷积网络学习较短的时空特征,然后利用卷积LSTM构建长时的时空特征。这个套路很熟悉,在上一篇笔记《Temporal Activity Detection in Untrimmed Videos with Recurrent Neural Networks
》中是利用C3D+LSTM框架,区别在于这篇文章是自己简单设计了三维卷积网络和卷积LSTM(上一篇是LSTM)。2:在多模态数据(RGB 和depth)上相互pre-train和finetune能提升识别率(今年Chalearn isolated gesture recognition challenge中一个参赛队伍就利用了这个trick )。

Framework


各个模块介绍:

3DCNN


作者借鉴C3D网络,简单构建了一个三维卷积网络,加上了BN层。时域感受野大小:

(3+2)∗2+2+2=14

(3+2)*2 + 2 + 2 = 14

ConvLSTM

将LSTM的全连接替换为卷积,结束。具体参考[1]

SSP

空间金字塔池化,据说能提取不同尺度的特征。这里利用了四层金字塔卷积,逐渐扩大池化核。

Multimodal Fusion

将RGB和depth模型的分类分数相加,除以2.简单粗暴

loss function

常用的多类交叉熵

训练过程

  1. 数据预处理:将视频采样到特定长度(代码中是32),随机crop为正方形,然后resize到112x112
  2. 分别训练RGB和depth的网络

借鉴

  1. RGB和depth数据相互pre-train

引用

  1. Xingjian S H I, Chen Z, Wang H, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting[C]//Advances in neural information processing systems. 2015: 802-810.
  2. Zhu G, Zhang L, Shen P, et al. Multimodal Gesture Recognition Using 3D Convolution and Convolutional LSTM[J]. IEEE Access, 2017.

Multimodal Gesture Recognition Using 3-D Convolution and Convolutional LSTM相关推荐

  1. Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion

    Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion 标题 Multimodal E ...

  2. Gesture recognition based on binocular vision(基于双目视觉的手势识别)

    基于双目视觉的手势识别 Gesture recognition based on binocular vision 原文见:https://link.springer.com/article/10.1 ...

  3. Gesture Recognition

    "Gesture Recognition" allows Media Input devices(such as cameras) through the use of algor ...

  4. 多模态 |COGMEN: COntextualized GNN based Multimodal Emotion recognitioN论文详解

    论文:COGMEN: COntextualized GNN based Multimodal Emotion recognitioN COGMEN: 基于GNN的多模态情感识别技术 论文实现可参考另外 ...

  5. 论文阅读:Push the Limit of Acoustic Gesture Recognition

    这篇文章是香港理工大学郑元庆副教授团队在2020年IEEE INFOCOM(IEEE International Conference on Computer Communications)会议上的文 ...

  6. 阅读笔记:Zero-Effort Cross-Domain Gesture Recognition with Wi-Fi

    摘要   为了推进领域无关的感知,一个在较低的信号级别的领域无关的特征是关键.提出Widar3.0,主要为了在较低的信号级别推导和估计手势的速度分布.开发了一个只需一次训练但是可以适应不同数据领域的模 ...

  7. Gesture Recognition Dataset: Jester 数据集解压

    1. 官方说明 The Jester gesture recognition dataset includes 148,092 labeled video clips of humans perfor ...

  8. ❀论文篇❀EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege’s Principle论文翻译

    情绪识别论文:EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's Principle 论文地址:https://a ...

  9. Whole-Home Gesture Recognition Using Wireless Signals 论文阅读

    由华盛顿大学在2013年发表的Whole-Home Gesture Recognition Using Wireless Signals,曾获得Mobicom2013的最佳论文.这篇文章提出了一个Wi ...

最新文章

  1. 单链表的建立、排序和翻转
  2. css笔记 - transition学习笔记(二)
  3. Python基础教程:字符串中split与rsplit的方法原理教程
  4. DateTime.Now.Ticks.ToString()说明
  5. 西北纺织工学院97级计算机系学生毕业名单,原西北纺织工学院更名为西安工程大学...
  6. 问号在c语言中运算符,C# 运算符 ?、??、?: 各种问号的用法和说明
  7. python36安装numpy_安装numpy
  8. 养老金上涨后,退休老人每个月6500元的养老金,属于什么水平?
  9. [转载] python实现三角形面积计算
  10. 九小时九个人九扇门(01背包)
  11. 苹果手机截图的两种方法
  12. 分子动力学模拟-gromacs的基本使用
  13. kettle官方使用文档地址
  14. storm任务提交流程
  15. paddlepaddle波士顿房价预测
  16. ORA-01830: date format picture ends before converting entire input string的几种原因
  17. 博客中Java开发的软硬件环境
  18. docker安装了nacos,浏览器却无法访问到页面
  19. 一个程序员的减肥方法(男女通用); 饮食+运动
  20. 合上笔记本屏幕 Ubuntu 20.04 不休眠

热门文章

  1. 使用 parted 对单个磁盘进行分区并进行配额
  2. 一个简单的B站视频抽奖小程序
  3. 计算机键盘手指放置,键盘上手指放置的位置图
  4. vue中如何实现换肤?
  5. Windows7更改自己的计算机名,方便局域网内的用户识别
  6. 在html中调用QQ,MSN,旺旺,Skype,Email的方法
  7. 思科交换机冗余星形设计,附带sw1核心交换机配置
  8. socks+proxychains网络代理
  9. 春节购机如何选?老司机会告诉你买华为Mate 20 Pro
  10. SAP权限管理,我的理解