基于视频理解TSM-mobilenetv2和数据集20bn-jester-v1的27类手势识别

基于视频理解TSM-resnet50和数据集20bn-jester-v1的27类手势识别

基于视频理解TSM-resnet101和数据集20bn-jester-v1的27类手势识别

论文下载:TSM: Temporal Shift Module for Efficient Video Understanding

# TSM: Temporal Shift Module for Efficient Video Understanding [[Website]](https://hanlab.mit.edu/projects/tsm/) [[arXiv]](https://arxiv.org/abs/1811.08383)[[Demo]](https://www.youtube.com/watch?v=0T6u7S_gq-4)
一键运行TSM,修改后代码下载:下载链接

20bn-jester-v1数据集百度网盘下载:下载链接

识别demo:

手势类型:Doing other things,Drumming Fingers,No gesture,Pulling Hand In,Pulling Two Fingers In,Pushing Hand Away,Pushing Two Fingers Away,Rolling Hand Backward
Rolling Hand Forward,Shaking Hand,Sliding Two Fingers Down,Sliding Two Fingers Left,Sliding Two Fingers Right,Sliding Two Fingers Up,Stop Sign,Swiping Down
Swiping Left,Swiping Right,Swiping Up,Thumb Down,Thumb Up,Turning Hand Clockwise,Turning Hand Counterclockwise,Zooming In With Full Hand,Zooming In With Two Fingers
Zooming Out With Full Hand,Zooming Out With Two Fingers。

20bn-jester-v1数据集解压:生成可训练的视频帧。

cat 20bn-jester-v1-?? | tar zx

20bn-jester-v1数据集抽取:生成category.txt、train_videofolder.txt和val_videofolder.txt

import os
data_dir = "/Users/xxx/Data/20bn-jester-v1/20bn-jester-v1/"
if __name__ == '__main__':dataset_name = '/Users/xxx/Data/20bn-jester-v1/jester-v1'with open('%s-labels.csv' % dataset_name) as f:lines = f.readlines()categories = []for line in lines:line = line.rstrip()categories.append(line)categories = sorted(categories)with open('20bn-jester-v1/category.txt', 'w') as f:f.write('\n'.join(categories))dict_categories = {}for i, category in enumerate(categories):dict_categories[category] = ifiles_input = ['%s-validation.csv' % dataset_name, '%s-train.csv' % dataset_name]files_output = ['20bn-jester-v1/val_videofolder.txt', '20bn-jester-v1/train_videofolder.txt']for (filename_input, filename_output) in zip(files_input, files_output):with open(filename_input) as f:lines = f.readlines()folders = []idx_categories = []for line in lines:line = line.rstrip()items = line.split(';')folders.append(items[0])idx_categories.append(dict_categories[items[1]])output = []for i in range(len(folders)):curFolder = folders[i]curIDX = idx_categories[i]# counting the number of frames in each video foldersdir_files = os.listdir(os.path.join(data_dir, curFolder))output.append('%s %d %d' % (data_dir + curFolder, len(dir_files), curIDX))print('%d/%d' % (i, len(folders)))with open(filename_output, 'w') as f:f.write('\n'.join(output))

运行修改后的TSM源码:修改数据集配置选项ops/dataset_config.py和基于mobilenet-v2中运行中出现的bug。

  python main.py jester RGB \--arch mobilenetv2 --num_segments 8 \--gd 20 --lr 0.02 --wd 1e-4 --lr_steps 20 40 --epochs 1 \--batch-size 32 -j 16 --dropout 0.5 --consensus_type=avg --eval-freq=1 \--shift --shift_div=8 --shift_place=blockres --npb

基于视频理解TSM和数据集20bn-jester-v1的27类手势识别相关推荐

  1. 基于视频理解TSM和数据集Kinetics-400的视频行为识别

    基于视频理解TSM和数据集Kinetics-400的视频行为识别 基于视频理解TSM和数据集Kinetics-400的视频行为分类 基于视频理解TSM-mobilenetv2和数据集Kinetics- ...

  2. 视频理解TSM的训练与使用

    视频理解TSM的训练与使用 tsm的github地址 总体评价:tsm是一个理解不难但效果优秀的视频理解模型,在我的视频分类任务中,其效果基本达到了使用要求.相比我在github上跑通的其他模型,ts ...

  3. (arxiv-2018) 重新审视基于视频的 Person ReID 的时间建模

    重新审视基于视频的 Person ReID 的时间建模 paper题目:Revisiting Temporal Modeling for Video-based Person ReID paper是南 ...

  4. 【视频理解论文】——TSM:Temporal Shift Module for Efficient Video Understanding

    TSM: Temporal Shift Module for Efficient Video Understanding(ICCV2019) 这是一篇关于视频理解的文章,主要介绍了一种可以达到3DCN ...

  5. 无需卷积,完全基于Transformer的首个视频理解架构TimeSformer出炉

    选自Facebook AI 机器之心编译 编辑:小舟.陈萍 Facebook AI 提出新型视频理解架构:完全基于Transformer,无需卷积,训练速度快.计算成本低. TimeSformer 是 ...

  6. 重磅开源!首个基于Transformer的视频理解网络来啦!

    部分转载自:机器之心  |  编辑:小舟.陈萍 Facebook AI 提出新型视频理解架构:完全基于Transformer,无需卷积,训练速度快.计算成本低.最近由Facebook提出的首个完全基于 ...

  7. 自动分类打标签!飞桨TSM模型帮你做视频理解

    导读:目前互联网视频数据日益增多,用户观看短视频.小视频的时长也迅速增长,如何对海量的视频资源快速准确地分析.处理.归类是一个亟待解决的问题.视频理解技术可以多维度解析视频内容,理解视频语义,自动分类 ...

  8. ​MMIT冠军方案 | 用于行为识别的时间交错网络,商汤公开视频理解代码库

    作者 | 商汤 出品 | AI科技大本营(ID:rgznai100) 本文主要介绍三个部分: 一个高效的SOTA视频特征提取网络TIN,发表于AAAI2020 ICCV19 MMIT多标签视频理解竞赛 ...

  9. AAAI 2020 时间交错网络 | ICCV19多标签视频理解冠军方案

    本文主要介绍三个部分: 一个高效的 SOTA 视频特征提取网络 TIN,发表于 AAAI 2020 ICCV19 MMIT 多标签视频理解竞赛冠军方案,基于 TIN 和 SlowFast 一个基于 P ...

最新文章

  1. java data jpa_Spring Data JPA(一)简介
  2. 判断输入的IP地址是否合法
  3. sqlserver 2008阻止保存要求重新创建表的更改
  4. Triumph X与K-Hyundai美术馆将于今年4月推出现代美术NFT
  5. hive join 数据倾斜 真实案例
  6. BZOJ2716[Violet] 天使玩偶/SJY摆棋子
  7. 第三届“传智杯”全国大学生IT技能大赛(初赛B组)
  8. 专家称米粒倒闭是个案 不必大惊小怪
  9. groovy java to swift_groovy数据类型 - Groovy教程
  10. windows 如何录制电脑自身内部的声音,无需 (Stereo mix )立体声混合选项
  11. 【神通数据库】图形化界面安装、命令行安装、静默安装、命令行建数据库、日常维护(超详细)
  12. 108个Mac电脑快捷键大全
  13. 嗅探技术---网络安全入门笔记DAY5
  14. 【云计算OpenStack-OpenStack Queens版本-遇错】基于OpenStack的云计算环境搭建
  15. 苹果手机换电池对手机有影响吗_网上预约手机上门换电池可靠吗?官方回应:售后也这么换!...
  16. 快速学习-帕特里夏树
  17. 欢迎大家关注博主微信公众号
  18. CTFHUB log
  19. HDU 1728 逃离迷宫(BFS的优化)
  20. I/O流(包括操作系统与内核,用户空间),I/O工作原理,Java I/O流的设计及Java IO系统

热门文章

  1. Android 白天/夜间模式切换
  2. markdown 基本语法
  3. 第二篇:智能电网(Smart Grid)中的数据工程与大数据案例分析
  4. 读书笔记:编写高质量代码--web前端开发修炼之道(二:5章)
  5. swing 圆角按钮_JFrame实现圆角窗体
  6. ad域不去用frs_年轻人就是不喜欢喝茶?那就用高级时尚的茶包装去吸引
  7. 服务器温度3d显示,智能问答助手、3D可视化展示,腾讯医典“黑科技”助力科普更有温度...
  8. sql server 2008连接oracle操作步骤详细记录,SQLServer连接Oracle详细步骤
  9. php的运算符实践输入年份,[php第四课]运算符
  10. python mysql gcc_MySQL-python “error: command 'gcc' failed with exit status 1”错误