基于视频理解TSM和数据集Kinetics-400的视频行为识别

基于视频理解TSM和数据集Kinetics-400的视频行为分类

基于视频理解TSM-mobilenetv2和数据集Kinetics-400的视频行为识别

基于视频理解TSM-resnet50和数据集Kinetics-400的视频行为识别

基于视频理解TSM-resnet101和数据集Kinetics-400的视频行为识别

论文下载：TSM: Temporal Shift Module for Efficient Video Understanding

# TSM: Temporal Shift Module for Efficient Video Understanding [[Website]](https://hanlab.mit.edu/projects/tsm/) [[arXiv]](https://arxiv.org/abs/1811.08383)[[Demo]](https://www.youtube.com/watch?v=0T6u7S_gq-4)
TSM，修改后代码下载：下载链接

这个数据集包括了四百种的人体动作类别，每一种类别都至少有400个视频片段，每个片段都取自不同的Youtube视频，持续大概十秒。数据集的动作类别包括人和物体的交互-比如弹奏乐器；人与人的交互-比如握手。

花了好久整理了 Kinetics数据集，

百度网盘下载地址：下载地址

识别demo:

Kinetics-400数据集抽取：生成category.txt、train_videofolder.txt和val_videofolder.txt，以jester-bn-v20为例

import os
data_dir = "/Users/xxx/Data/20bn-jester-v1/20bn-jester-v1/"
if __name__ == '__main__':dataset_name = '/Users/xxx/Data/20bn-jester-v1/jester-v1'with open('%s-labels.csv' % dataset_name) as f:lines = f.readlines()categories = []for line in lines:line = line.rstrip()categories.append(line)categories = sorted(categories)with open('20bn-jester-v1/category.txt', 'w') as f:f.write('\n'.join(categories))dict_categories = {}for i, category in enumerate(categories):dict_categories[category] = ifiles_input = ['%s-validation.csv' % dataset_name, '%s-train.csv' % dataset_name]files_output = ['20bn-jester-v1/val_videofolder.txt', '20bn-jester-v1/train_videofolder.txt']for (filename_input, filename_output) in zip(files_input, files_output):with open(filename_input) as f:lines = f.readlines()folders = []idx_categories = []for line in lines:line = line.rstrip()items = line.split(';')folders.append(items[0])idx_categories.append(dict_categories[items[1]])output = []for i in range(len(folders)):curFolder = folders[i]curIDX = idx_categories[i]# counting the number of frames in each video foldersdir_files = os.listdir(os.path.join(data_dir, curFolder))output.append('%s %d %d' % (data_dir + curFolder, len(dir_files), curIDX))print('%d/%d' % (i, len(folders)))with open(filename_output, 'w') as f:f.write('\n'.join(output))

运行修改后的TSM源码：修改数据集配置选项ops/dataset_config.py和基于mobilenet-v2中运行中出现的bug。

  python main.py jester RGB \--arch mobilenetv2 --num_segments 8 \--gd 20 --lr 0.02 --wd 1e-4 --lr_steps 20 40 --epochs 1 \--batch-size 32 -j 16 --dropout 0.5 --consensus_type=avg --eval-freq=1 \--shift --shift_div=8 --shift_place=blockres --npb

基于视频理解TSM和数据集Kinetics-400的视频行为识别相关推荐

基于视频理解TSM和数据集20bn-jester-v1的27类手势识别
基于视频理解TSM-mobilenetv2和数据集20bn-jester-v1的27类手势识别基于视频理解TSM-resnet50和数据集20bn-jester-v1的27类手势识别基于视频理解T ...
视频理解TSM的训练与使用
视频理解TSM的训练与使用 tsm的github地址总体评价:tsm是一个理解不难但效果优秀的视频理解模型,在我的视频分类任务中,其效果基本达到了使用要求.相比我在github上跑通的其他模型,ts ...
【深度学习】更大规模的完整视频理解
译者:蓝燕子声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 摘要近年来,视频识别技术在具有丰富注释的基准中得到了发展.然而研究仍然主要限于人类的行动或运动的认识-集中在高度具体的. ...
深度学习时代的视频理解综述
深度学习时代的视频理解综述本文为b站@bryanyzhu老师四期视频理解相关论文解读的汇总图文笔记. 我们先精读深度学习时代视频理解领域最为重要的两篇论文:双流网络和 I3D.它们分别是领域内两大类 ...
视频理解相关源码解析
文章目录 0. 前言 1. 综合项目总体对比 2. 分别介绍 2.1 MMAction2 2.2 SlowFast 2.3 PyTorchVideo 2.4 MMAction 2.5 PaddleVi ...
Facebook开源算法代码库PySlowFast，轻松复现前沿视频理解模型
点击我爱计算机视觉标星,更快获取CVML新技术本文转载自机器之心. 在近些年的视频理解研究中,Facebook AI Research 贡献了许多精彩的工作.近日,FAIR视频团队在 ICCV 相关 ...
百度工程师漫谈视频理解
作者 | FesianXu 导读 AI算法已经渗入到了我们生活的方方面面,无论是购物推荐,广告推送,搜索引擎还是多媒体影音娱乐,都有AI算法的影子.作为多媒体中重要的信息载体,视频的地位可以说是数一数 ...
【赠书】新手速递！深度学习视频理解！
‍‍ 视频理解是当前计算机视觉研究领域中备受学术界和工业界关注的方向,随着视频行业的高速发展,如何利用 AI 技术更好地对视频内容进行理解变得越来越重要.今天要给大家介绍的书是<深度学习视频理解 ...
视频理解新方向：时域语言定位综述
点击我爱计算机视觉标星,更快获取CVML新技术本文原载于知乎,作者吴捷,目前于中山大学就读研究生.研究领域为计算机视觉与自然语言处理. 作者不仅综述了时域语言定位(Temporally Langua ...

基于视频理解TSM和数据集Kinetics-400的视频行为识别

基于视频理解TSM和数据集Kinetics-400的视频行为识别

基于视频理解TSM和数据集Kinetics-400的视频行为分类

基于视频理解TSM-mobilenetv2和数据集Kinetics-400的视频行为识别

基于视频理解TSM-resnet50和数据集Kinetics-400的视频行为识别

基于视频理解TSM-resnet101和数据集Kinetics-400的视频行为识别

论文下载：TSM: Temporal Shift Module for Efficient Video Understanding

这个数据集包括了四百种的人体动作类别，每一种类别都至少有400个视频片段，每个片段都取自不同的Youtube视频，持续大概十秒。数据集的动作类别包括人和物体的交互-比如弹奏乐器；人与人的交互-比如握手。

基于视频理解TSM和数据集Kinetics-400的视频行为识别相关推荐

最新文章

热门文章