基于视频理解TSM和数据集Kinetics-400的视频行为识别
基于视频理解TSM和数据集Kinetics-400的视频行为识别
基于视频理解TSM和数据集Kinetics-400的视频行为分类
基于视频理解TSM-mobilenetv2和数据集Kinetics-400的视频行为识别
基于视频理解TSM-resnet50和数据集Kinetics-400的视频行为识别
基于视频理解TSM-resnet101和数据集Kinetics-400的视频行为识别
论文下载:TSM: Temporal Shift Module for Efficient Video Understanding
# TSM: Temporal Shift Module for Efficient Video Understanding [[Website]](https://hanlab.mit.edu/projects/tsm/) [[arXiv]](https://arxiv.org/abs/1811.08383)[[Demo]](https://www.youtube.com/watch?v=0T6u7S_gq-4)
TSM,修改后代码下载:下载链接
这个数据集包括了四百种的人体动作类别,每一种类别都至少有400个视频片段,每个片段都取自不同的Youtube视频,持续大概十秒。数据集的动作类别包括人和物体的交互-比如弹奏乐器;人与人的交互-比如握手。
花了好久整理了 Kinetics数据集,
百度网盘下载地址:下载地址
识别demo:
Kinetics-400数据集抽取:生成category.txt、train_videofolder.txt和val_videofolder.txt,以jester-bn-v20为例
import os
data_dir = "/Users/xxx/Data/20bn-jester-v1/20bn-jester-v1/"
if __name__ == '__main__':dataset_name = '/Users/xxx/Data/20bn-jester-v1/jester-v1'with open('%s-labels.csv' % dataset_name) as f:lines = f.readlines()categories = []for line in lines:line = line.rstrip()categories.append(line)categories = sorted(categories)with open('20bn-jester-v1/category.txt', 'w') as f:f.write('\n'.join(categories))dict_categories = {}for i, category in enumerate(categories):dict_categories[category] = ifiles_input = ['%s-validation.csv' % dataset_name, '%s-train.csv' % dataset_name]files_output = ['20bn-jester-v1/val_videofolder.txt', '20bn-jester-v1/train_videofolder.txt']for (filename_input, filename_output) in zip(files_input, files_output):with open(filename_input) as f:lines = f.readlines()folders = []idx_categories = []for line in lines:line = line.rstrip()items = line.split(';')folders.append(items[0])idx_categories.append(dict_categories[items[1]])output = []for i in range(len(folders)):curFolder = folders[i]curIDX = idx_categories[i]# counting the number of frames in each video foldersdir_files = os.listdir(os.path.join(data_dir, curFolder))output.append('%s %d %d' % (data_dir + curFolder, len(dir_files), curIDX))print('%d/%d' % (i, len(folders)))with open(filename_output, 'w') as f:f.write('\n'.join(output))
运行修改后的TSM源码:修改数据集配置选项ops/dataset_config.py和基于mobilenet-v2中运行中出现的bug。
python main.py jester RGB \--arch mobilenetv2 --num_segments 8 \--gd 20 --lr 0.02 --wd 1e-4 --lr_steps 20 40 --epochs 1 \--batch-size 32 -j 16 --dropout 0.5 --consensus_type=avg --eval-freq=1 \--shift --shift_div=8 --shift_place=blockres --npb
基于视频理解TSM和数据集Kinetics-400的视频行为识别相关推荐
- 基于视频理解TSM和数据集20bn-jester-v1的27类手势识别
基于视频理解TSM-mobilenetv2和数据集20bn-jester-v1的27类手势识别 基于视频理解TSM-resnet50和数据集20bn-jester-v1的27类手势识别 基于视频理解T ...
- 视频理解TSM的训练与使用
视频理解TSM的训练与使用 tsm的github地址 总体评价:tsm是一个理解不难但效果优秀的视频理解模型,在我的视频分类任务中,其效果基本达到了使用要求.相比我在github上跑通的其他模型,ts ...
- 【深度学习】更大规模的完整视频理解
译者:蓝燕子 声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 摘要 近年来,视频识别技术在具有丰富注释的基准中得到了发展.然而研究仍然主要限于人类的行动或运动的认识-集中在高度具体的. ...
- 深度学习时代的视频理解综述
深度学习时代的视频理解综述 本文为b站@bryanyzhu老师四期视频理解相关论文解读的汇总图文笔记. 我们先精读深度学习时代视频理解领域最为重要的两篇论文:双流网络和 I3D.它们分别是领域内两大类 ...
- 视频理解相关源码解析
文章目录 0. 前言 1. 综合项目总体对比 2. 分别介绍 2.1 MMAction2 2.2 SlowFast 2.3 PyTorchVideo 2.4 MMAction 2.5 PaddleVi ...
- Facebook开源算法代码库PySlowFast,轻松复现前沿视频理解模型
点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自机器之心. 在近些年的视频理解研究中,Facebook AI Research 贡献了许多精彩的工作.近日,FAIR视频团队在 ICCV 相关 ...
- 百度工程师漫谈视频理解
作者 | FesianXu 导读 AI算法已经渗入到了我们生活的方方面面,无论是购物推荐,广告推送,搜索引擎还是多媒体影音娱乐,都有AI算法的影子.作为多媒体中重要的信息载体,视频的地位可以说是数一数 ...
- 【赠书】新手速递!深度学习视频理解!
视频理解是当前计算机视觉研究领域中备受学术界和工业界关注的方向,随着视频行业的高速发展,如何利用 AI 技术更好地对视频内容进行理解变得越来越重要.今天要给大家介绍的书是<深度学习视频理解 ...
- 视频理解新方向:时域语言定位 综述
点击我爱计算机视觉标星,更快获取CVML新技术 本文原载于知乎,作者吴捷,目前于中山大学就读研究生.研究领域为计算机视觉与自然语言处理. 作者不仅综述了时域语言定位(Temporally Langua ...
最新文章
- 【Android 安全】DEX 加密 ( Java 工具开发 | 加密解密算法 API | 编译代理 Application 依赖库 | 解压依赖库 aar 文件 )
- 图的邻接矩阵存储和邻接表存储定义方法
- 月饼怎么吃才不胖,数据分析师教你选月饼
- MQ保证消息的可靠性传输
- 荣耀30会不会升级鸿蒙,荣耀手机不能升级鸿蒙吗?有博主给出升级名单
- Oracle Database Gateway 安装
- Python机器学习数据预处理:读取txt数据文件并切分为训练和测试数据集
- 水力压裂化学品行业调研报告 - 市场现状分析与发展前景预测
- 线段树入门 (zz)
- 永久关闭wps热点新闻的办法
- c语言单片机仿真keil,如何在keil中仿真stm32单片机
- 面试字节跳动后台开发(实习)
- 【每日随笔】记录完整的劳动仲裁过程 一 ( 赢火虫律师平台 | 赢火虫手机端跟进案件信息 | 等待律师接单 | 提交信息给律师 )
- ROG魔霸7Plus的CPU温度与 Armoury Crate 设置问题
- http authorization 基本认证
- virtualenv virtualenvwrapper
- 精美中文简历LaTex模板集锦
- 【无标题】C语言连续输出输入语句执行跳过的问题
- cdm 图片 转_powerdesign中将cdm转化为pdm
- 学python多大年龄可以学车_多大年龄才可以考驾照