VALSE学习(十二):视频时序建模和动作识别
VALSE2019 王利民 南京大学
一、基于视频的时序建模和动作识别方法
当前视频行为识别主要是在三种场景:
In the Lab
In TV,Movies
In web videos
视频动作识别的机遇和挑战:
机遇:视觉信息提供了大量、丰富的数据用于视觉理解;动作是运动感知的核心且能够衍生许多视频理解的应用。
挑战:复杂的动态时序变化,动作的定义不明确,噪声和行人的弱标记信息,昂贵的计算资源和存储代价。
由于视频在图像的基础上增加了一维时序信息,王利民老师从短期(Short Term)、中期(Middle Term)、长期(Long Term)三个角度对视频的时序信息进行建模。首先,回顾了基于深度学习的视频行为识别主流方法,比如two-stream,C3D,SlowFast Network。
然后,王老师重点分享了其本人在视频行为识别的一些工作。主要包括:
短期建模方法:Appearance-and-Relation Net(ARTNet)
中期建模方法Temporal Segment Network—TSN
长期建模方法(Untrimmed Net)
VALSE学习(十二):视频时序建模和动作识别相关推荐
- PyTorch框架学习十二——损失函数
PyTorch框架学习十二--损失函数 一.损失函数的作用 二.18种常见损失函数简述 1.L1Loss(MAE) 2.MSELoss 3.SmoothL1Loss 4.交叉熵CrossEntropy ...
- OpenCV与图像处理学习十二——图像形状特征之HOG特征
OpenCV与图像处理学习十二--图像形状特征之HOG特征 一.图像特征理解 1.1 颜色特征 1.2 纹理特征 1.3 形状特征 1.4 空间关系特征 二.形状特征描述 2.1 HOG特征 2.1. ...
- (转)SpringMVC学习(十二)——SpringMVC中的拦截器
http://blog.csdn.net/yerenyuan_pku/article/details/72567761 SpringMVC的处理器拦截器类似于Servlet开发中的过滤器Filter, ...
- 【FastAPI 学习十二】定时任务篇 (移步博客园或个人网站 无广告,界面清爽整洁)
声明 目前个人放弃CSDN平台,文章只发布于个人网站和博客园 博客园地址 [FastAPI 学习十二]定时任务篇
- C1认证学习十二(网络拓扑)
C1认证学习十二(网络拓扑) 任务背景 互联网是一个广义的概念,它泛指是一切通过网路连接在一起的计算机的集合,所以,若果只是局部观察,那就不能再说互联网是一个互联的了,那么,如果说对于一个公司来说,具 ...
- Js高级程序设计第三版学习(十二章)
Js高级程序设计第三版学习(十二章) 第十二章 DOM2和DOM3 1.样式: 访问样式属性 任何支持style特性的HTML元素都有一 ...
- MATLAB与深度学习(二)— 训练神经网络(图像分类识别)
MATLAB与深度学习(二)- 训练神经网络(图像分类识别) 上一篇,我们介绍了与深度学习相关的MATLAB工具包.这一篇,我们将介绍如何训练神经网络和相关的基础知识.本文借鉴和引用了网上许多前辈的经 ...
- Android OpenGL ES 学习(十二) - MediaCodec + OpenGL 解析H264视频+滤镜
OpenGL 学习教程 Android OpenGL ES 学习(一) – 基本概念 Android OpenGL ES 学习(二) – 图形渲染管线和GLSL Android OpenGL ES 学 ...
- linux中ftp的工作原理,Linux系统学习 十二、VSFTP服务—简介与原理
1.简介与原理 互联网诞生之初就存在三大服务:WWW.FTP.邮件 FTP主要针对企业级,可以设置权限,对不同等级的资料针对不同权限人员显示. 但是像网盘这样的基本没有权限划分. 简介: FTP(Fi ...
最新文章
- WPF的消息机制(二)- WPF内部的5个窗口之隐藏消息窗口
- Altium Designer旋转PCB、PCB中绕某点旋转
- delphi获取闲置时间
- # JavaScript中的执行上下文和队列(栈)的关系?
- elif else if oracle_关于Oracle if elsif else
- project 模板_施工进度横道图不会做?18份计划模板收藏好,输入参数迅速成图...
- 漫谈CGI FastCGI WSGI
- 【Flink】Flink CancellationException null DefaultExecutionGraphCache LeaderRetrievalHandler
- Centos7 安装python3.7.0
- mysql 大表查询慢_mysql大表查询慢怎么优化?
- 如何避免ASP.NET网页初次加载缓慢
- 嵌入式linux地图,基于嵌入式Linux的MapInfo格式地图显示
- [C#/DevExpress]VS2010使用CefSharp调用Chrome内核打开网页
- maven 打包命令
- c语言中的汉字编码,【C语言学习】C语言汉字编码。。。C语言中汉字的输入
- Java实现论坛系统
- 基于Modelingtoolkit的管网组件(Julia)
- pc服务器是微型计算机吗,pc和主机的区别是什么?
- 基于SYN7318 语音识别的智能家居嵌入式控制系统设计与开发
- 全班抽签java程序
热门文章
- 全文搜索引擎 Elasticsearch 安装
- Javascript第六章JavaScript用new创建对象第一课
- Spring框架IOC容器,依赖注入,控制反转
- c语言fopen函数读dat文件,C语言 从a.dat文件读入数据存入b.dat文件里面(以字符形式)...
- vue实现增删改查功能
- 牛客JS编程大题(一)
- HDU 3449 Consumer
- 第二十节,使用RNN网络拟合回声信号序列
- hdu 4609 3-idiots(FFT计数)
- LeetCode Closest Binary Search Tree Value II