VALSE2019  王利民 南京大学

一、基于视频的时序建模和动作识别方法

当前视频行为识别主要是在三种场景:

  • In the Lab

  • In TV,Movies

  • In web videos

视频动作识别的机遇和挑战:

机遇:视觉信息提供了大量、丰富的数据用于视觉理解;动作是运动感知的核心且能够衍生许多视频理解的应用。

挑战:复杂的动态时序变化,动作的定义不明确,噪声和行人的弱标记信息,昂贵的计算资源和存储代价。

由于视频在图像的基础上增加了一维时序信息,王利民老师从短期(Short Term)、中期(Middle Term)、长期(Long Term)三个角度对视频的时序信息进行建模。首先,回顾了基于深度学习的视频行为识别主流方法,比如two-stream,C3D,SlowFast Network。

然后,王老师重点分享了其本人在视频行为识别的一些工作。主要包括:

  • 短期建模方法:Appearance-and-Relation Net(ARTNet)

  • 中期建模方法Temporal Segment Network—TSN

  • 长期建模方法(Untrimmed Net)

VALSE学习(十二):视频时序建模和动作识别相关推荐

  1. PyTorch框架学习十二——损失函数

    PyTorch框架学习十二--损失函数 一.损失函数的作用 二.18种常见损失函数简述 1.L1Loss(MAE) 2.MSELoss 3.SmoothL1Loss 4.交叉熵CrossEntropy ...

  2. OpenCV与图像处理学习十二——图像形状特征之HOG特征

    OpenCV与图像处理学习十二--图像形状特征之HOG特征 一.图像特征理解 1.1 颜色特征 1.2 纹理特征 1.3 形状特征 1.4 空间关系特征 二.形状特征描述 2.1 HOG特征 2.1. ...

  3. (转)SpringMVC学习(十二)——SpringMVC中的拦截器

    http://blog.csdn.net/yerenyuan_pku/article/details/72567761 SpringMVC的处理器拦截器类似于Servlet开发中的过滤器Filter, ...

  4. 【FastAPI 学习十二】定时任务篇 (移步博客园或个人网站 无广告,界面清爽整洁)

    声明 目前个人放弃CSDN平台,文章只发布于个人网站和博客园 博客园地址 [FastAPI 学习十二]定时任务篇

  5. C1认证学习十二(网络拓扑)

    C1认证学习十二(网络拓扑) 任务背景 互联网是一个广义的概念,它泛指是一切通过网路连接在一起的计算机的集合,所以,若果只是局部观察,那就不能再说互联网是一个互联的了,那么,如果说对于一个公司来说,具 ...

  6. Js高级程序设计第三版学习(十二章)

                                  Js高级程序设计第三版学习(十二章) 第十二章 DOM2和DOM3   1.样式: 访问样式属性 任何支持style特性的HTML元素都有一 ...

  7. MATLAB与深度学习(二)— 训练神经网络(图像分类识别)

    MATLAB与深度学习(二)- 训练神经网络(图像分类识别) 上一篇,我们介绍了与深度学习相关的MATLAB工具包.这一篇,我们将介绍如何训练神经网络和相关的基础知识.本文借鉴和引用了网上许多前辈的经 ...

  8. Android OpenGL ES 学习(十二) - MediaCodec + OpenGL 解析H264视频+滤镜

    OpenGL 学习教程 Android OpenGL ES 学习(一) – 基本概念 Android OpenGL ES 学习(二) – 图形渲染管线和GLSL Android OpenGL ES 学 ...

  9. linux中ftp的工作原理,Linux系统学习 十二、VSFTP服务—简介与原理

    1.简介与原理 互联网诞生之初就存在三大服务:WWW.FTP.邮件 FTP主要针对企业级,可以设置权限,对不同等级的资料针对不同权限人员显示. 但是像网盘这样的基本没有权限划分. 简介: FTP(Fi ...

最新文章

  1. WPF的消息机制(二)- WPF内部的5个窗口之隐藏消息窗口
  2. Altium Designer旋转PCB、PCB中绕某点旋转
  3. delphi获取闲置时间
  4. # JavaScript中的执行上下文和队列(栈)的关系?
  5. elif else if oracle_关于Oracle if elsif else
  6. project 模板_施工进度横道图不会做?18份计划模板收藏好,输入参数迅速成图...
  7. 漫谈CGI FastCGI WSGI
  8. 【Flink】Flink CancellationException null DefaultExecutionGraphCache LeaderRetrievalHandler
  9. Centos7 安装python3.7.0
  10. mysql 大表查询慢_mysql大表查询慢怎么优化?
  11. 如何避免ASP.NET网页初次加载缓慢
  12. 嵌入式linux地图,基于嵌入式Linux的MapInfo格式地图显示
  13. [C#/DevExpress]VS2010使用CefSharp调用Chrome内核打开网页
  14. maven 打包命令
  15. c语言中的汉字编码,【C语言学习】C语言汉字编码。。。C语言中汉字的输入
  16. Java实现论坛系统
  17. 基于Modelingtoolkit的管网组件(Julia)
  18. pc服务器是微型计算机吗,pc和主机的区别是什么?
  19. 基于SYN7318 语音识别的智能家居嵌入式控制系统设计与开发
  20. 全班抽签java程序

热门文章

  1. 全文搜索引擎 Elasticsearch 安装
  2. Javascript第六章JavaScript用new创建对象第一课
  3. Spring框架IOC容器,依赖注入,控制反转
  4. c语言fopen函数读dat文件,C语言 从a.dat文件读入数据存入b.dat文件里面(以字符形式)...
  5. vue实现增删改查功能
  6. 牛客JS编程大题(一)
  7. HDU 3449 Consumer
  8. 第二十节,使用RNN网络拟合回声信号序列
  9. hdu 4609 3-idiots(FFT计数)
  10. LeetCode Closest Binary Search Tree Value II