Representation Flow for Action Recognition论文解读
Representation Flow for Action Recognition论文解读
1 简介
这是2019 CVPR视频动作识别领域的最新论文,出自印第安纳大学的AJ Piergiovanni 和 Michael S. Ryoo之手。
文章受光流算法启发提出可以学习运动表征的表示流卷积层,该表示流层对于光流迭代的优化的所有参数都可以通过和其他卷积网络一起进行end-to-end的学习得到,并且实现了动作识别性能的提升。
文章也通过叠加多重表示流层,提出了FOF(flow of flow)、FCF(flow-conv-flow)的概念。
实验表明,本文提出的表示流实现了计算速度和性能的最优。
2 详情
2.1 背景
之前双流法(Two Stream)中光流的计算量太大,每帧通常需要成百上千次优化迭代;同时学习两个分开的CNN流,使得计算量巨大且要学的参数量也巨大,限制了实时性;
2.2 光流介绍
光流是Gibson在1950年首先提出来的。
它是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。
简单来说,光流是空间运动物体在观测成像平面上的像素运动的“瞬时速度”。光流的研究是利用图像序列中的像素强度数据的时域变化和相关性来确定各自像素位置的“运动”。研究光流场的目的就是为了从图片序列中近似得到不能直接得到的运动场。
在运动微小的前提下,利用泰勒公式展开:
当Δt足够小,趋近于0时有:
这便是光流约束方程。
2.3 TV-L1求光流
其中theta、tao、lamda等参数都是人工手动设置的。初始化u=0,通过成百上千次迭代,最终求出u,进而获得运动信息。
2.4 Representation flow方法
算法和TV-L1算法基本一致,但是参数可由网络学习得到。
其中梯度通过Sobel 算子求出,直接用特征图和Sobel滤波器相乘即可:
2.5 Representation flow方法和TV-L1对比
1)Representation flow只使用单一的尺度,而TV-L1使用多重尺度;
2)Representation flow不使用任何的warp;
3)Representation flow在更小空间尺寸的CNN tensor上计算光流;
3 实验过程
实验表明,在ResNet的Block3之后计算Representation flow效果最好。
实验表明,只学习Divergence、tao、lanmda、theta时效果最好。
实验表明,传统的TV-L1方法效果随着迭代次数的增加,效果越来越好。但是Representation flow迭代次数100次效果反而不如50次,同时20次和50次差别不大,所以出于计算成本的考虑选用20次迭代。
4 实验结果
与其它state-of-the-art方法相比,Representation flow实现了性能和计算速度的最优。
参考原论文:https://arxiv.org/abs/1810.01455
推荐阅读:
视频动作识别调研:https://blog.csdn.net/qq_41590635/article/details/101478277
视频动作检测最新发展调研:https://blog.csdn.net/qq_41590635/article/details/101553059
Representation Flow for Action Recognition论文解读相关推荐
- 百度飞桨顶会论文复现(5):视频分类论文之《Representation Flow for Action Recognition》篇
这次老师在课上总共领读了4篇分类论文,我这里分享其中的一篇论文,是关于使用神经网络对光流进行学习. 课程地址是:https://aistudio.baidu.com/aistudio/educatio ...
- Representation Flow for Action Recognition —— 翻译
Representation Flow for Action Recognition -- 翻译 Abstract 摘要 1 Introduction 简介 2 Related Works 相关工作 ...
- A Comprehensive Study of Deep Video Action Recognition 论文笔记
A Comprehensive Study of Deep Video Action Recognition 论文链接: https://arxiv.org/abs/2012.06567 一. Pro ...
- DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition 论文赏析
DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition 论文赏析 前言 ...
- GST: Grouped Spatial-Temporal Aggregation for Efficient Action Recognition 论文阅读
Grouped Spatial-Temporal Aggregation for Efficient Action Recognition 要解决的问题:作者对比了Kinetic和Diving48这两 ...
- Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition 翻译
光流引导特征:视频动作识别的快速鲁棒运动表示 项目地址:https://github.com/kevin-ssy/Optical-Flow-Guided-Feature 摘要 运动表示在视频中的人类动 ...
- Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记
论文笔记 1 引子 在本文中,我们提出了一种新颖的协作时空(CoST)特征学习操作,它与权重共享共同学习时空特征. 给定3D体积视频张量,我们通过从不同角度观看它们,将其展平为三组2D图像. ...
- 论文笔记【A Comprehensive Study of Deep Video Action Recognition】
论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...
- 读书笔记22:Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recogni
文章题目:Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recogniti ...
最新文章
- jquery form 的beforeSubmit提交前的回调函数
- Graphviz之DT:手把手教你使用可视化工具Graphviz将dot文件转为结构图的png文件
- ubuntu20.04安装讯飞输入法(失败经历)
- .NET Core 2.1中的分层编译(预览)
- 西北民族大学c语言程序设计复试科目,2016年西北民族大学中国民族信息技术研究院962C语言程序设计复试笔试仿真模拟题...
- Web Deploy 发布网站错误 检查授权和委派设置
- 装CGAL与解决QWidget: Must construct a QApplication before a QPaintDevice. 问题
- ubuntu卸载vmware player
- cad快看_CAD中遇到文件损坏,别着急,这几招能帮你挽回损失
- R语言机器学习xgboost实例,油管上的关于xgboost的例子
- 元的符号在计算机怎么打出来,告诉你电脑上特殊符号怎么打出来?
- VS2019官方下载地址
- 寻找丢失的iexplore进程
- 解决 win7 不支持此接口 问题
- 【传感器大赏】压电薄膜震动传感器
- 物联网时代数据数据库如何选型?
- mysql 别名_MySQL 字段别名(列别名)
- iOS10新特性——————陈Hong鑫
- pdf书籍规范页码编排
- 五类、超五类、六类跳线
热门文章
- Request介绍及演示样例 PART1
- java知识总结-25
- 学习HTML的第二次课
- yii2-更改默认显示的通用主页
- QT4.7.3在dm6446平台上的移植[转]--make[1]: *** [assistant_cs.qm] Error 2
- 不用担心越界,不用中间变量的数值交换
- lua学习笔记(三)
- LCA SP913 QTREE2 - Query on a tree II
- 卸载loadrunner
- 数据结构学习笔记(树、二叉树)