Representation Flow for Action Recognition论文解读

Representation Flow for Action Recognition论文解读
1 简介

这是2019 CVPR视频动作识别领域的最新论文，出自印第安纳大学的AJ Piergiovanni 和 Michael S. Ryoo之手。

文章受光流算法启发提出可以学习运动表征的表示流卷积层，该表示流层对于光流迭代的优化的所有参数都可以通过和其他卷积网络一起进行end-to-end的学习得到，并且实现了动作识别性能的提升。

文章也通过叠加多重表示流层，提出了FOF(flow of flow)、FCF(flow-conv-flow)的概念。

实验表明，本文提出的表示流实现了计算速度和性能的最优。

2 详情

2.1 背景

之前双流法(Two Stream)中光流的计算量太大，每帧通常需要成百上千次优化迭代；同时学习两个分开的CNN流，使得计算量巨大且要学的参数量也巨大，限制了实时性；

2.2 光流介绍

光流是Gibson在1950年首先提出来的。

它是空间运动物体在观察成像平面上的像素运动的瞬时速度，是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。

简单来说，光流是空间运动物体在观测成像平面上的像素运动的“瞬时速度”。光流的研究是利用图像序列中的像素强度数据的时域变化和相关性来确定各自像素位置的“运动”。研究光流场的目的就是为了从图片序列中近似得到不能直接得到的运动场。

在运动微小的前提下，利用泰勒公式展开：

当Δt足够小，趋近于0时有：

这便是光流约束方程。

2.3 TV-L1求光流

其中theta、tao、lamda等参数都是人工手动设置的。初始化u=0，通过成百上千次迭代，最终求出u，进而获得运动信息。

2.4 Representation flow方法

算法和TV-L1算法基本一致，但是参数可由网络学习得到。

其中梯度通过Sobel 算子求出，直接用特征图和Sobel滤波器相乘即可：

2.5 Representation flow方法和TV-L1对比

1)Representation flow只使用单一的尺度，而TV-L1使用多重尺度；

2)Representation flow不使用任何的warp；

3)Representation flow在更小空间尺寸的CNN tensor上计算光流；

3 实验过程

实验表明，在ResNet的Block3之后计算Representation flow效果最好。

实验表明，只学习Divergence、tao、lanmda、theta时效果最好。

实验表明，传统的TV-L1方法效果随着迭代次数的增加，效果越来越好。但是Representation flow迭代次数100次效果反而不如50次，同时20次和50次差别不大，所以出于计算成本的考虑选用20次迭代。

4 实验结果

与其它state-of-the-art方法相比，Representation flow实现了性能和计算速度的最优。

参考原论文：https://arxiv.org/abs/1810.01455

推荐阅读：

视频动作识别调研：https://blog.csdn.net/qq_41590635/article/details/101478277

视频动作检测最新发展调研：https://blog.csdn.net/qq_41590635/article/details/101553059

Representation Flow for Action Recognition论文解读相关推荐

百度飞桨顶会论文复现（5）：视频分类论文之《Representation Flow for Action Recognition》篇
这次老师在课上总共领读了4篇分类论文,我这里分享其中的一篇论文,是关于使用神经网络对光流进行学习. 课程地址是:https://aistudio.baidu.com/aistudio/educatio ...
Representation Flow for Action Recognition —— 翻译
Representation Flow for Action Recognition -- 翻译 Abstract 摘要 1 Introduction 简介 2 Related Works 相关工作 ...
A Comprehensive Study of Deep Video Action Recognition 论文笔记
A Comprehensive Study of Deep Video Action Recognition 论文链接: https://arxiv.org/abs/2012.06567 一. Pro ...
DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition 论文赏析
DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition 论文赏析前言 ...
GST: Grouped Spatial-Temporal Aggregation for Efficient Action Recognition 论文阅读
Grouped Spatial-Temporal Aggregation for Efficient Action Recognition 要解决的问题:作者对比了Kinetic和Diving48这两 ...
Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition 翻译
光流引导特征:视频动作识别的快速鲁棒运动表示项目地址:https://github.com/kevin-ssy/Optical-Flow-Guided-Feature 摘要运动表示在视频中的人类动 ...
Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记
论文笔记 1 引子在本文中,我们提出了一种新颖的协作时空(CoST)特征学习操作,它与权重共享共同学习时空特征. 给定3D体积视频张量,我们通过从不同角度观看它们,将其展平为三组2D图像. ...
论文笔记【A Comprehensive Study of Deep Video Action Recognition】
论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...
读书笔记22：Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recogni
文章题目:Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recogniti ...

Representation Flow for Action Recognition论文解读

Representation Flow for Action Recognition论文解读相关推荐

最新文章

热门文章