这里写目录标题

视频的行为识别
前言
背景
内容组成
主要贡献
算法介绍
网络结构
- 双流（two stream）网络结构
- 空间流卷积网络(Spatial stream ConvNet)
- 时间流卷积网络（Temporal stream ConvNet）
- - 卷积网络的输入配置
  - 光流估计方法
  - - 光流的堆叠方式(optical flow stacking)
    - - 光流堆叠（Optical flow stacking
      - 轨迹堆叠（Trajectory stacking）
多任务学习
- 背景
- 解决
- 目的

论文地址：ttp://de.arxiv.org/pdf/1406.2199
论文：Two-Stream Convolutional Networks for Action Recognition in Videos

视频的行为识别

参考链接：
视频的行为识别
论文阅读笔记
使用DL方法解决视频中行为识别/动作识别的问题解决思路有三个分支：
分别是two-stream(双流)方法，C3D方法以及CNN-LSTM方法。

本文将从算法介绍、算法架构、参数配置、训练集预处理、算法优势及原因、运行结果六个方面对每种算法进行阐释，并对每一个分支的算法集合总结自己的心得。本文暂不区分行为识别(Activity Recognition)与动作识别(Action Recognition)。

前言

这一篇论文是动作检测中较早的一篇，阅读这篇论文有助于近几年最新论文的阅读。

**如何在静态的图像和动态过程之间捕获一种连接性的信息，让两者能够很好的联系起来？**这篇论文就针对这样的问题，提出了很好的方案，它介绍了一种双流卷积网络，来实现视频中的行为识别。

背景

视频相比于图像而言，是一帧帧图像的集合。因此，很自然可以想到从两个维度去提取视频信息：

空间信息：单帧图像包含的信息，独立于这个帧的表面信息（也就是视频中的物体和场景信息）
时间信息：就是帧间的光流，它会携带帧之间的运动信息；多帧图像之间包含的运动信息；
所以文章就想能否同时利用视频的空间信息与时间信息，来更好的提取视频特征，进而进行视频分类任务。

内容组成

1.1部分，我们回顾了有关使用浅层、深层的架构的动作识别的相关工作。
第2部分，我们介绍了two-stream架构，并且详细介绍了空间卷积网络。
第3部分，介绍了时间卷积网络，并且特别介绍了它如何推广到1.1节中介绍的先前的网络。
第4部分，提出多任务学习框架，使得多个数据集上的训练数据可以容易的组合。
实现细节在第5部分给出。在第6部分进行评估，并与最先进水平进行了比较。
我们的实验在两个挑战性的数据集（UCF-101和HMDB-51数据集）上都展示出，两个识别流是互补的，并且我们的深度架构比Large-scale video classification with convolutional neural networks这篇论文做的要好，不管是在相对较小的数据集上训练，与浅表示的最先进水平相比也是有竞争力的。

主要贡献

论文就提出了空间网络和时间网络并存的双流卷积网络结构，
利用空间网络去处理静态信息，利用时间网络去处理动态信息。两者结合起来可以大大提高行为识别的准确率。

1.提出了一个双流卷积网络模型，其包括了空间网络和时间网络。
2.在较小规模的训练数据集上，在多帧稠密光流上训练的卷积神经网络可以获得非常好的性能。（指的还是那个双流卷积网络）
3.使用多任务学习(multiple learning)，应用了两种不同的动作分类的数据集，可以同时提升数据集的规模和检测性能。
（多任务学习概念，即将不同种类的分类数据进行融合训练，论文中采用UCF-101和HMDB-51进行融合训练。多任务一方面可以提高它的数据量，也可以改善它的训练效果，来降低过拟合。）

UCF-101和HMDB-51两个数据集上取得state-of-the-art效果，也是深度学习进入行为识别的转折点。

算法介绍

该篇论文是双流方法的开山之作，论文所提出的网络使用以单帧RGB作为输入的CNN来处理空间维度的信息，使用以多帧密度光流场作为输入的CNN来处理时间维度的信息，并通过多任务训练的方法将两个行为分类的数据集联合起来(UCF101与HMDB)，去除过拟合进而获得更好效果。

网络结构

双流（two stream）网络结构

每个流都有一个CNN网络，其尾部接一个softmax输出概率分布值，最后对两个网络的softmax值进行融合。考虑两种融合方法：平均average和使用SVM（作者实验中SVM效果更好）。

视频信息可以分为空间和时间两个部分：
1）空间部分：通过单帧图像表达图像中的场景和对象的信息。
2）时间部分：通过多帧来表示对象的运行信息和时序行为。

模型分为两部分：
两个流都是用卷积网络来实现的。
spatial stream convnet网络以单帧图片（静态图像）作为输入；空间流从静止的视频帧中执行动作识别

temporal stream convnet以多帧图像的的光流（是从video中提取的特征信息）作为输入，两部分在经过softmax后进行late fusion。时间流则经过训练，以密集的光流的形式从运动中识别动作。

对于temporal stream convnet，用optical flow（光流信息）作为输入的效果，远远优于用raw stacked frame（简单的一系列帧）作为输入。

首先对输入的视频进行分流，分为空间流卷积和时间流卷积，在空间流卷积中可以看到，输入的是单个的帧，在时间流卷积中可以看到它是多帧的光流。空间流卷积和时间流卷积有很大的相似性，首先进行相似的卷积操作，卷积具有局部连接和权值共享的特点，能够大大降低训练时间，有效提取图像信息。经过卷积后，后面可以连接一个归一化层，归一化就是将这些数据调整到同一个数量级，来加快梯度下降来求最优解的速度。归一化之后会连接池化层，这里采用的池化法是最大池化法，对这个区域中最主要的信息进行提取。这样可以降低输出的大小，也可以降低过拟合。在经过五个卷积层之后，会连接两个全连接层，全连接层主要对前面的连接进行伸展和扁平化，第一个全连接层就是将不同大小的信息映射到更大的空间，来增加这个模型的表征泛化能力第二个全连接层是为了更好的匹配网络的输出尺度，为维度变化做准备，也就是得到我们想输出的形式
两个卷积层的最后一层都是softmax层，主要对输出进行分类，最终将他们的分类的分数进行融合。

分数的融合有2种方法：

平均法：将两者的分数进行平均，最后得到结果。
线性SVM（支持向量机法）

空间流卷积网络(Spatial stream ConvNet)

介绍：输入为单张RGB图像，经过一系列卷积、全连接层后接一个sofrmax输出概率分布值。
特点：单个视频帧上操作，有效地表现了静止图像中的动作识别。其自身静态外表是一个很有用的线索，因为一些动作很明显地与特定的目标有联系。
本质：图像分类架构

时间流卷积网络（Temporal stream ConvNet）

输入：多帧图像间的光流(optical flow)
介绍：多帧图像间的光流(optical flow)，同样经过一系列卷积、全连接层后接一个sofrmax输出概率分布值。(作者实验部分对比了不同帧数光流的效果，最后取光流数L=10).
这个输入准确地描述了视频帧之间的运动信息，这使得识别更加容易，并且网络不需要暗中估计运动。

空间流和时间流使用的CNN网络结构基本一致，除了光流的conv2中没有使用normalization层。
网络中最后的class score fusion将两个stream的score值融合在一起，文章一共尝试了：average、SVM这两种方法，最后貌似SVM效果更佳。

卷积网络的输入配置

**光流（optical flow）

深度学习-视频行为识别：论文阅读——双流网络（Two-stream convolutional networks for action recognition in videos）相关推荐

【深度学习】步态识别-论文阅读（无参考意义）：Cross-View Gait Recognition Based on Feature Fusion
这里写目录标题摘要介绍相关工作改进提出多尺度特征融合全局和局部特征融合特征映射结论基于特征融合的跨视图步态识别摘要与人脸识别相比,步态识别是最有前途的视频生物特征识别技术之一, ...
【论文学习】Two-Stream Convolutional Networks for Action Recognition in Videos
Two-Stream Convolutional Networks for Action Recognition in Videos 原文地址粗略翻译摘要: 我们研究了视频中用于训练动作识别的深度 ...
Two-Stream Convolutional Networks for Action Recognition in Videos双流网络论文精读
Two-Stream Convolutional Networks for Action Recognition in Videos双流网络论文精读论文:Two-Stream Convolution ...
【视频分类论文阅读】Two-Stream Convolutional Networks for Action Recognition in Videos
论文是视频分类的开山之作,采用了一个双流网络,是空间流和事件流共同组成的,网络的具体实现都是CNN,空间流的输入是静止的图片,来获取物体形状大小等appearance信息,时间流的输入是多个从两帧之间 ...
视频动作识别--Two-Stream Convolutional Networks for Action Recognition in Videos
Two-Stream Convolutional Networks for Action Recognition in Videos NIPS2014 http://www.robots.ox.ac. ...
【论文模型讲解】Two-Stream Convolutional Networks for Action Recognition in Videos
文章目录前言 0 摘要 1 Introduction 1.1 相关工作 2 用于视频识别的双流结构 3 光流卷积神经网络(时间流) 3.1 ConvNet 输入配置 4 实现细节 4.1 测试 4. ...
双流网络: Two-Stream Convolutional Networks for Action Recognition in Videos
Contents Introduction Two-stream architecture for video recognition Evaluation Enlightenment Referen ...
【深度学习】步态识别-论文阅读：（T-PAMI-2021）综述:Deep Gait Recognition
论文详情: 期刊:T-PAMI-2021 地址:参考笔记 1.Abstract 本文综述了到2021年1月底在步态识别方面的最新进展,以全面概述了深度学习步态识别的突破和最近的发展,涵盖了广泛的主题 ...
[论文阅读笔记]Two-Stream Convolutional Networks for Action Recognition in Videos
Karen Simonyan Andrew Zisserman Visual Geometry Group, University of Oxford fkaren,azg@robots.ox.a ...

深度学习-视频行为识别：论文阅读——双流网络（Two-stream convolutional networks for action recognition in videos）