翻译，论文原文来自PAMI官方网站，原文链接
翻译人：
翻译时间：2018年6月10日14:39:18

并标记了一些重点。

作者
摘要
关键词
介绍
相关工作
长时期卷积
- 网络架构
- 网络输入
- 学习
实验
- 数据集和评估指标
- LTC网络参数的评估
  - 光流量
  - 数据增强
  - 比较16帧和60帧网络
  - 改变时间和空间分辨率
  - 组合不同时态决议的网络
- 与最新技术的比较
- 三维时空滤波器的分析
  - 第一层权重
  - 高层过滤器激活
- 运行时间
结论
引用

用于动作分析的长期时间卷积

作者

GülVarol

Départementd’Informatique de l’ÉcoleNormaleSupérieure，Inria，WILLOW项目组，ENS / Inria / CNRS UMR 8548，法国巴黎

伊万拉普夫

Départementd’Informatique de l’ÉcoleNormaleSupérieure，Inria，WILLOW项目组，ENS / Inria / CNRS UMR 8548，法国巴黎

Cordelia Schmid

Inria，Thoth项目组，Inria GrenobleRhône-Alpes，Laboratoire Jean Kuntzmann，法国

摘要

典型的人类行动持续几秒钟，并展现出特有的时空结构。最近的方法试图捕捉这种结构并学习卷积神经网络的行为表征。然而，这样的表示通常是在几个视频帧的层面上学习的，该视频帧未能在其全部时间范围内对动作建模。在这项工作中，我们学习使用具有长时间卷积（LTC）的神经网络的视频表示。我们证明具有增加的时间范围的LTC-CNN模型提高了动作识别的准确性。我们还研究了不同的低层表示（如视频像素和光流矢量场的原始值）的影响，并展示了高质量光流估计对学习准确动作模型的重要性。

关键词

动作识别、视频分析、表示学习、时空卷积、神经网络。

正文翻译

第一节

介绍

人类行为和事件可以被看作是时空对象。这种观点在心理学 [1]和视频中的行动识别的计算机视觉方法 [2]，[3]， [4]，[5]中均得到支持。动作识别的成功方法实际上与目标识别具有相似的技术，并通过本地视频描述符的统计模型来表示动作。然而，与对象不同的是，行为的特征是由运动支配的外表的时间演变。与此相一致，基于运动的视频描述符，如HOF和MBH [2]，[5]以及最近基于CNN的运动表示 [6]在实践中已经显示出行动承认的最大收益。

卷积神经网络（CNN）最近的兴起令人信服地证明了学习视觉表示的力量 [7]。配备大规模训练数据集 [8]，[9]，CNN已经快速接管了大部分静止图像识别任务，如对象，场景和人脸识别 [9]，[10]，[11]。在视频行为识别细胞神经网络的扩展在最近的几部作品被提出 [6] ，[12] ， [13] 。然而，这种方法目前仅比使用手工制作的视频特征的早期方法显示出中等的改进 [5]。

当前CNN的动作识别方法通常将CNN架构扩展为静态图像 [7]，并学习1到16帧的短视频区间的动作表示 [6]，[12]， [13]。然而，典型的人类行为例如握手和饮酒，以及诸如步行和游泳等重复行动的周期通常持续数秒并且跨越数十或数百个视频帧。如图1和2所示1a和 1c行为通常包含具有特定空间和长期时间结构的特征模式。将这种结构分解成短片段（见图 1b和1d）并通过平均剪辑分数[6]， [13]或更复杂的方案（如LSTM [14]）来聚合视频级信息可能不是最理想的。

图1 两类游泳动作的视频补丁:a, c：行动通常包含持续几秒钟的特有的，特定类别的时空模式。b, d：将视频分割成短暂的时间间隔很可能会破坏这种模式，使认识更加困难。我们的带有长时间卷积（LTC）的神经网络可以在较长时间内学习视频表示。

在这项工作中，我们调查了长期视频表示的学习。我们考虑时空卷积神经网络 [13]，[15]， [16]和长时间卷积（LTC）的研究架构，见图 2。为了保持网络的复杂性易于处理，我们以降低空间分辨率为代价增加了表示的时间范围。我们还研究不同底层表示的影响，如视频像素和光流矢量场的原始值。我们的实验证实了基于运动的表示的优点，并强调了高质量运动估计对学习人类动作识别的高效表示的重要性。我们报告了两个最新和具有挑战性的人类行动基准：UCF101和HMDB51的最新性能。

图2 网络架构。采用3x3x3滤波器的时空卷积应用于网络的前5层。所有卷积层之间应用最大池和ReLU。网络输入通道C1 … Cķ 是为不同的时间分辨率而定义的吨∈ { 20 ，40 ，60 ，80 ，100 }和双通道运动（ *flow-x，flow-y）或三通道运动（R，G， B）。卷积层的时空分辨率随着池化操作而减小。*

这项工作的贡献是双重的。本节中，我们展示了（i）长期时间卷积的优点和（ii）高质量的光流估计对于学习人类行为识别的准确视频表示的重要性。在本文的其余部分中，我们讨论了相关工作第2节，描述了时空CNN架构中第3节和展示我们方法的广泛的实验研究第4节。我们的实施和预先训练的CNN模型（兼容Torch）可在项目网页上找到 [17]。

第2节

长期时间卷积

在本节中，我们首先介绍网络体系结构。然后，我们指定在这项工作中使用的网络的不同输入。我们最后提供了学习和测试程序的细节。

3.1网络架构

我们的网络结构具有长时间卷积，如图2所示。该网络具有5个时空卷积层，分别具有64,128,256,256和256个滤波器响应图，随后是3个大小为2048,2048和类数的完全连接层。以下 [13]我们使用3 × 3 × 3 用于所有卷积层的时空滤波器。每个卷积层后面都有一个修正的线性单元（ReLU）和一个空闲最大池层。最大池过滤器的大小 2 × 2 × 2 ，除了在第一层中是 2 × 2 × 1 。通过在所有三维中填充1个像素，卷积输出的大小保持不变。对于所有维度，过滤器跨度为1，卷积操作为2。我们对前两个完全连接的层使用了dropout（信号丢失？），完全连接层后面是ReLU层，网络末端的Softmax层输出类分数。

3.2网络输入

为了研究长期时间卷积的影响，我们在这里研究具有不同时间范围的网络输入。我们从最近的C3D工作 [13]出发，首先比较了16帧（16f）和60帧（60f）的输入。然后，我们系统地分析在运动和外观方面增加的时间和空间分辨率对输入信号的影响。对于16帧网络，我们从空间分辨率为171 × 128像素的视频中裁剪了大小为 112×112×16 112 × 112 × 16 112 × 112 × 16的输入补丁。我们选择这种基线架构，来与[13]进行直接比较。对于60帧网络，我们降低空间分辨率以保持网络复杂性，并使用大小的输入补丁 58×58×60 58 × 58 × 60 58 × 58 × 60从重新缩放到的视频中随机裁剪 89 × 67 空间分辨率。

如图2所示，60f网络中的时间分辨率对应于五个卷积层中的每一个的60,30,15,7和3帧。相比之下，16f网络的时间分辨率在每个卷积层被更剧烈地降低到16,8,4,2和1帧。我们认为，保留更高卷积层的时间分辨率应该能够学习更复杂的时间模式。16f和60f网络中的第五卷积层的输出的时空分辨率分别为3 × 3 × 1 和 1 × 1 × 3。这两个网络在fc6层中具有相似数量的参数，而在所有其他层中具有相同数量的参数。为了系统研究不同输入分辨率的网络，我们还评估了增加时间分辨率 t∈20，40，60，80，100 t ∈ 20 ， 40 ， 60 ， 80 ， 100 t∈ { 20 ，40 ，60 ，80 ，100 } 和变化的空间分辨率 58×58，71×71 58 × 58 ， 71 × 71 { 58 × 58 ，71 × 71 } 像素的影响。

除了输入大小之外，我们还尝试使用不同类型的输入模式。首先，如 [13]中所示，我们使用来自视频帧的原始RGB值作为输入。为了明确地学习运动表示，我们也使用了流场x 和 y 方向作为我们网络的输入。对于原始视频计算流量。为了在空间分辨率降低的情况下为网络输入保持正确的流量值，流量的大小由空间子采样因子缩放。换句话说，如果一个点在320 × 240 视频帧中移动了2个像素，那么，当帧被调整到160 × 120分辨率时，其运动将为1个像素。此外，为了使输入数据居中，我们遵循[6]并减去每帧的平均流向量。

为了研究动作识别对运动估计质量的依赖性，我们试验了三种类型的流量输入，直接从视频编码中获得的流量输入（称为MPEG流量 [27] ），或者从两种光流量估计器，即Farneback [28 ]和Brox [29]，获得的流量输入。图3显示三种流算法的结果。MPEG流是我们从原始视频编码中获得的光流的快速替代品。但是，这种流动具有低空间分辨率。它也遗漏了我们从相邻帧插入的一些帧（I 帧）的流向量。Farneback流也相对较快，并且流量估算值相当嘈杂。Brox流的方法是三个中最复杂的方法，并且已知在各种流量估算基准中表现良好。

图3说明三种光流方法和相应识别性能的比较。从左到右：原始图像，MPEG，Farneback和Brox光流。颜色编码指示流的方向。右侧的表格显示了UCF101（split 1）中针对不同输入的动作识别的准确性。使用60f网络获得结果并从头开始进行训练

3.3学习

我们分别为UCF101和HMDB51数据集分别训练我们的网络，每个训练集分别包含9.5K和3.7K视频。我们使用随机梯度下降法应用于负对数似然准则的小批量。对于16f网络，我们使用30个视频剪辑的小批量大小。由于我们的GPU的限制，我们将批量缩减为60f网络的15个视频剪辑，以及100f网络的10个剪辑。从头开始学习网络的初始学习率是 3×10−3 3 × 10 − 3 3 × 10 ^-3 和 3×10−4 3 × 10 − 4 3 × 10^-4用于从预先训练的模型中进行微调的网络。对于UCF101，学习率会降低两倍，系数为 10−1 10 − 1 10^ -1。对于16f网络，第一次减少是在80K迭代之后，第二次是在45K附加迭代之后。优化在迭代20K之后完成。HMDB51的收敛速度更快，因此学习速率在60K迭代后会减少一次，并在10K以上的迭代次数后完成。对于60f网络，这些数字增加了一倍，对于100f网络增加了三倍，因为它们的批量比16f网络小两倍和三倍。上述时间表与0.9辍学率一起使用。由于更快的收敛性，我们的实验设置具有0.5丢失率，所以迭代次数更少。动量设定为0.9，重量衰减被初始化为 5×103 5 × 10 3 5 × 10^ 3 ，并在每降低一次学习速率就减少 10−1 10 − 1 10^ -1。

受训练期间随机空间裁剪的启发，我们将时间维度进行了相应的扩展 [6]，我们称之为随机剪切。在训练期间，给定一个输入视频，我们随机选择一个点（x，y，t）（ x ， y ， t ）（x ，y，t ）采样固定大小的视频剪辑。一种常见的选择是通过使用滑动窗口方法预处理数据以具有固定大小的预分段剪辑; 然而，这种方法限制了窗口不重叠时的数据量 [13]。我们评估的另一种数据增强方法是进行类似[23]的多尺度修剪。为此，我们从（1.0,0.875,0.75,0.66）（ 1.0 , 0.875 , 0.75 , 0.66 ）（1.0,0.875,0.75,0.66）中分别随机选择宽度和高度的系数，并将裁剪区域的大小调整为网络输入的大小。最后，我们以50％的概率水平翻转输入。

在测试时期，视频被分为 t - 帧剪辑，时间跨度为4帧。每个剪辑都用10种crops进行进一步的测试，即4个角落和中心，连同其水平翻转。视频分数是通过对剪辑（clip）分数和剪辑（crop）分数进行平均而获得的。如果视频中的帧数小于剪辑大小，我们通过重复最后一帧来填充缺失的音量来填充输入。

第4部分

实验

我们针对动作识别的两个广泛使用和具有挑战性的基准进行实验：UCF101和HMDB51（第4.1节）。我们首先检查网络参数的影响（第4.2节）。然后我们将其与最新的（ 4.3节）进行比较，并对时空滤波器进行可视化分析（ 4.4节）。最后我们报告运行时分析（第4.5节）。

4.1数据集和评估指标

UCF101 [30]是一个广泛使用的动作识别基准，其中来自YouTube视频的13K片段平均持续7秒。总共有200个帧分布在101个类别中。这些视频的空间分辨率为320 × 240 像素和25帧/秒的帧速率。

HMDB51数据集 [31]由51个动作的7K视频组成。视频有320 × 240像素空间分辨率和30帧/秒的帧速率。尽管过去几年这个数据集被认为是行为识别的大型基准，但深度网络学习的数据量是有限的。

我们依靠两个评估指标。第一个测量每个剪辑的准确性，即我们为每个剪辑分配具有最大softmax输出的类别标签，并测量所有剪辑上正确分配的标签的数量。第二个度量衡量视频精度，即标准评估协议。要获得视频分数，我们对每个剪辑的softmax分数取平均值，并将此平均值的最大值作为分类标签。我们对所有视频进行平均以获得视频精确度。我们根据标准评估协议报告我们的最终结果，这是三个测试分组的平均视频精度。为了评估我们使用第一次分割的网络参数。

4.2 LTC网络参数的评估

在下面，我们首先检查光流和数据增强的影响。然后，我们通过比较16f和60f网络来评估长时间卷积提供的最佳流量和数据增强技术的收益。我们还研究了对一个数据集（UCF101）进行预训练的优点，并对较小的数据集（HMDB51）进行了微调。此外，我们研究系统增加时间分辨率对流量和RGB输入以及网络组合的影响。

4.2.1光流量

上动作识别的流质量和到RGB的比较的影响示于图3为UCF101（拆分1）。该网络从零开始训练并以60帧视频音量作为输入。我们首先观察到，即使是低质量的MPEG流也要优于RGB。光流质量的提高导致了进一步的改进。Brox流程的使用允许性能提高近20％。在对单个剪辑和完整视频进行分类时，这些改进是一致的。这表明动作识别比原始像素值更容易从动作中学习。尽管图3中的结果是针对60f网络获得的，但对于16f网络也是如此（参见表2）。我们还得出结论，光学流量估计的高准确性对于学习竞争性视频表示以用于动作识别具有重要作用。鉴于图3中的结果，我们选择Brox流进行本文中所有剩余的实验。

4.2.2数据增强

表1 显示了用有限的数据量训练大型CNN时数据增加的贡献。我们的基线使用滑动窗口夹，重叠75％，训练期间丢失0.5。随机剪裁获得3.1％，多尺度剪裁获得1.6％，丢失比例提高2％。如果合并，数据增加和较高的丢失将导致UCF101分割1视频分类的增益提高4％。除非另有说明，否则在其余实验中将使用高压差，多尺度裁剪和随机裁剪。

表1

UCF101上的数据增量（拆分1）

4.2.3比较16f和60f网络

我们的16帧和60帧网络在输入大小和网络参数数量方面具有相似的复杂性（参见第3节）。此外，16帧网络类似于C3D架构，并可与[13]直接比较。因此，我们在分析性能之前，先研究60帧输入提供的收益，然后在下一段中系统地提高时间分辨率（从20到100帧，每20步）。

表2比较了RGB和流量输入的16f和60f网络的性能以及UCF101分裂1的不同数据增加和丢失率。我们观察到60f网络中所有测试设置的长期时间卷积的一致和显着的改进，当以剪辑和视频精度来衡量时。我们的60f架构显着改善了RGB和基于流量的网络。正如预期的那样，由于视频评估汇总了整个视频的信息，因此剪辑的改进更加突出。

表2

具有不同时间分辨率和在数据增加（MS：多尺度裁剪）的变化下的网络的结果和UCF101（分割1）的丢失（D），从头开始训练

我们重复HMDB51的分裂1的类似实验并报告表3中的结果。类似于UCF101，在剪辑和视频精度方面，具有长时间卷积的基于流的网络导致16f网络的显着改进。考虑到HMDB51的小尺寸，我们遵循 [6]并对UCF101预先训练好的网络进行微调。如表3的第二行所示，这种预训练有了显着的改善。此外，我们的60f流量网络的性能明显优于二维CNN时间流的结果（[6]，表2）。

表3

在UCF101上有或没有预培训的HMDB51（分组1）具有不同时间分辨率的网络的结果

4.2.4改变时间和空间分辨率

考虑到上述长时间卷积的好处，研究网络以增加时间范围和系统地改变空间分辨率是有趣的。特别是，如果更高的空间分辨率影响长时间卷积的性能，并且LTC对于流量和RGB网络同样有利，我们将研究是否准确度达到时间范围较大的网络的饱和度。

为了研究这些问题，我们评估随着时间范围增加的网络 t∈{20，40，60，80，100} t ∈ { 20 ， 40 ， 60 ， 80 ， 100 } t∈ \{ 20 ，40 ，60 ，80 ，100 \} 和两个空间分辨率 {58×58，71×71} { 58 × 58 ， 71 × 71 } \{ 58 × 58 ，71 × 71 \}适用于RGB和流量。我们还通过平均他们的班级分数来调查RGB和流量的结合。使用替代融合技术的初步实验在这种后期融合方面并未得到改善。

流网络有我们以前的架构在图2中，除了稍微连接FC6为71 × 71 解析度。对于流量输入，我们从头开始培训我们的网络。对于RGB输入，学习看起来很难从头开始。即使我们将时间范围从60帧（见表2 ）扩展到100帧，我们在UCF101分割1上获得了68.4％，这仍然低于基于帧的二维卷积方法，这些方法是从ImageNet预训练[6]中精细调整的。虽然更长的程度显着提升了性能，但我们得出结论：需要在更大的数据上预先训练RGB网络。

鉴于通过在大型体育-1M数据集C3D RGB网络的预训练中提供的大的改进 [13] ，我们使用该16帧预先训练网络，并在2个步骤扩展它来较长时间卷积。1第一步是微调16f C3D网络。在网络末端添加一个随机初始化的全连接（fc）层，大小为101（类数）。只有通过冻结卷积层才能对fc层进行微调。我们从一个学习率开始3 × 10- 4 并减少到 3 × 10- 5经过30K迭代后再进行1K多次迭代。在第二步中，我们向网络输入较长的剪辑并微调所有图层。卷积图层适用于更长的视频剪辑Ť帧。这会导致来自conv5图层的输出⌊ 吨/ 16 ⌋时间分辨率。为了重新循环预先训练好的 C3D的fc层，我们随时间最大化了conv5输出并将结果传递给fc6。我们使用fc6权重的子集来输入较低的空间分辨率。对于这个阶段，我们运行相同数量的迭代，但是我们从中减少了学习速率 3 × 10- 5 至 3 × 10- 6。我们保持0.5的丢失率在预先训练的网络中。

图4a和4b示出了对于UCF101的剪辑和视频，分裂1具有变化的时间和空间分辨率的网络的结果。我们观察到显着的改进Ť使用流量（从零开始培训），RGB（带有Sports-1M预培训）的LTC网络以及两种模式的组合。具有较高空间分辨率的网络可为较低的网络带来更好的结果Ť然而，对于具有长时间范围的网络，增加的空间分辨率的收益较低。鉴于高分辨率网络中大量的参数，这种行为可以通过过度拟合来解释，这是由于UCF101中的训练数据量不足。我们相信更大的训练集可能会导致进一步的改进。此外，流量比剪辑分数的平均值更受益于流量。这可能是视频中不同时间间隔的静态RGB信息的指示，而流动是动态的。

图4，使用i的 LTC网络的UCF101的分裂1的结果。变化的时间范围 t，ii t ， i i t，ii 。变化的空间分辨率 [高（H），低（L）] [ 高（ H ），低（ L ） ] [高（H），低（L）]和 iii。不同的输入形式（在Sports-1M上预先训练RGB，流程从头开始训练）。为了更快的收敛，所有网络都使用0.5丢失和固定批量大小进行训练。分类结果显示了针对所有类别计算的剪辑（a）和视频（b），并针对低空间流量输入的各个类别的子集决议（c）。括号中表示训练集中某个类的平均帧数。（d）显示了动作类别在最佳时间范围内的分布，（e）显示了相应的改进（详见文本）。除少数课程外，大多数课程都受益于较大的时间范围。

图4c 展示了几个动作类的LTC的结果，展示了不同时间范围内的各种精度模式。在所有101个班级中，没有任何行为随着时间范围的增加而单调减少，而25个行动班的表现单调增加。 PushUps*，YoYo和ShavingBeard是具有高，中和低性能的类的示例，它们都受益于更大的时间范围。*Shotput是较长时间范围内性能较低的类的一个例子。一个可能的解释是Shotput的样本班级相对较短，平均有90帧（我们填充短片）。对于较大的时间范围，两个额外的例子有FloorGymnastics和JavelinThrow，参见图5，来自这两个类的样本帧。我们观察到这两个动作都是由奔跑组成的，然后是投掷标枪或实际的体操动作。因此，短期网络很容易混淆这两种行为，而LTC可以捕捉这种漫长而复杂的行动。对于这两个班级，我们每隔8帧提供一次快照。很明显，需要查看超过16帧来区分这些操作。

图5，JavelinThrow在类精度方面长期时间卷积的最大改进是JavelinThrow 。对于16帧网络，它大多与FloorGymnastics类混淆。在这里，我们用每8帧提取7帧的样本视频进行可视化。直观的解释是两个类都开始运行几秒钟，然后发生实际操作。LTC可以捕获此间隔，而16帧网络无法识别此类长期活动。

设class c执行时间范围内 t 是 Pc(t) P c ( t ) Pc(t)，那么 M(t):=c∣t∈argmaxt'(pc(t')) M ( t ) := c ∣ t ∈ a r g m a x t ′ ( p c ( t ′ ) ) M(t):={c∣t∈arg maxt′(pc(t′))}。图4d绘制 |M(t)| | M ( t ) | |M(t)|关于 t。大多数类别（101个中有64个）在使用100f网络进行培训时获得最高性能。为了进一步检查是否存在针对不同动作的“理想时间范围”，图4e示出了平均性能增加 d（t） d （ t ） d（t ）哪里;

d(t):=1/|M(t)|∗∑M(t)maxt'(Pc(t'))−mint'(pc(t')) d ( t ) := 1 / | M ( t ) | ∗ ∑ M ( t ) m a x t ′ ( P c ( t ′ ) ) − m i n t ′ ( p c ( t ′ ) ) d(t) :=1/|M(t)| * ∑M(t)max t′ (Pc(t′))−min t′ (pc(t′))

我们可以观察到的值 d（t） d （ t ） d（t ）在较短程度上较低而在较长程度上较大。这意味着在短程度上得分最高的动作在所有比例上得分都相似，因此我们不能断定某些动作有利于某些程度。大多数行为都支持很长的范围，因为差异最大的是100f。一个可能的解释是，为短时间行为设置时间间隔太短并不会产生太大的影响，而长时间行为的时间间隔太短会影响性能，如图5所示。

4.2.5组合不同时态决议的网络

我们评估结合不同的网络与后期融合。对于流量的最终结果，58 × 58空间分辨率和0.9丢失用于UCF101和HMDB51数据集。流程网络从头开始学习UCF101并针对HMDB51进行微调。对于使用RGB输入的UCF101的最终结果，我们使用71 × 71空间分辨率网络从C3D网络进行微调 [13]。但是，由于过度拟合，我们不会为HMDB51进一步微调，并且使用C3D网络作为特征提取器与SVM结合获取RGB分数。我们将C3D作为特征提取器和SVM分类器的实现分别在3个分割的UCF101和HMDB51上实现了80.2和49.7％的平均性能。在16帧上微调C3D（UCF101上的80.5％）时，我们会得到相似的结果。

图6（左）显示了用不同时间范围组合流量网络输出的结果。通过平均每个网络产生的视频级别分数来执行组合。我们观察到，具有不同时间范围的两个网络的组合为流提供了显着的改进。两种以上的解决方案相结合的收益看起来是微不足道的。对于最终结果，我们报告将60f和100f网络同时用于流量和RGB，除了HMDB51 RGB分数以外，我们在16f特征提取器上使用了SVM分类器。图6（右）显示了将不同模态的多尺度网络与IDT + FV基线分类器组合在一起的结果 [5]在两个数据集的拆分1上。我们观察不同网络和IDT + FV的互补性，其中通过组合所有分类器获得最佳结果。

图6 网络组合的结果。（左）：在UCF101-split 1上组合具有不同时间范围的LTC流网络。（右）：流和RGB网络与UCF101和HMDB51-分裂1上的IDT特征的组合1.对于UCF101， RGB在Sports-1M上进行了预先训练。对于HMDB51，流程在UCF101上进行预先训练，使用C3D特征提取器获得RGB分数。

4.3与现代艺术的比较

在表4中，我们将比较HMDB51和UCF101数据集的最新技术。请注意，这些数字并不与之前的表格和数字直接匹配，仅在第一次拆分时才会报告。不同的方法根据手工制作而组合在一起，仅使用RGB或光学流量输入到CNN并组合这些中的任何一种。轨迹特征性能已经很好，特别是对于高阶编码。如果从头开始训练，RGB上的CNN表现非常差，但强烈受益于静态图像预训练，如ImageNet。最近 [13]从大量视频中训练出了时空滤波器; 然而，他们的方法并不是端到端的，因为人们必须在CNN功能之上训练SVM。虽然我们对LTC进行了微调R G B 基于短时间跨度学习的网络，我们减少空间分辨率，通过将预先训练的网络扩展到100帧，我们能够在UCF101上提高2.2％（80.2比82.4％）。

表4 与UCF101和HMDB51的现有技术比较（3个分裂的平均准确度）

我们观察到LTC优于两个数据集上的二维卷积。而且，LTCFl o w 优于LTCR G B尽管没有预先训练。我们的结果使用LTCFl o w + R G B在UCF101和HMDB51数据集上，平均融合数分别比双流平均融合基线[6]高出 4.8和6.8％。此外，[6]中的SVM融合基线仍然显着低于LTC Fl o w + R G B。总的来说，我们最好的网络LTC的组合 Fl o w + R G B与IDT方法2一起在UCF101（92.7％）和HMDB51（67.2％）数据集上都提供了最佳结果。值得注意的是，除[25] 研究结合RGB和流束的最佳方法外，这些结果都优于以前公布的这些数据集的结果，因此是对我们方法的补充。

4.4三维时空滤波器的分析

4.4.1第一层权重

为了直观地了解LTC网络学习什么，我们以矢量场形式可视化第一层空时卷积滤波器。在2通道光学流向量上学习的滤波器具有维度2 × 3 × 3 × 3在渠道，宽度，高度和时间方面。对于每个过滤器，我们分别采用两个通道3 × 3 × 3使用x和y分量将它们可视化为矢量。图7显示了来自在UCF101上学习的具有60帧流量输入的网络中的64个示例滤波器。由于我们的滤波器是时空的，因此它们在时间上具有第三维。我们发现将它们作为一个接一个地按照时间步长连接起来的矢量展示是很方便的。我们用不同的颜色表示每个时间步，并且看到通过长时间卷积学习的滤波器能够表示局部邻域中的复杂运动，这使得能够在网络的后期阶段中结合更复杂的模式。

图7 来自网络第一层的时空滤波器通过2通道Brox光流和UCF101上的60帧获知。介绍了64种过滤器中的18种。网格中的每个单元格代表两个 3×3×3 3 × 3 × 3 3 × 3 × 3 用于2通道流量输入的过滤器（一个用于 X 和一个 y）。 X 和y强度在2D中被转换成矢量。第三维（时间）通过将矢量以不同的颜色一个接一个地表示出来以便更好地可视化（t= 1蓝色， t= 2红色， t= 3绿色）。我们看到LTC能够为视频表示学习复杂的运动模式。用颜色更好地观看。

4.4.2高层过滤器激活

我们通过检查最高激活来进一步研究更高卷积层的滤波器。对于给定的图层和选定的过滤器，我们记录该过滤器的所有测试视频3的最大激活值。然后，我们根据激活值对测试视频进行排序，然后选择前7个视频。该过程与[35]类似。我们可以预期，过滤器应该被类似的动作类激活，特别是在更高的网络层。如果给LTC网络提供更长的视频剪辑，我们还希望通过LTC的过滤器激活可以更好地对来自同一类别的操作进行分组。我们举例说明了30个过滤器的操作类( x−axis x − a x i s x-axis)和他们在图8a的100f和16f网络中的前7个激活( y−axis y − a x i s y-axis)。每个动作类都以独特的颜色表示。过滤器按其纯度排序，即主导类的频率。我们为每个视频分配其地面真相类标签的颜色。我们看到，对于16f和100f网络，来自同一类的视频集群在网络的更高层中变得更加清晰。然而，很显然，即使在L4和L3中，100f过滤器的纯度也超过16f。请注意，16f网络训练的高分辨率（112×112）（ 112 × 112 ）（112 × 112）流量和100f低分辨率网络（58×58）（ 58 × 58 ）（58 × 58）流。

图8 通过查看过滤器的顶级激活，比较100f和16f网络。用颜色更好地观看。

一组来自所选过滤器的最高得分视频的示例框架 F 如图8b所示为16f和100f流量网络。我们还在我们的项目网页上提供了一个视频 [17]，以显示哪些视频为这些过滤器激活。我们可以观察到过滤器F最大限度地提高返回的类标签的同质性，100f网络的过滤器的顶级激活导致具有相似动作类的视频。对于16f网络的激活，按类分组的视频不那么突出。该结果表明，与具有较小时间范围的网络相比，LTC网络在相应的卷积层具有较高的抽象级别。

4.5运行时间

对于100f （58×58）（ 58 × 58 ）（58×58）网络，UCF101的训练需要1.9天，对于0.5fps的16f （112×112）（ 112 × 112 ）（112×112）网络需要1.1天的训练。在测试时（无流量计算），100f和16f网络分别在Titan X GPU和8 CPU内核上以4,452fps和1,128fps的速度运行，用于并行数据加载。尽管计算一个100f的正向通道需要更多的时间（大约1.6倍），但每秒处理的帧数也更大。C3D [13]在使用大量参数时报告16f网络的313fps。我们提出的解决方案因此是具有计算效率的。

第5部分

结论

本文介绍和评估长期时间卷积，并表明它们可以显著提高性能。通过对大量视频帧进行时空卷积，我们得到了在两个动作识别数据集UCF101和HMDB51上的艺术表现状态。我们还展示了光流质量的影响。在存在有限的训练数据的情况下，使用流改善了RGB模式，并且流的质量对结果有显著的影响。

致谢

这项工作得到了ERC启动基金ACTIVIA*，ERC高级资助ALLEGRO，*Google和Facebook Research Awards以及MSR-Inria联合实验室的支持。

引用

（翻译已猝死）

B. Tversky, J. Morrison, J. Zacks, “On bodies and events” in The Imitative Mind, Cambridge, United Kingdom:Cambridge University Press, 2002.
I. Laptev, M. Marszałek, C. Schmid, B. Rozenfeld, “Learning realistic human actions from movies”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., pp. 1-8, 2008.
J. C. Niebles, H. Wang, L. Fei-Fei, “Unsupervised learning of human action categories using spatial-temporal words”, Int. J. Comput. Vis., vol. 79, no. 3, pp. 299-318, 2008.
C. Schüldt, I. Laptev, B. Caputo, “Recognizing human actions: A local SVM approach”, Proc. 17th Int. Conf. Pattern Recog., pp. 32-36, 2004.
H. Wang, C. Schmid, “Action recognition with improved trajectories”, Proc. IEEE Conf. Comput. Vis., pp. 3551-3558, 2013.
K. Simonyan, A. Zisserman, “Two-stream convolutional networks for action recognition in videos”, Proc. Adv. Neural Inf. Process. Syst., pp. 568-576, 2014.
A. Krizhevsky, I. Sutskever, G. E. Hinton, “ImageNet classification with deep convolutional neural networks”, Proc. Adv. Neural Inf. Process. Syst., pp. 1097-1105, 2012.
J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, L. Fei-Fei, “ImageNet: A large-scale hierarchical image database”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., 2009.
B. Zhou, A. Lapedriza, J. Xiao, A. Torralba, A. Oliva, “Learning deep features for scene recognition using places database”, Proc. Adv. Neural Inf. Process. Syst., pp. 487-495, 2014.
R. Girshick, J. Donahue, T. Darrell, J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., pp. 580-587, 2014.
Y. Taigman, M. Yang, M. Ranzato, L. Wolf, “DeepFace: Closing the gap to human-level performance in face verification”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., pp. 1701-1708, 2014.
A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, L. Fei-Fei, “Large-scale video classification with convolutional neural networks”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., pp. 1725-1732, 2014.
D. Tran, L. Bourdev, R. Fergus, L. Torresani, M. Paluri, “Learning spatiotemporal features with 3D convolutional networks”, Proc. IEEE Conf. Comput. Vis., pp. 4489-4497, 2015.
J. Donahue et al., “Long-term recurrent convolutional networks for visual recognition and description”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., pp. 2625-2634, 2015.
S. Ji, W. Xu, M. Yang, K. Yu, “3D convolutional neural networks for human action recognition”, IEEE Trans. Pattern Anal. Mach. Intell., vol. 35, no. 1, pp. 221-231, Jan. 2010.
G. W. Taylor, R. Fergus, Y. LeCun, C. Bregler, “Convolutional learning of spatio-temporal features”, Proc. Eur. Conf. Comput. Vis., pp. 140-153, 2010.
[online] Available: http://www.di.ens.fr/willow/research/ltc/.
G. Csurka, C. Dance, L. Fan, J. Willamowski, C. Bray, “Visual categorization with bags of keypoints”, Workshop Statist. Learn. Comput. Vis., pp. 1-2, 2004.
F. Perronnin, J. Sánchez, T. Mensink, “Improving the Fisher kernel for large-scale image classification”, Proc. Eur. Conf. Comput. Vis., pp. 143-156, 2010.
B. Fernando, E. Gavves, J. Oramas, A. Ghodrati, T. Tuytelaars, “Modeling video evolution for action recognition”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., pp. 5378-5387, 2015.
Y. LeCun et al., “Backpropagation applied to handwritten zip code recognition”, Neural Comput., vol. 1, no. 4, pp. 541-551, 1989.
L. Wang, Y. Qiao, X. Tang, “Action recognition with trajectory-pooled deep-convolutional descriptors”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., pp. 4305-4314, 2015.
L. Wang, Y. Xiong, Z. Wang, Y. Qiao, “Towards good practices for very deep two-stream convnets”, CoRR, vol. abs/1507.02159, 2015.
H. Bilen, B. Fernando, E. Gavves, A. Vedaldi, S. Gould, “Dynamic image networks for action recognition”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., pp. 3034-3042, 2016.
C. Feichtenhofer, A. Pinz, A. Zisserman, “Convolutional two-stream network fusion for video action recognition”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., pp. 1933-1941, 2016.
B. Zhang, L. Wang, Z. Wang, Y. Qiao, H. Wang, “Real-time action recognition with enhanced motion vector CNNs”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., pp. 2718-2726, 2016.
V. Kantorov, I. Laptev, “Efficient feature extraction encoding and classification for action recognition”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., pp. 2593-2600, 2014.
G. Farnebäck, “Two-frame motion estimation based on polynomial expansion”, Proc. Scandinavian Conf. Image Anal., pp. 363-370, 2003.
T. Brox, A. Bruhn, N. Papenberg, J. Weickert, “High accuracy optical flow estimation based on a theory for warping”, Proc. Eur. Conf. Comput. Vis., pp. 25-36, 2004.
K. Soomro, A. Roshan Zamir, M. Shah, “UCF101: A dataset of 101 human actions classes from videos in the wild”, CoRR, vol. abs/1212.0402, 2012.
H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, T. Serre, “HMDB: A large video database for human motion recognition”, Proc. IEEE Conf. Comput. Vis., pp. 2556-2563, 2011.
Z.-Z. Lan, M. Lin, X. Li, A. G. Hauptmann, B. Raj, “Beyond Gaussian pyramid: Multi-skip feature stacking for action recognition”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., pp. 204-212, 2015.
J. Y. Ng, M. J. Hausknecht, S. Vijayanarasimhan, O. Vinyals, R. Monga, G. Toderici, “Beyond short snippets: Deep networks for video classification”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., pp. 4694-4702, 2015.
X. Wang, A. Farhadi, A. Gupta, “Actions ~ transformations”, Proc. IEEE Conf. Comput. Vis. Pattern Recog., pp. 2658-2667, 2016.
M. D. Zeiler, R. Fergus, “Visualizing and understanding convolutional networks”, Proc. Eur. Conf. Comput. Vis., pp. 818-833, 2014.

《Long-Term Temporal Convolutions for Action Recognition》论文翻译相关推荐

【论文翻译】Few-Shot Object Detection and Viewpoint Estimation for Objects in the Wild
Few-Shot Object Detection and Viewpoint Estimation for Objects in the Wild 野外目标的小样本目标检测与视点估计论文地址:ht ...
论文翻译《Salient object detection: A survey》
传统的方法: 可大致分为三类:基于block和intrinsic cues的模型.基于region和intrinsic cues的模型.基于extrinsic cues的模型(包括block和regi ...
【论文翻译】FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
文章目录 PaperInfo Abstract 1 Introduction 2 Related Work 2D Object Detection Monocular 3D Object Detect ...
论文精读《BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View》
BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View 文章目录 BEVDet: High-Perform ...
【论文阅读】【综述】3D Object Detection 3D目标检测综述
目录写在开头 3D Object Detection 相关博客: Sliding window Vote3Deep: Fast Object Detection in 3D Point Clouds ...
点云 3D 目标检测 - CenterPoint：Center-based 3D Object Detection and Tracking（CVPR 2021）
点云 3D 目标检测 - CenterPoint: Center-based 3D Object Detection and Tracking - 基于中心的3D目标检测与跟踪(CVPR 2021) ...
3D Object Detection 3D目标检测综述
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接: https://blog.csdn.net/wqwqqwqw1231/articl ...
CVPR2021 三维目标检测(3D object detection)
[1] 3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection(利用IoU预测进行半监督3D对象检测 ...
论文阅读笔记：(2021.10 CoRL) DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries
论文地址:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries | OpenReviewWe introduc ...
【论文翻译】Orthographic Feature Transform for Monocular 3D Object Detection
标题:<Orthographic Feature Transform for Monocular 3D Object Detection> 作者:Thomas Roddick, Alex ...

《Long-Term Temporal Convolutions for Action Recognition》论文翻译

目录

用于动作分析的长期时间卷积

作者

摘要

关键词

介绍

相关工作