有李飞飞跟视频分析这两个关键词这篇文章就值得一读，本人水平有限，若翻译跟理解有误欢迎批评指正。

论文链接：点击查看PDF

是什么成就了视频：分析时域信息在视频理解模型和数据集的作用

摘要

捕捉时域信息的能力对于视频理解模型的发展至关重要。尽管在视频中对动作建模进行了大量尝试，但仍缺少对时域信息在视频理解上的影响的明确分析。在此项工作中，我们的目标是弥合这一差距，并提出以下问题：视频中的运动信息（motion）对于识别动作有多重要？为此，我们提出了两个新颖的框架：（i）基于cycleGAN的类别无关（class-agnostic）时域生成器（temporal generator）（ii）运动不变帧选择器，在没有引入其他标注的失帧分析中减少/消除运动信息。这将运动信息分析与视频的其他方面隔离开来。与我们分析中的基线相比，提出的框架提供了更紧密的运动效果（使得在UCF101上，单帧clip相比16帧的clip的性能下降从25%减小到6%，在Kinetics上性能下降从15%减小到5%）。我们的分析提供了关于现有模型（如C3D）的独到见解，以及如何通过一组较稀疏的框架实现对比效果。

1.引言

随着更好的模型[31,36,43]和更大的数据集[14,19,20]的引入，视频理解近年来取得了显着进展。大多数方法的一个共同主题是强调时间模型，这被视为视频和图像之间的主要区别。这包括关于低级运动[31,36,41,42]，长/短期依赖[5,39,47,50]，时间结构[3,8,9,10]以及将动作建模为一系列事件/状态[33,34,45]。
更具体地说，广泛的深度学习架构[4,36,39]试图通过时域卷积来捕捉低水平运动，从而获得最先进的结果[4,37]。像iDT [41]这样的手工制作的功能也提倡使用动作进行动作识别。然而，低水平运动建模的实际影响仍然不明确。如图1所示，某人可以说

（a）原始视频

（b）通过匹配（a）图1的深层特征生成的视频。

图1.（a）原始视频。（b）通过网络可视化[6]从（a）中视频的C3D池化5层特征生成的视频。在池化5阶段前网络就失去了视觉上可感知的运动。
帧中的场景和对象几乎足以推断出动作。通过匹配C3D [36]模型的深层特征在视频中重新创建运动，部分验证了这一猜想。我们观察到视频中的可见运动在网络中的池化5层丢失，同时仍保留完整的空间信息。在这些观察的启发下，我们对视频动作识别中的运动效果进行了深入的定量和定性分析。特别是，我们尝试分析现有的视频培训模型是否利用运动信息，同时分类新视频。我们可以通过在测试期间对视频进行彻底的二次采样来实现这一目标，只保留一帧。但是，在单个帧上测试使用全长视频训练的模型并非易事。多次复制帧的简单方法导致UCF-101的性能下降近25％。由此很难不光是缺乏动作信息得出结论。我们观察到除了移除运动之外，子采样还导致两个不期望的效果：（i）显著改变时间分布，以及（ii）可能移除视频中对于识别动作很重要的关键帧。
我们提出以下两个框架来消除视频中的运动以进行分析，同时减轻这些不期望的效果：（i）类别无关时域生成器，其为次采样帧添加时间方差以弥合训练和测试之间的差距（ii）运动不变帧选择器，允许模型通过独立查看每个帧从视频中选择好的帧。
我们对两个视频数据集中广泛使用的3D轮廓模型[36,39]的分析进行了例证：UCF101 [32]和Kinetics [20]。 UCF101一直是比较和分析视频模型的标准基准[43]，而Kinetics是最新的大规模用于分类的数据集。我们选择3D卷积因为它已经成为视频理解的标准方法，但是所提出的框架（生成器和帧选择器）是通用的，可以用于分析任何视频模型。
我们的分析表明，如果不使用视频中的任何动作，并且不更改我们正在分析的视频模型，我们就可以在UCF101上将差距从25％缩小到6％，在动力学上缩小15％到5％。与其他分析基线相比，这为视频中的运动效果提供了更严格的上限。我们的每级精度分解表明，超过40％的UCF101和35％的Kinetics不需要视频中的运动来匹配平均类精度。此外，仅保留剪辑中1/4的帧，我们能够获得与使用所有帧所获得的结果相当的结果。

2.相关工作

动作识别的时间建模：强调视频中时域信息的建模是视频和图像模型之间的关键区别。这包括低级动作[7,36,31,41,42,16,17]，长/短期依赖[39,50,5,47,26]，时间结构[9,8,3,23] ，将行动建模为事件/状态序列[34,45,33,29]和时间汇集策略[44,45,48,10]。这些方法通常基于整体性能进行评估，因此很难确定模型是否真正捕获运动信息，以及运动是否真的对于识别现有视频数据集中的动作至关重要[1,13,14,19， 20,22,32]
模型分析：与我们的工作最相关的是Sigurdsson等人对行动类别的最新分析 [30]。其中通过基于对象复杂度，动词复杂度和运动的不同级别分解动作类别来分析识别性能。他们试图回答有关选择良好行动类别以学习有效模型的问题。相比之下，我们的工作提供了一种数据驱动的方法来明确地测量运动在C3D等时间动作识别模型中的影响。过去已经使用类似的想法来分析物体检测的模型[15,28]。另一个相关的工作是来自深度神经网络[2,46,51,53]的表示的可视化，以及数据集中的偏差[21,35]。生成器：为了正确分析运动，我们使用时域生成器来抵消训练和测试视频时间分布的差异。该生成器
与视频预测工作有关[24,38,40]，我们的架构受到最近图像转换方法的启发[18,54]。值得注意的是，Kinetics已被用作分析对抗环境中深部网络缺点的一种方法[11,25]。帧选择：在识别被证明是提高视频模型性能的有效方法之前，帧选择缩小了行动的时间范围[27,49,55]。我们利用这个想法来分析选择正确帧的效果，同时对视频进行二次采样以减少运动。

3.方法

我们的目标是分析运动对在视频上训练的现有模型（例如在UCF101上训练的C3D）的性能的影响。关键的挑战是使用简单的策略（例如复制）将现有模型中的运动分解出来可能会导致错误或有偏见的结论。我们提出两个框架来解决这个问题，并允许我们准确地分析运动对识别性能的贡献，而无需修改我们正在分析的模型。我们稍后在第4节中说明，两者的结合为运动信息的贡献提供了更严格的上限。
3.1 类别无关时域生成器
如前面第1节和图1中所讨论的，对于许多示例，单个或稀疏数量的帧可能具有足够的信息来识别该动作。然而，由于模型是在完整视频（16帧）上训练的，因此空间和时间维度被纠缠在模型中。在这种情况下，在分析/测试时初步地对帧进行子采样会显着改变时间分布并影响识别性能。
我们观察到空间和时间维度是高度相关的：应该可以从子采样图像中产生假象，以补偿时间分布的差异。我们提出了一个类不可知的时间生成器（图2（a）），它将视频帧的子集作为输入并合成完整的视频，作为模型的输入。这使得列车和测试分布相似，这反过来又允许我们通过帧采样来分析运动的影响。我们不会提供有关我们要分类的特定视频的任何其他动态信息。
挑战变成了，合成视频的属性应该是什么？我们是否必须准确地合并图1（a）中第一帧的最后三帧以进行分析？我们的答案是：否。

（a）类别无关时域生成器（b）运动不变帧选择器

如[6]中的网络可视化工作所示，卷积神经网络在层次结构中的较高层具有很强的不变性。为了更好地分析，只要我们能够生成在模型中恢复所需特征激活之前的运动信息，就可提供更严格的上限。
图2.我们提出了两个用于分析视频模型的框架。目标是消除其他信息的影响，以便对运动信息的影响做出有意义的结论。第一种是类别无关时域生成器，它抵消了视频和子采样帧之间时间分布的差异。第二种是运动不变帧选择器，它不引入额外的运动信息，但允许视频模型查看视频中的所有帧。
在模型中，它可用于在我们的分析中提供更严格的上限。图1（b）显示了匹配在UCF101上训练的C3D的pool5特征的网络可视化结果。我们观察到视频中的可见运动在网络中的pool5层丢失。
基于这种观察，我们使用感知损失[18]来匹配视频模型的不同层的特征。换句话说，我们的生成器旨在从给定的子采样帧生成运动，以重构每层中的特征，以补偿时间分布的差异。我们的时间生成器的轮廓如图2（a）所示。我们扩展了CycleGAN [54]的生成器，从给定数量的帧（在我们的实验中为1,2,4或8帧）生成视频片段（C3D为16帧）。我们使用合成视频的特征映射与原始视频之间的归一化L2距离作为损失函数。我们将证明感知损失在生成器中提供更严格的上限对我们的分析中起着重要作用。注意到我们正在进行无人监督的训练：根本不使用类标签或监督损失来训练生成器。这可能使我们能够充分利用大量未标记的视频数据。此外，我们的生成器提供了一种定性分析视频模型的方法。通过可视化我们从每个网络中学习的动作，我们能够理解它在视频中看到的动作。最后，请注意该框架是通用的，并不与我们试图分析的视频模型紧密耦合。我们只需要指定层来定义感知损失。
3.2 运动不变帧选择器
在上一节中，我们提出了一种在给定帧子集的情况下分析运动的方法。我们现在尝试回答这个问题：框架的质量在多大程度上会影响性能？把它带到一个极端，是否有一个关键帧足以获得良好的准确性？对视频帧进行初步的子采样会删除对理解视频很重要的视觉内容。潜在地，可能存在关键帧，这对于识别视频的动作而不需要任何额外的动作信息是至关重要的。
由于我们专注于分析时域信息，因此帧选择过程不应使用仅在我们要分类的视频中可用的额外运动信息。换句话说，确保帧选择器是运动不变的很重要。形式上，给定的一组候选的帧从视频采样XiXi{X _i }，选择过程不应该引入任何超出每个候选X的顺序/运动信息。我们现在简要描述两个基于启发式的简单框架选择器：Max Response和Oracle。
最大响应（Max Response）：给定一组候选XiXi{X _i } ，和预定义响应函数φ(·)φ(·)φ(·)，选择具有最高响应的候选i∗=argmaxiφ(Xi)i∗=argmaxiφ(Xi)i ∗ = argmax i φ(X i ) 。请注意，因为选择器的质量取决于响应函数φ(·)φ(·)φ(·)的定义。理想情况下，可以学习这种响应函数，以最大限度地提高识别性能，而无需使用来自感兴趣视频的额外运动信息。在我们的实验中，我们将φ(Xi)φ(Xi)φ(X i ) 为所有类的最大分类分数，XiXi{X _i }被分配给生成器和视频模型。形式上，φ(Xi)=maxcfc(Xi)φ(Xi)=maxcfc(Xi)φ(X i ) = max_c f_c (X i )，fc(Xi)fc(Xi)f_c (X i )被分类为c类，即视频模型的softmax层对类的响应C。换句话说，选择对其预测置信度高的的框架。
预测（Oracle）：oracle选择器查看视频的基本事实（ground truth）类标签，以选择实际可以给出正确结果的候选帧（只有在没有选择给出正确预测时才进行错误分类）。请注意，与Max Response不同，它不是有效的帧选择器并且涉及“欺诈”。但是，它仍然是运动不变的，并且为不使用额外运动信息的帧选择器的性能提供了上限。

图3. UCF101和Kinetics分析。我们的完整分析为视频中的运动效果提供了更严格的上限（UCF101为6％，Kinetics为5％）。这比初级的方法得出的结论更有意义，它为UCF101提供25％的上限，为Kinetics提供15％的上限。

4.分析

到目前为止，我们已经讨论过使用类别无关时域生成器和运动不变帧选择器，通过减少测试视频中的运动来消除视频中运动的研究，同时注意不要引入其他的艺术因素。通过使用我们的时域生成器桥接列车和测试设置之间的时间分布的差异并选择正确的帧而不使用额外的运动信息，我们提供了用于动作识别的运动效果的紧上限。首先，我们讨论我们对两个标准视频数据集的主要分析：UCF101和Kinetics。接下来，我们分析第4.2节中时域生成器的效果和第4.3节中的帧选择。视频模型和数据集。我们展示了Tran等人对3D卷积结构的分析。 [36]。请注意，我们的框架并非特定于视频模型，因此可以轻松扩展到其他体系结构。我们使用两个数据集进行分析。第一个是UCF101 [32]，它由101个动作类别和13,320个视频组成。由于计算成本的原因，我们在最近的工作[37]之后分析了数据集的分裂1。第二个数据集是Kinetics [20]，它包含来自400个动作类的306,245个视频。我们报告验证集的分析。实验装置。我们使用在Sports1M [19]上预训练的C3D模型[36]进行分析。对于UCF101，我们使用的超参数训练原始视频模型，
官方C3D实现中并获得可比较的数字。对于Kinetics，我们将学习率提高到0.001并保留相同的超参数。对于时域生成器，我们使用Zhu等人的架构[54]，从C64层开始。我们在与视频模型相同的训练集上训练模型。值得注意的是，该时域生成器是类别无关的，并且没有任何经过监控的标签就可以进行训练，并且可以在大量现成的大型视频数据集上进行训练。根据经验，当我们使用不同的数据集（例如，在分析UCF101时训练Kinetics的生成器）训练Kinetics时，我们没有发现对性能的显着影响。对于运动不变帧选择器，我们在置信分数上使用最大响应选择器，如第4.3节所述。由于所有可能的帧选择组合的精确枚举在计算上太昂贵（1820种从16中选择4帧的方式），我们将自己限制为所有报告的数字的48个统一采样帧选择。我们使用16帧剪辑的剪辑级动作识别精度作为我们分析的度量，以分解视频级池的影响并关注低级动作。我们验证了我们的视频模型在原始论文中报告的视频级精度相同[20,36]。
4.1 分析运动信息
通过改变帧数获得的剪辑精度，从而改变UCF101和Kinetics数据集中视频的运动量，如图3所示。“Uniform”是对帧进行初步的子采样的基线。 “+ Temporal Gen Only”进一步整合了我们的时域生成器。 “我们的完整分析”包括生成器和最大响应帧选择器。 “原始视频”模型的性能显示为参考。我们还在“Tem- poral Gen + Oracle”中使用我们的时域生成器显示了oracle帧选择器的上限性能。我们可以从结果中观察到：
我们的框架提供了更严格的上限。从图3中可以看出，通过从16帧中抽取单帧来初步去除所有时域信息导致性能急剧下降（54％相比于UCF101的79％，31％相比于Kinetics的47％）。通过我们提出的类别无关时域生成器和运动不变帧选择器，我们能够缩小差距（UCF101从25％到6％，Kinetics为15％到5％），而无需使用来自视频，更重要的是没有修改/微调视频模型。这为在UCF101或Kinetics上训练的给定模型中的运动效果提供了更严格的上限。总之，在动力学方面受过训练的C3D更多地依赖于视频中的运动（47％准确度中的5％），并且从帧选择过程中获益更多。另一方面，在UCF101上训练的C3D使用来自视频的较少运动信息（精确度为79％时为6％)，而且精确度下降主要来自分布偏移，这主要由我们的时域生成器桥接。我们在4.2节和4.3节中提供了更详细的分析，以确定我们框架的每个组成部分对这两个数据集的贡献。

图4.需要来自视频的最多/最少运动的类的定性结果。Temp. Gen. rows是我们生成视频的运动信息。对于两者对于数据集，我们不需要运动来识别可以由显着对象（即WalkWithDog中的狗）识别的动作。另一方面，虽然我们的时间生成器可以准确地在关键区域周围移动以消除时间分布，PushUps在KCF中的UCF101和JuggleBall仍然需要从视频中进一步运动才能识别。绿色框表示我们的最大响应选择器选择的帧。仅通过查看所选的单个图像生成运动信息。

图5. UCF101和Kinetics类别准确性将原始视频模型与我们的分析模型进行比较。对于UCF101中大约40％的类和Kinetics中的35％，我们可以在没有视频运动的情况下实现类似的性能（<1％的差异）。
有些类别不使用动作信息。图5将UCF101和Kinetics的运动信息上限分别调整为6％和5％，达到每级精度。对于UCF101中的大约40％和Kinetics中35％的类，我们已经缩小了与提议的框架的差距，而没有使用视频中的运动而没有修改模型，这表明C3D没有学会使用动作对这些进行分类。尤其是UCF101中的“Walking With Dog”和Kinetics中的“JuggleBall”是感兴趣视频中运动信息最不重要的C3D模型。如图4所示，我们生成的视频是类似于这种情况下的静态图像。
有些类别使用动作信息。另一方面，有些类通过我们的方法C3D学习使用视频中动作信息。尤其是UCF101中的“PushUps”和Kinetics中的“JuggleBall”是使用它的类。但是，我们的框架已经显着提高了两个类的性能（PushUps为+ 25％，JuggleBall为+ 17％），只是动作仍需要视频的更多动作信息。例如，“JuggleBall”中球的运动是微妙的，但在识别动作中起着重要作用。如图4所示，我们的时域生成器准确地在感兴趣的人周围的关键区域中产生假象，以弥合视频和子采样帧之间的分布差异。
我们不需要整个剪辑。如图3所示，我们分析中4帧的性能与UCF101和Kinetics上的原始视频相当。这表明了基于4帧的模型的可能性，该模型侧重于较小的时间支持。这与最近使用更长时间支持3D卷积的观察结果形成对比[39]。我们推测，较长的时间支持有利于选择更好的帧（这可能是使用C3D的内部副作用）但不一定捕获细粒度运动。

图6.我们的类别无关时域生成器最有效/无效动作类的定性结果。Temp. Gen. rows描绘了我们的生成器从绿色突出显示的单个帧预测的运动。对于像JuggleBall和CrowdSurfing这样的类别，它会在我们预期运动的关键区域周围产生假象。另一方面，对于像UCF101中的PlayFlute这样的静态动作，生成的动作非常微妙。在打哈欠动作中，我们的发生器产生的动作并非特定于动作。
帧选择很重要。继续讨论我们不需要用于识别动作的完整剪辑，我们展示如果我们有一个oracle用于选择可以提供正确动作类的框架，那么结果性能在结合时优于原始视频模型用我们的时域生成器。这种影响在Kinetics数据集中尤为重要。单帧选择的上限比原始模型高11％。这表明一个好的框架选择模型可以在很大程度上提高动作识别性能。然而，当没有地面实况标签时，如果不使用额外的运动信息，获得良好的帧选择可能具有挑战性甚至是不可能的。然而，为了我们的分析，我们注意到当地面实况动作标签可用时，oracle框架仍然是运动不变的。第4.3节将提供更深入的讨论。
时域发生器的重要性。从结果可以看出，时域生成器显着地减小了两个数据集的原始视频和子采样帧之间的间隙。对于在UCF101上训练的C3D，差异尤为显着（从25％降至9％）。图6显示了从单个帧生成的时间运动。从图中可以看出，我们的模型能够产生在人周围幻觉，尽管不能完全重建精确的视频。这与我们从图1中的网络可视化观察结果一致。我们将在下一节中对合成的时间信息进行进一步分析（第4.2节）。我们已经证明，我们的时间生成器和帧选择器的组合可以导致更有意义的数据驱动方式来分析视频模型而无需更改模型权重。接下来，我们将对各个组件进行更详细的讨论。
4.2 类别无关时域生成器分析
类别无关时域生成目标是弥合原始视频和采样帧之间的分布差距，以提供更准确的运动效果分析。我们已经证明，我们的时域生成器可以使UCF101提高16％，Kinetics提高6％。我们进一步分析了使用时域生成器实现的增益，并比较了两种不同的损失函数来训练时域生成器。
感知损失很重要。用于弥合分布差异的一种方法是训练生成器，该生成器可以直接从子采样帧预测视频中的其他帧的像素值。这与未来的帧合成问题直接相关[24,38,40]，它本身已经证明是一项具有挑战性的任务。我们认为并不需要解决这个具有挑战性的问题来提高视频模型分析。我们的关键观察是网络对像素空间表现出一定程度的不变性，如图1中的例子所示。

图7.我们的时间生成器结果为UCF101和Kinetics。虽然我们工作的主要贡献是提供对视频模型和数据集中运动的全面分析，但我们的贡献是提出这种时域生成器来抵消分布的差异，以提供有意义的运动分析。因此，我们建议学习具有感知损失的时间生成器[18]，以直接优化所感知的内容。通过视频模型。我们观察到这种方法可以成功地恢复通过对帧进行二次采样而丢失的运动不可知性能。图7显示了像素重建损失与建议的时间生成器的比较。可以看出，我们的方法显着改善了运动效果的上限估计。

图8. UCF101和Kinetics准确性比较有/无时域发生器的模型。对于超过75％和两个数据集中的类，我们的时间生成器能够提高性能并提供更好的分析。
分配转移对大多数类别至关重要。我们通过动作类进一步打破了类别无关时域生成器的改进。结果显示在图8中。我们的时域生成器成功地抵消了77％的UCF101的时间分布差异类和75％的Kinetics类。特别是，该效果在UCF101的“JugglingBalls”和Kinetics的“SurfingCrowd”中最为显着。如图6中的示例所示，我们的时间生成器能够预测感兴趣的人周围的关键区域中的移动。有趣的是，“JugglingBalls”也是Kinetics中的一类，也需要视频的进一步动作。另一方面，我们的时域生成器对UCF101中的“PlayingFlute”等更多静态类的帮助较小。值得注意的是，我们的时域生成器在没有动作标签的情况下进行训练，并且不使用视频中的其他运动信息，因此它可能会错误地产生无法识别类别的运动。图6中的Kinetics的“打呵欠”动作是一个例子。
4.3 帧选择器分析
我们的运动不变帧选择器的目标是使模型能够查看视频中的所有帧，同时不获取额外的运动信息。我们已经证明这是我们分析的有效方法（两个数据集均增加4％）。现在我们进一步可视化和讨论框架选择的结果。
最大响应选择器可以避免噪声帧。在两个数据集中，最大响应选择器能够将性能提高4％，这对于Kinetics来说更为重要，因为原始精度较低。在图9中，我们对使用最大选择器与仅使用时域生成器进行最大改进的类进行了比较。可以看出，UCF101中的帧在帧中具有更多的静态外观，而基本帧中的帧可以完全不同。特别是，最大选择器能够避免“IceSkating”剪辑和“SledDogRacing”剪辑中间的空场景。
Oracle帧选择器优于原始视频。图3中一个有趣的观察结果是，oracle选择器与我们的时域生成器结合使用时，提供了一个优于原始视频模型的模型。然而，如果不使用视频中的运动信息，这可能不容易实现。我们在图10中看到了从oracle框架选择中获得最大收益的类。相当令人惊讶的是，我们没有在“oracle”框架中找到可被人眼区分的显着视觉特征。虽然这可能是与对抗性例子有关的效果[12]，但我们认为应该有一种系统的方法来利用这种效应。另外，我们确实看到了来自最大值选择器的有希望的结果，它显示需要锁定帧中具有大的外观变化的视频中的正确帧。

5.未来的研究方向

在上一节中，我们对通过视频模型中运动建模实现的性能增益进行了深入分析。

图9.最大响应选择器的定性结果。我们的运动不变选择器允许模型查看帧以获得更好的预测，同时不获得额外的运动信息。特别是，我们的最大选择器能够避免“IceSkating”剪辑和“SledDogRacing”剪辑中间的空场景。（绿色表示正确选择，红色表示选择错误）

图10. oracle选择器的定性结果。有趣的是，使用我们的时域生成器的oracle选择器能够胜过原始模型。然而，当可视化选择时，视觉上不清楚是什么导致了差异。我们认为这可能是进一步调查的重要方向。（绿色表示正确选择，红色表示选择错误）
我们的发现可能有助于为建立更好的视频模型和数据集的未来研究方向提供信息。我们简要讨论一下：
特定于运动的数据集。根据我们的分析，在UCF101和Kinetics上训练的C3D模型没有学会利用运动来识别大量的动作类别。像我们这样的分析框架可用于识别和构建视频数据集，其中需要模型以学习使用运动来获得更好的性能。虽然最近的论文[30]试图分析行动类别的影响，但我们认为像我们这样的定量研究可以导致系统地创建视频数据集，其中运动的影响更为显着。
更高效的视频模型。即使对于需要运动的课程，我们也表明训练有素的C3D不需要完整的视频进行识别。这有两个意义。首先，3D卷积模型[36]需要少于16帧，并且可以在计算上更高效。其次，在制定有限的计算预算时，研究更深层的架构同时减少时间建模的计算可能是值得的。
关键帧选择。我们表明，从视频中选择合适的帧可以带来比原始模型更大的收益。除了低水平运动信息建模之外，还有像C3D这样的现有模型固有地选择了关键帧。虽然这个领域有希望，但还有许多悬而未决的问题：这个关键帧选择问题有多难？选择这些关键帧需要视频的时间信息吗？注意机制是以端到端方式选择关键帧的不错选择吗？

六.结论

我们提出了两个框架来分析运动的影响：（i）类别无关时域生成器，以及（ii）运动不变帧选择器。这使我们能够更准确地将使用UCF101训练的C3D中运动的影响限制在79％准确度时为6％，以及47％的Kinetics精度中的5％。我们的分析表明，在UCF101中，时间分布变化构成了一个更大的角色（精度的16％），而帧选择对于基础知识来说非常重要。有趣的是，oracle框架选择器实际上可以胜过原始模型。我们提供了对视频模型的深入定量和定性分析，以及可在其他地方应用的一般分析框架。我们相信，我们对运动的分析对于设计更好的模型和收集更好的数据集至关重要。感谢Du Tran对我们的分析和实施进行了有益的讨论和反馈。

参考文献

[1] S. Abu-El-Haija, N. Kothari, J. Lee, P. Natsev, G. Toderici,B. Varadarajan, and S.Vijayanarasimhan. Youtube-8m: Alarge-scale video classification benchmark. arXiv preprint
arXiv:1609.08675, 2016.
[2] D. Bau, B. Zhou, A. Khosla, A. Oliva, and A. Torralba. Net-work dissection: Quantifying interpretability of deep visualrepresentations. In CVPR, 2017.
[3] H. Bilen, B. Fernando, E. Gavves, A. Vedaldi, and S. Gould.Dynamic image networks for action recognition. In CVPR,2016.
[4] J. Carreira and A. Zisserman. Quo vadis, action recogni-tion? a new model and the kinetics dataset. arXiv preprintarXiv:1705.07750, 2017.
[5] J. Donahue, L. Anne Hendricks, S. Guadarrama,M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell. Long-term recurrent convolutional networks for visual recognition and description. In CVPR, 2015.
[6] A. Dosovitskiy and T. Brox. Generating images with per-ceptual similarity metrics based on deep networks. In NIPS,2016.
[7] C. Feichtenhofer, A. Pinz, and R. Wildes. Spatiotemporalresidual networks for video action recognition. In NIPS,2016.
[8] B. Fernando, E. Gavves, J. Oramas, A. Ghodrati, andT. Tuytelaars. Rank pooling for action recognition. IEEETPAMI, 39(4):773–787, 2017.
[9] B. Fernando, E. Gavves, J. M. Oramas, A. Ghodrati, and T. Tuytelaars. Modeling video evolution for action recognition. In CVPR, 2015.
[10] R. Girdhar, D. Ramanan, A. Gupta, J. Sivic, and B. Russell.ActionVLAD: Learning spatio-temporal aggregation for action classification. In CVPR, 2017.
[11] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In NIPS, 2014.
[12] I. J. Goodfellow, J. Shlens, and C. Szegedy. Explaining and harnessing adversarial examples. In ICLR, 2015.
[13] A. Gorban, H. Idrees, Y.-G. Jiang, A. Roshan Zamir,I. Laptev, M. Shah, and R. Sukthankar. THUMOS challenge: Action recognition with a large number of classes.http://www.thumos.info/, 2015.
[14] F. C. Heilbron, V. Escorcia, B. Ghanem, and J. C. Niebles.Activitynet: A large-scale video benchmark for human activity understanding. In CVPR, 2015.
[15] D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing errorin object detectors. ECCV, 2012.
[16] M. Jain, H. Jegou, and P. Bouthemy. Better exploiting motion for better action recognition. In CVPR, 2013.
[17] Y. e. a. Jian. Trajectory-based modeling of human actionswith motion reference points. In CVPR, 2012.
[18] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losse for real-time style transfer and super-resolution. In ECCV,2016.
[19] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar,and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014.
[20] W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola, T. Green, T. Back, P. Natsev, et al.The kinetics human action video dataset. arXiv preprint arXiv:1705.06950, 2017.
[21] A. Khosla, T. Zhou, T. Malisiewicz, A. A. Efros, and A. Torralba. Undoing the damage of dataset bias. In ECCV, 2012.
[22] H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, and T. Serre.Hmdb: a large video database for human motion recognition.In ICCV, 2011.
[23] I. Laptev, M. Marszalek, C. Schmid, and B. Rozenfeld.Learning realistic human actions from movies. In CVPR,2008.
[24] M. Mathieu, C. Couprie, and Y. LeCun. Deep multi-scalevideo prediction beyond mean square error. In ICLR, 2015.
[25] M. Mathieu, C. Couprie, and Y. LeCun. Deep multiscale video prediction beyond mean square error. In ICLR, 2016.
[26] J. Y.-H. N. Ng, M. Hausknecht, S. Vijayanarasimhan,O. Vinyals, R. Monga, and G. Toderici. Beyond short snippets: Deep networks for video classification. arXiv preprint arXiv:1609.08675, 2015.
[27] M. Raptis and L. Sigal. Poselet key-framing: A model forhuman activity recognition. In CVPR, 2013.
[28] O. Russakovsky, J. Deng, Z. Huang, A. C. Berg, and L. Fei-Fei. Detecting avocados to zucchinis: what have we done,and where are we going? In ICCV, 2013.
[29] S. Sadanand and J. J. Corso. Action bank: A highlevel representation of activity in video. In CVPR, 2012.
[30] G. A. Sigurdsson, O. Russakovsky, and A. Gupta. What ac-tions are needed for understanding human actions in videos?In ICCV, 2017.
[31] K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. In NIPS, 2014.
[32] K. Soomro, A. Roshan Zamir, and M. Shah. UCF101: Adataset of 101 human actions classes from videos in the wild.In CRCV-TR-12-01, 2012.
[33] C. Sun and R. Nevatia. Active: Activity concept transitions in video event classification. In ICCV, 2013.
[34] K. Tang, L. Fei-Fei, and D. Koller. Learning latent temporal structure for complex event detection. In CVPR, 2012.
[35] A. Torralba and A. A. Efros. Unbiased look at dataset bias.In CVPR, 2011.
[36] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri.Learning spatiotemporal features with 3d convolutional net-works. In ICCV, 2015.
[37] D. Tran, J. Ray, Z. Shou, S.-F. Chang, and M. Paluri. Con-vnet architecture search for spatiotemporal feature learning.arXiv preprint arXiv:1708.05038, 2017.
[38] J. van Amersfoort, A. Kannan, M. Ranzato, A. Szlam,D. Tran, and S. Chintala. Transformation-based models of video sequences. arXiv preprint arXiv:1701.08435, 2017.
[39] G. Varol, I. Laptev, and C. Schmid. Long-term temporal convolutions for action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.
[40] C. Vondrick, H. Pirsiavash, and A. Torralba. Generating videos with scene dynamics. In NIPS, 2016.
[41] H. Wang and C. Schmid. Action recognition with improved trajectories. In ICCV, 2013.[42] L. Wang, Y. Qiao, and X. Tang. Action recognition with trajectory-pooled deep-convolutional descriptors. In CVPR,2015.
[43] L. Wang, Y. Xiong, Z. Wang, Y. Qiao, D. Lin, X. Tang, and L. Van Gool. Temporal segment networks: Towards good practices for deep action recognition. In ECCV, 2016.
[44] P. Wang, Y. Cao, C. Shen, L. Liu, and H. Shen. Temporal pyramid pooling based convolutional neural networks for action recognition. arXiv preprint arXiv:1503.01224, 2015.
[45] X. Wang, A. Farhadi, and A. Gupta. Actions ̃ transformations. In CVPR, 2016.
[46] D. Wei, B. Zhou, A. Torrabla, and W. Freeman. Understanding intra-class knowledge inside cnn. arXiv preprint arXiv:1507.02379, 2015.
[47] Z. Wu, X. Wang, Y.-G. Jiang, H. Ye, and X. Xue. Modeling spatial-temporal clues in a hybrid deep learning framework for video classification. In Proceedings of the 23rd ACM international conference on Multimedia, pages 461–470. ACM, 2015.
[48] Z. Xu, Y. Yang, and A. G. Hauptmann. A discriminative cnn video representation for event detection. arXiv preprint arXiv:1411.4006v1, 2015.
[49] L. Yao, A. Torabi, K. Cho, N. Ballas, C. Pal, H. Larochelle,and A. Courville. Describing videos by exploiting temporal structure. In ICCV, 2015.
[50] J. Yue-Hei Ng, M. Hausknecht, S. Vijayanarasimhan,O. Vinyals, R. Monga, and G. Toderici. Beyond short snippets: Deep networks for video classification. In CVPR,2015.
[51] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In ECCV, 2014.
[52] S. Zha, F. Luisier, W. Andrews, N. Srivastava, and R. Salakhutdinov. Exploiting image-trained cnn architectures for unconstrained video classification. arXiv preprint arXiv:1411.4006v1, 2015.
[53] B. Zhou, A. Khosla, A. Lapedriza, A. Olivia, and A. Torralba. Object detectors emerge in deep scene cnns. In ICLR,2015.
[54] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In ICCV, 2017.
[55] W. Zhu, J. Hu, G. Sun, X. Cao, and Y. Qiao. A key volume mining deep framework for action recognition. In CVPR,2016.

What Makes a Video a Video :Analyzing Temporal Information in Video Understanding Models and Dataset相关推荐

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习
Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作摘要由于对"有意义"的定义不明确 ...
【论文精读】2016-CVPR-Learning temporal regularity in video sequences
Learning temporal regularity in video sequences 论文地址链接 Abstract 由于视频中有意义活动(指异常)具有模糊的定义以及视频中场景混乱,因此 ...
[Camera Drv]开video dynamic framerate，特定场景下video encode时会闪屏 - MTK物联网在线解答 - 技术论坛
[Camera Drv]开video dynamic frame rate,特定场景下video encode时会闪屏 1. 开 video dynamic frame rate ,环境 BV 在 d ...
video 宽高自适应_HTML5/CSS/jQuery video大小屏幕自适应及获取视频宽高
今天的第一个任务,就是要让Video的大小能够满屏(适应父级div),换言之要判断高度.宽度,使之能够达到全屏的效果. 在过去的一个版本中,我们要想满屏,写了一段长长的js文件,来取高度宽度对比,之后 ...
VIDEO 黑边去除(是点击VIDEO出现的黑边)
1.症状: Chrome.firefox.360 2.用药: css: video{width: 100%; height: 100%; object-fit: contain; } video:fo ...
[学习笔记·翻译稿] Video Based Face Recognition by Using Discriminatively Learned Convex Models
机翻+手动调整仅供学习之用 PDF已上传至蓝奏云:https://wwi.lanzous.com/iAcIyl9vthc Video Based Face Recognition by Using ...
Bridge from Video In to AXI4-stream to AXI4-stream to Video Out directly with VTC without VDMA
xilinx vivado下通常的视频流设计,都采用Vid In to axi4 stream --> VDMA write --> MM --> VDMA read --> ...
On the value of temporal information in information retrieval （完）
参考: On the value of temporal information in information retrieval, Omar Alonso, Michael Gertz and Ri ...
论文笔记：Revisiting Temporal Modeling for Video Super-resolution（重新审视视频超分辨率的时间建模） Part1 系咁嘅啦
** 摘要: 视频超分辨率在监控视频分析和超高清视频显示中起着重要的作用,在研究界和工业界都引起了广泛的关注.尽管已经提出了许多基于深度学习的VSR方法,但是由于不同的损失函数和训练数据集对超分辨率结 ...
html video拖放设置,HTML5新特性以及video和audio标签和拖放笔记
新特性用于绘画的canvas元素用于媒介回访的video和audio元素对本地离线存储更好的支持新的特殊内容元素 article footer header nav section 新的表单控 ...

What Makes a Video a Video :Analyzing Temporal Information in Video Understanding Models and Dataset

是什么成就了视频：分析时域信息在视频理解模型和数据集的作用

摘要

1.引言

2.相关工作

3.方法

4.分析

5.未来的研究方向

六.结论

参考文献

What Makes a Video a Video :Analyzing Temporal Information in Video Understanding Models and Dataset相关推荐

最新文章

热门文章

What Makes a Video a Video :Analyzing Temporal Information in Video Understanding Models and Dataset

是什么成就了视频：分析时域信息在视频理解模型和数据集的作用

摘要

1.引言

2.相关工作

3.方法

4.分析

5.未来的研​​究方向

六.结论

参考文献

What Makes a Video a Video :Analyzing Temporal Information in Video Understanding Models and Dataset相关推荐

最新文章

热门文章

5.未来的研究方向