2019-BMVC-Motion-Aware Feature for Improved Video Anomaly Detection

用于改进视频异常检测的运动感知功能
- 摘要
- 1. 引言
- 2. 相关工作
- 3. 方法
- - 3.1. 问题的制定
  - 3.2. 时间增强网络
  - 3.3. 基于注意力的时间 MIL 排序模型
- 4. 实验
- - 4.1. 数据集
  - 4.2. 实现细节
  - 4.3. 结果
- 5. 讨论
- - 5.1. 注意力机制的有效性
  - 5.2. 运动表示的消融研究
  - 5.3. 异常活动识别实验
- 6. 结论
- 参考文献

用于改进视频异常检测的运动感知功能

论文地址

摘要

受我们观察到运动信息是视频中良好异常检测性能的关键的启发，我们提出了一个时间增强网络来学习运动感知特征。这个特性本身就可以用以前最先进的方法实现具有竞争力的性能，并且当与它们结合使用时，可以实现显著的性能改进。此外，我们通过使用注意力块将时间上下文纳入多实例学习（MIL）排名模型。学习到的注意力权重有助于更好地区分异常视频片段和正常视频片段。借助所提出的运动感知功能和时间 MIL 排名模型，我们在 UCF 犯罪数据集中的异常检测和异常动作识别任务上的表现都大大优于以前的方法。

1. 引言

视频中的异常检测是计算机视觉中长期存在的问题之一，在监控领域有着广泛的应用，例如检测非法活动、交通事故和异常事件等。全球公共场所部署了数百万个监控摄像头。然而，大多数摄像机只是被动地记录，实际上没有任何监控功能。摄像机每分钟产生数 PB 的数据，不可能通过人力来理解这个庞大的视频数据集。我们需要机器视觉来自动检测视频中的异常情况。

识别无约束视频中的异常非常困难。挑战包括由于异常罕见发生而导致的注释数据不足、类间 / 类内差异大、异常事件的主观定义、监控视频的低分辨率等。作为人类，我们使用常识来识别异常。例如，如果很多人聚集在一条通常人流量较少的街道上，则可能存在异常。如果发生打斗等暴力事件，可能会出现异常。对于机器来说，它们没有常识，只有视觉特征。一般来说，视觉特征越强，预期的异常检测性能就越好。在这项工作中，我们演示了如何通过结合运动信息来获得强大的视觉特征。

以前的工作 [3、10、12、24、26] 使用手工制作的特征或深度学习的特征来检测异常。由于它们的性能是在不同的数据集上报告的，因此我们在这里进行了一项实验，以对这些功能进行公平比较。我们评估了 UCF 犯罪数据集 [15]，这是最近发布的大规模真实世界视频异常基准。我们采用 [15] 中提出的多实例学习（MIL）框架来报告相应的接受者工作特征曲线下的面积（Area Under the receiver operating characteristic Curve，AUC）下的相应区域，同时仅更改输入特征。对于 C3D [18] 和 I3D [2] 等基于体积的特征，网络的输入是一个 16 帧的视频剪辑。对于 VGG16 [14] 和 Inception [17] 等基于图像的特征，我们将相同的 16 帧视频剪辑作为小批量输入到网络，并对特征进行平均。从表 1 中可以看出，我们有一个重要的观察结果，即包含运动信息的基于体积的特征比基于图像的特征表现得更好，无论网络深度和特征维度如何。这在直觉上是有道理的，因为大多数异常都是不规则的突然运动模式，而运动感知功能应该更适合检测此类事件。

表 1：UCF 犯罪数据集 [15] 上不同特征的评估。运动指示是否涉及时间信息。我们观察到，无论网络深度和特征维度如何，包含运动信息的特征（C3D 和 I3D）比从单个图像（VGG16 和 Inception）中提取的特征表现得更好。

受上述观察的启发，我们的目标是通过尽可能多地从原始视频帧中结合时间信息来学习强大的视觉特征。在这项工作中，我们提出了一个时间增强网络，以无监督的方式学习运动感知特征。我们学习到的特征计算效率高，并且与其他深度学习特征（如 C3D [18]）相比具有竞争力。当与其它功能相结合时，我们获得了显着的性能提升。我们的贡献如下。

我们提出了一个时间增强网络来学习运动感知功能。这些特征被证明是对现有特征的补充。
我们引入了一种基于注意力的时间 MIL 排序模型，它可以将时间上下文带入图片中并更好地区分异常事件和正常事件。
我们在 UCF 犯罪数据集中的异常检测和异常动作识别任务上与几种最先进的方法进行了比较并超越了几种最先进的方法。

2. 相关工作

在这里，我们讨论与我们相关的其它工作，主要集中在视频的时间建模。视频不仅仅是一堆图像。对帧之间的时间关系进行建模有助于更好地理解视频。最初尝试使用跟踪来设计手工制作的功能，例如 IDT [20]。最近基于深度学习的方法使用时间卷积 [19]、3D 卷积 [2、18]、时间段网络 [21]、双流网络 [13] 等。其中，使用光流的基于双流的方法在大多数视频基准测试中表现最佳。

在这项工作中，我们提出了一个时间增强网络作为自动编码器来学习紧凑的运动感知功能，而不是直接使用光流。此功能是通用的、高效的，并且可以很容易地与使用早期融合（Early Fusion）的其他方法集成。我们还通过使用注意力机制将时间上下文纳入经典 MIL 排名模型。与我们最相似的文献是 [15, 23]，但是，存在一些差异。[23] 使用不需要 MIL 公式的小规模数据集进行实验，而我们引入了一个带有注意力模块的时间 MIL 框架。[15] 作为一个基线，我们通过我们提出的技术展示了实质性的改进。我们充分利用视频中的时间限制来改进异常识别和检测。同时，我们的整个框架比实时运行得更快，这使得它可以直接适用于现实世界的问题。

3. 方法

3.1. 问题的制定

给定一段未经剪辑的长视频，我们想知道它是否包含异常事件以及事件发生的位置。由于大量的视频记录和罕见的异常情况，获得精确的帧级注释来训练强大的神经网络非常具有挑战性和昂贵的。大多数视频异常检测数据集 [11、15] 仅提供视频级标签。因此，在这项工作中，我们需要使用此类数据集开发一种弱监督方法。我们的目标是学习一个可以预测视频剪辑的异常分数并检测视频中可能的异常事件的回归函数。

3.2. 时间增强网络

正如我们所知，基于体积的特征（例如 C3D 和 I3D）是使用 3D 卷积在多个视频帧上计算的。它们已经包含时间信息。这就是它们优于 VGG16 和 Inception 等基于图像的特征的原因。然而，正如最近的动作识别文献 [2、21、22] 所示，仅靠基于体积的特征无法实现最先进的性能。将它们与光流相结合，就像在流行的双流网络 [13] 中一样，在大多数视频分类基准测试中表现最好。这表明直接从原始视频帧中学习时空特征具有挑战性。光流等额外的运动信息可以提供帮助。

受此观察的启发，我们希望学习一种运动感知功能，该功能可以补充现有功能以改进视频异常检测。在这项工作中，我们提出了一个时间增强网络，如图 1 所示。该网络是一个自动编码器。它的输入是从原始视频帧中预先计算出的一些先验运动信息，例如光流。这迫使网络直接学习复杂的运动模式。然后我们的目标是编码一个紧凑的表示，以便我们可以使用它来尽可能接近地恢复输入。这种表示是我们的运动感知功能，可用于检测视频异常。

图 1：时间增强网络。输入（绿色）是 15 个光流图的堆栈，该网络旨在通过学习紧凑表示来重建这些光流图。然后我们使用全局平均池操作来导出我们的 1024 × 1 运动感知功能。

由于光流是最广泛采用的运动表示，我们将其用作自动编码器的输入。具体来说，我们使用最先进的基于神经网络的流估计器 PWCNet [16] 来计算相邻帧之间的光流。我们还在第 5 节中比较了其他几种运动表示。与 C3D 类似，我们选择 16 帧作为视频剪辑 VVV 并将它们调整为 112×112 的分辨率。然后我们计算调整后帧的光流。每个光流图都有两个通道，一个用于水平移动，另一个用于垂直移动。因此，我们的时间增强网络的最终输入是一叠 15 个光流图 FFF，尺寸为 30×112×112。

考虑到效率，我们将时间增强网络设计为只有 7 层：3 个编码器层、1 个瓶颈层和 3 个解码器层。所有层都由 2D 卷积层和 ReLU 激活组成。我们使用步长 2 来将特征图分辨率减半而不是池化。可以使用 L1L1L1 每像素重建损失在目标数据集上以无监督方式训练网络，

其中 F~\widetilde{\mathcal{F}}F 是重建的光流图。训练完成后，我们可以将其视为特征提取器。对于每个 16 帧的视频剪辑，我们执行前向传播直到瓶颈层，并进行全局平均池化操作以导出 1024×1 的特征。这将是我们用于异常检测的运动感知功能。如果我们想将它与其它特征一起使用，我们可以简单地将它们连接在一起。请注意，运动感知功能是从光流中学习的，因此它仅包含运动信息，而无需查看原始帧像素。我们不执行时空特征学习。这将有助于网络专注于运动部件并学习外观不变的特征。

3.3. 基于注意力的时间 MIL 排序模型

MIL 概要。由于视频中异常事件的精确时间位置未知，我们不能像在标准分类问题中那样简单地学习异常模式。相反，我们可以将其视为多实例学习（MIL）问题。

在我们的场景中，我们只有视频级别的注释。包含异常的视频被标记为正面，正常视频被标记为负面。在 [15] 之后，我们将正视频表示为正包 Ba\mathcal{B}_aBa，其中不同的时间段是包中的各个实例，(a1,a2,...,am)(a^1,a^2,\ ...,a^m)(a1,a2, ...,am)，其中 mmm 是包中的实例数。我们假设这些实例中至少有一个包含异常。类似地，负面视频由负包 Bn\mathcal{B}_nBn 表示，其中该包中的时间段是负面实例 (n1,n2,...,nm)(n^1,n^2,\ ...,n^m)(n1,n2, ...,nm)。在负包中，没有一个实例包含异常。在这项工作中，我们在训练期间将每个视频分成固定数量的片段（例如 32 个片段）。视频的这些片段是包中的实例。

MIL 排名模型。根据之前的工作 [15]，我们将异常检测制定为异常分数回归问题。我们希望来自异常视频的片段比来自正常视频的片段具有更高的异常分数。如果我们有段级注释，我们可以简单地使用排名损失作为

其中 Va\mathcal{V}_aVa 和 Vn\mathcal{V}_nVn 是异常和正常的视频片段。fff 是将视频片段映射到其相应的预测异常分数的函数，范围从 0 到 1。这里，fff 被设计为一个 3 层全连接神经网络。第一个全连接层有 512 个单元，然后是 32 个单元和 1 个单元的全连接层。这些层之间使用了 Dropout 正则化。我们分别对第一个和最后一个全连接层使用 ReLU 激活和 Sigmoid 激活。但是，我们只能访问视频级别的注释。[15] 因此提出了 MIL 排名损失

在这里，maxmaxmax 接管了每个包中的所有视频片段。这个排名目标背后的直觉是，正包中异常得分最高的段（segment）应该比负包中异常得分最高的段排名更高，因为负包不包含任何异常。为了在正例和负例之间保持较大的差距，[15] 引入了基于铰链的排名损失

然而，这种排名损失至少有两个局限性。首先，我们注意到等式 3 忽略了异常视频的潜在时间结构。单个 maxmaxmax 操作没有表现力。可能存在包含多个异常事件的异常视频。对于正常视频，某些片段也可能看起来异常。对时间上下文的推理应该有助于更好地区分异常和正常视频片段。其次，等式 4 中基于铰链的排名损失很容易导致退化的解（degenerate solution），其中我们预测大多数视频片段是正常的。

时间 MIL 排序模型。在本节中，我们通过使用时间上下文信息来介绍我们的时间 MIL 排名模型。受上述限制的启发，我们转向基于注意力的框架，该框架可以捕获视频的总异常分数，

其中 wiw_iwi 表示学习到的注意力权重。直观上看，异常视频的总体异常分数应该大于正常视频的总异常分数。我们应该将时间上下文考虑在内，并按视频而不是按片段计算异常分数。

注意权重是在网络中端到端学习的。如图 2 所示，我们在输入特征之后添加了一个注意力块。该块由三个全连接层和中间的两个 tanh 激活组成。第一个全连接层有 256 个单元，然后是 64 个单元和 1 个单元的全连接层。对于每个有 mmm 个片段的视频，我们将为所有片段学习一个 1×m1×m1×m 的注意力分数。与等式 4 类似，我们基于铰链的时间排序损失定义为

我们还采用了稀疏性约束 [15、27]，因为异常很少发生。应该只有少数段具有高异常分数。最后，我们的最终损失函数变为

λ1\lambda_1λ1 是稀疏约束的损失权重。请注意，我们不使用 [15] 中引入的时间平滑约束。我们根据经验发现它对模型训练有害。我们的整体框架如图 2 所示。

图 2：总体框架。我们首先获得运动感知特征，然后计算预测的异常分数。注意块与建议的时间 MIL 排序损失一起使用，以将时间上下文合并到训练中以更好地检测异常。

4. 实验

4.1. 数据集

以前用于视频异常检测的数据集 [8、9、11] 要么在视频数量上很少，要么异常类别有限。由于我们是在多个特征之间进行比较，因此我们需要一个庞大、多样化和平衡的数据集才能得出令人信服的结论。我们使用最近发布的大规模现实世界异常检测基准 UCF Crime [15] 来评估我们的模型和设计选择。该数据集由 1900 个真实世界的监控视频组成，其中一半包含异常事件，另一半包含正常活动。对于异常视频，有 13 个不同的类别，包括虐待、逮捕、纵火、殴打、事故、入室盗窃、爆炸、打架、抢劫、射击、偷窃、入店行窃和暴力行为。官方训练拆分将数据集分为两部分：由 800 个正常视频和 810 个异常视频组成的训练集和包括其余 150 个正常视频和 140 个异常视频的测试集。继之前的工作 [15] 之后，我们使用基于帧的接受者操作特征（ROC）曲线和相应的曲线下面积（AUC）来评估我们方法的性能。

4.2. 实现细节

我们使用 PyTorch 框架来训练我们的模型。对于时间增强网络，我们随机选择 16 帧的视频片段并使用 PWCNet [16] 计算光流。批量大小设置为 50。我们使用初始学习率为 0.005 的 Adagrad 优化器。我们训练模型总共进行了 50K 次迭代，并在 25K、40K 时将学习率降低一半，并在 50K 时停止。对于 MIL 排名模型，我们首先将每个视频分成 32 个不重叠的片段。如果视频少于 32 帧，我们复制它的帧。在每个片段中，我们为每个非重叠的 16 帧视频剪辑计算我们的运动感知功能。如果片段有多个 16 帧视频剪辑，我们取所有特征的平均值，然后进行 L2L2L2 归一化。因此，对于每个视频，我们都有一个 32×1024 的特征。为了训练 MIL 排序模型，我们随机选择 30 个正包和 30 个负包作为 mini-batch。我们使用初始学习率为 0.001 的 Adagrad 优化器。我们训练模型总共进行了 10K 次迭代，并在 4K、8K 时将学习率降低一半，并在 10K 时停止。λ1\lambda_1λ1 设置为 8×10^-5。对于本文中使用的所有其他功能，如 C3D 和 I3D，我们采用原作者友情提供的实现 [2、18]。

4.3. 结果

我们在表 2 中展示了我们的结果。我们将我们的方法与最先进的方法 [15] 和其他两个用于异常检测的基线 [4、9] 进行了比较。为了进行公平比较，我们保持模型训练设置相同。

表 2：UCF 犯罪数据集的性能比较。MA 表示我们从时间增强网络中学习的运动感知功能。左：与最先进方法的比较。我们的运动感知功能补充了现有方法，可以更好地检测异常情况。右图：ROC 和 AUC 方面的视觉比较。[15] 具有运动感知功能（绿色）比没有（红色）具有更高的真阳性率。

正如我们在左表 2 中看到的那样，我们从时间增强网络学习的运动感知功能在异常检测 AUC 分数（72.1 VS 75.4）方面实现了与之前最好的 [15] 的竞争性能，但尺寸更小（1024- dim VS 4096-dim）和更快的速度（400+ fps VS 300+ fps）。当与 [15] 结合时，我们可以实现 3.6%（75.4 → 79.0）的性能提升。至于按类细分，我们观察到具有快速运动的类从我们的运动感知功能中受益匪浅。例如，逮捕（46.0 → 57.4）、袭击（20.8 → 41.2）和格斗（32.4 → 47.1）。同样，当与 [4、9] 结合使用时，我们能够分别获得 12.1% 和 7.9% 的显着性能提升。这证明了我们学习的运动感知功能的有效性。

在可视化方面，我们在表 2 右侧显示了 ROC 曲线的比较。我们可以看到 [15] 与我们的运动感知功能（绿色）相比，在低误报率下实现了比没有（红色）更高的真阳性率。这将有助于降低误报率。

我们还将我们的运动感知功能与其他广泛采用的功能相结合，例如 VGG16、Inception 和 I3D。我们观察到一致的改进：VGG16（68.7 → 74.2）、Inception（69.2 → 74.9）和 I3D（75.4 → 79.8）。巨大的改进表明我们的功能具有很强的互补性。同时，我们可以得出结论，运动模式是检测异常的有力指标。视觉特征中捕获的运动信息越多，我们的表现就越好。

在图 3 中，我们展示了几个定性结果的可视化示例。我们可以看到，对于异常帧，我们的模型能够通过生成高异常分数来提供成功和及时的检测。对于没有异常发生的正常帧，我们的模型始终产生低（几乎为零）的异常分数。

图 3：预测结果的可视化示例。对于异常帧，我们的模型能够通过生成高异常分数来提供准确的检测。对于正常帧，我们的模型始终产生较低的异常分数。

5. 讨论

5.1. 注意力机制的有效性

在本节中，我们研究了时间 MIL 排序模型中注意机制的有效性，以了解使用等式 6 优于等式 4 的好处。如左表 3 所示，增加注意始终为我们带来 1% 到 2% 的 AUC 改进。我们认为时间上下文在这里起着区分异常事件和正常事件的关键作用。在可视化方面，我们在表 3 右侧显示了两个示例。第一个视频包含入室盗窃事件。如果不注意，模型（蓝色）无法报告从 500 帧到 1600 帧的异常，这看起来很正常。添加注意力后，我们的方法可以检测到那里的异常事件（绿色），因为它具有时间上下文知识。第二个视频没有任何异常，但有人在中间聚集和奔跑。在没有注意的情况下，模型将中间两部分分类为异常（蓝色曲线的高尖峰）。在加入注意力后，模型不再为这些部分（绿色）产生高异常分数。

表 3：注意力是有用的。左：定量结果。右：两个视觉示例。时间上下文有助于更好地区分异常事件和正常事件。

5.2. 运动表示的消融研究

回想一下第 3 节，任何运动表示都可以作为输入馈送到我们的时间增强网络。有很光流估计器，例如 TVL1、FlowFields、FlowNet2 和 PWCNet 等。除了光流，我们还有其他运动表示，例如运动向量和视频显着性等。在这里，我们在这些表示之间进行消融研究，看看哪些一种是最有效的。

首先，我们比较不同的光流估计器。TVL1 [25] 和 FlowFields [1] 是经典方法，而 FlowNet2 [6] 和 PWCNet [16] 是基于神经网络的方法。从左表 4 中可以看出，FlowNet2 由于其准确而敏锐的流量预测而获得了最佳 AUC 分数。但是，它的计算速度相对较慢。PWCNet 是一个很好的权衡，其性能与 FlowNet2 相比具有竞争力，但运行速度明显更快。

表 4：左：运动表示的消融研究，我们的时间增强网络的输入。所有速度都是在分辨率为 112×112 的图像上评估的。速度仅包括计算运动表示的时间。∗ 表示该方法使用 GPU 进行推理。右图：异常活动识别实验。我们的运动感知功能可以补充最先进的视频功能，并带来巨大的性能改进。

其次，我们比较不同类型的运动表示：运动向量、光流和视频显着性。在这里，我们使用 PWCNet [16] 来计算光流，并使用最先进的方法 [7] 来获得视频显着性。如左表 4 所示，PWCNet 实现了最佳性能。运动矢量和视频显着性都表现不佳。我们发现运动矢量的分辨率太粗糙，无法提取有用的运动信息。对于视频显着性，我们观察到帧间的预测不一致，因此可能会使时间增强网络的学习过程复杂化。

5.3. 异常活动识别实验

为了进一步证明我们的运动感知功能的普遍性，我们使用相同的数据集进行异常动作识别实验。按照官方设置，有 4 个分割，我们报告平均识别准确度。正如表 4 右侧所示，仅我们的运动感知功能就可以实现合理的性能。当与其他最先进的视频功能相结合时，我们可以获得较大的性能改进，C3D 和 TCNN 分别提高 3.1% 和 2.6%。

6. 结论

在这项工作中，我们提出了一个时间增强网络来学习运动感知功能。仅此功能就可以实现与以前的最先进方法竞争的性能，并且当与它们结合使用时，可以实现显着的性能改进。我们还通过使用注意力块将时间上下文整合到 MIL 排名模型中。学习到的注意力权重可以帮助更好地区分异常和正常的视频片段。借助所提出的运动感知功能和时间 MIL 排序模型，我们在 UCF 犯罪数据集中的异常检测和异常动作识别任务中取得了最新的最新成果。请注意，我们的模型在一些已知的具有挑战性的场景中仍然存在困难，包括快速运动、人群分组、低分辨率、暗图像等。未来，我们希望研究其他 MIL 公式，如最近的零样本学习文献 [28]。我们还想让我们的流水线只有一个阶段，进行端到端学习以获得更强的鲁棒性。

参考文献

[1] Christian Bailer, Bertram Taetz, and Didier Stricker. Flow Fields: Dense Correspondence Fields for Highly Accurate Large Displacement Optical Flow Estimation. In International Conference on Computer Vision (ICCV), 2015.
[2] Joao Carreira and Andrew Zisserman. Quo V adis, Action Recognition? A New Model and the Kinetics Dataset. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[3] Kai-Wen Cheng, Yie-Tarng Chen, and Wen-Hsien Fang. Video Anomaly Detection and Localization Using Hierarchical Feature Representation and Gaussian Process Regression. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.
[4] Mahmudul Hasan, Jonghyun Choi, Jan Neumann, Amit K. Roy-Chowdhury, and Larry S. Davis. Learning Temporal Regularity in Video Sequences. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
[5] Rui Hou, Chen Chen, and Mubarak Shah. Tube Convolutional Neural Network (TCNN) for Action Detection in Videos. In The IEEE International Conference on Computer Vision (ICCV), 2017.
[6] Eddy Ilg, Nikolaus Mayer, Tonmoy Saikia, Margret Keuper, Alexey Dosovitskiy, and Thomas Brox. FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[7] Lai Jiang, Mai Xu, Tie Liu, Minglang Qiao, and Zulin Wang. Deepvs: A deep learning based video saliency prediction approach. In The European Conference on Computer Vision (ECCV), 2018.
[8] Weixin Li, Vijay Mahadevan, and Nuno V asconcelos. Anomaly Detection and Localization in Crowded Scenes. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 36(1):18–32, 2014.
[9] Cewu Lu, Jianping Shi, and Jiaya Jia. Abnormal Event Detection at 150 FPS in MA TLAB. In IEEE International Conference on Computer Vision (ICCV), 2013.
[10] Medhini G. Narasimhan and Sowmya Kamath S. Dynamic Video Anomaly Detection and Localization Using Sparse Denoising Autoencoders. Multimedia Tools and Applications, 77(11):13173–13195, 2018.
[11] Hamidreza Rabiee, Javad Haddadnia, Hossein Mousavi, Maziyar Kalantarzadeh, Moin Nabi, and Vittorio Murino. Novel Dataset for Fine-Grained Abnormal Behavior Understanding in Crowd. In IEEE International Conference on Advanced Video and Signal Based Surveillance (A VSS), 2016.
[12] Jing Shao, Chen Change Loy, Kai Kang, and Xiaogang Wang. Slicing Convolutional Neural Network for Crowd Video Understanding. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
[13] Karen Simonyan and Andrew Zisserman. Two-Stream Convolutional Networks for Action Recognition in Videos. In Conference on Neural Information Processing Systems (NeurIPS), 2014.
[14] Karen Simonyan and Andrew Zisserman. V ery Deep Convolutional Networks for Large-Scale Image Recognition. In International Conference on Learning Representations (ICLR), 2015.
[15] Waqas Sultani, Chen Chen, and Mubarak Shah. Real-World Anomaly Detection in Surveillance Videos. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[16] Deqing Sun, Xiaodong Y ang, Ming-Y u Liu, and Jan Kautz. PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost V olume. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[17] Christian Szegedy, Wei Liu, Y angqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent V anhoucke, and Andrew Rabinovich. Going Deeper with Convolutions. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.
[18] Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, and Manohar Paluri. Learning Spatiotemporal Features with 3D Convolutional Networks. In IEEE International Conference on Computer Vision (ICCV), 2015.
[19] Gul V arol, Ivan Laptev, and Cordelia Schmid. Long-term Temporal Convolutions for Action Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2017.
[20] Heng Wang and Cordelia Schmid. Action Recognition with Improved Trajectories. In IEEE International Conference on Computer Vision (ICCV), 2013.
[21] Limin Wang, Y uanjun Xiong, Zhe Wang, Y u Qiao, Dahua Lin, Xiaoou Tang, and Luc V an Gool. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. In European Conference on Computer Vision (ECCV), 2016.
[22] Saining Xie, Chen Sun, Jonathan Huang, Zhuowen Tu, and Kevin Murphy. Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification. In European Conference on Computer Vision (ECCV), 2018.
[23] Dan Xu, Elisa Ricci, Y an Y an, Jingkuan Song, and Nicu Sebe. Learning Deep Representations of Appearance and Motion for Anomalous Event Detection. In British Machine Vision Conference (BMVC), 2015.
[24] Huan Y ang, Baoyuan Wang, Stephen Lin, David Wipf, Minyi Guo, and Baining Guo. Unsupervised Extraction of Video Highlights Via Robust Recurrent Auto-Encoders. In IEEE International Conference on Computer Vision (ICCV), 2015.
[25] Christopher Zach, Thomas Pock, and Horst Bischof. A Duality Based Approach for Realtime TV -L1 Optical Flow. In DAGM Conference on Pattern Recognition, 2014.
[26] Ji Zhang, Y annis Kalantidis, Marcus Rohrbach, Manohar Paluri, Ahmed Elgammal, and Mohamed Elhoseiny. Large-Scale Visual Relationship Understanding. In AAAI Conference on Artificial Intelligence (AAAI), 2019.
[27] Ji Zhang, Kevin J. Shih, Ahmed Elgammal, Andrew Tao, and Bryan Catanzaro. Graphical Contrastive Losses for Scene Graph Parsing. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[28] Yi Zhu, Y ang Long, Y u Guan, Shawn Newsam, and Ling Shao. Towards Universal Representation for Unseen Action Recognition. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.

【弱监督视频异常检测】2019-BMVC-用于改进视频异常检测的运动感知功能相关推荐

AAAI 2020论文解读：商汤科技提出新弱监督目标检测框架
来源 | Object Instance Mining for WeaklySupervised Object Detection 编辑 | Carol 出品 | AI科技大本营(ID:rgznai1 ...
顶刊IJCV 2022！PageNet：面向端到端弱监督篇幅级手写中文文本识别
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入->CV微信技术交流群转载自:CSIG文档图像分析与识别专委会本文简要介绍2022年8月发 ...
弱监督论文阅读：BoxLevelSet算法笔记
标题:Box-Supervised Instance Segmentation with Level Set Evolution 会议:ECCV2022 论文地址:https://link.sprin ...
Python音视频开发：消除抖音短视频Logo和去电视台标
☞ ░ 前往老猿Python博文目录 ░ 一.引言对于带Logo(如抖音Logo.电视台标)的视频,有三种方案进行Logo消除: 直接将对应区域用对应图像替换: 直接将对应区域模糊化: 通过变换将要 ...
【弱监督视频异常检测】2020-SPL-A Self-Reasoning Framework for Anomaly Detection Using Video-Level Labels
基于视频级别标签的异常检测自推理框架论文地址摘要监控视频中的异常事件检测是图像和视频处理领域中一个具有挑战性和实用性的研究问题.与异常事件的帧级注释相比,获得视频级注释非常快速且便宜,尽管此类 ...
Weakly Superised video anomaly detection弱监督视频异常检测
关于弱监督的一些论文记录.(以便自己学习总结) 目录 Consistency-based Self-supervised Learning for Temporal Anomaly Localizat ...
综述：弱监督下的异常检测算法
一.前言文章标题是: Weakly Supervised Anomaly Detection: A Survey 这是一篇针对"弱监督"异常检测的综述. 其中弱监督异常检测简称 ...
将特定像素点在图像上连接起来_(NeurIPS 2019) Gated CRF Loss-一种用于弱监督图像语义分割的新型损失函数...
本文已经被NeurIPS 2019(2019 Conference and Workshop on Neural Information Processing Systems)接收,论文为弱监督图像语 ...
NeurIPS 2019 | 用于弱监督图像语义分割的新型损失函数
作者丨赵磊学校丨北京林业大学硕士生研究方向丨语义分割本文已经被 NeurIPS 2019 (2019 Conference and Workshop on Neural Information ...

【弱监督视频异常检测】2019-BMVC-用于改进视频异常检测的运动感知功能