Real-world Anomaly Detection in Surveillance Videos监控视频中的现实世界异常检测

监控视频中的现实世界异常检测，代码地址https://paperswithcode.com/paper/real-world-anomaly-detection-in-surveillance。

摘要

监控视频能够捕捉到各种现实的异常现象。在本文中，我们建议通过利用正常和异常视频来学习异常。为了避免注释训练视频中的异常片段或剪辑，这是非常耗时的，我们建议利用弱标记的排名框架通过深度多实例训练视频来训练异常，即训练标签（异常或正常）是在视频级而不是剪辑级。在我们的方法中，我们将正常视频和异常视频作为包和视频片段作为多实例学习(MIL)的实例，并自动学习一个深度异常排名模型，该模型预测异常视频片段的高异常分数。此外，我们在排序损失函数中引入了稀疏性和时间平滑性约束，以更好地在训练过程中定位异常。

我们还介绍了一个新的第一个大规模的128小时的视频数据集。它由1900时长且未经修改的真实监控视频组成，其中有13个现实的异常现象，如战斗、道路事故、盗窃、抢劫等，当然还包括正常的活动。这个数据集可以用于两个任务。第一，用于一组所有异常和另一组所有正常活动的一般异常检测。第二，用来识别13种异常活动中的每一种。实验结果表明，与现有的方法相比，我们的MIL方法在异常检测性能方面取得了显著的提高。我们提供了最近几个关于异常活动识别的深度学习基线的结果。这些基线的低识别性能表明，我们的数据集非常具有挑战性，并为未来的工作提供了更多的机会。该数据集可在：https://webpages.uncc.edu/cchen62/dataset.html上获得。

1.介绍

监控摄像机被越来越多地用于公共场所。街道、十字路口、银行、购物中心等。以增加公共安全。但是，执法机构的监测能力并没有跟上其步伐。其结果是，监控摄像头的使用明显不足，而且摄像头与人类监控器的比例不可行。视频监控的一项关键任务是检测交通事故等异常事件、犯罪或非法活动。一般来说，与正常活动相比，异常事件很少发生。因此，为了减少人工和时间的浪费，迫切需要开发自动检测的智能计算机视觉算法。一个实际的异常检测系统的目标是及时发出偏离正常模式的活动的信号，并识别所发生的异常的时间窗。因此，异常检测可以看作是粗糙层次的视频理解，它可以过滤掉正常模式中的异常。一旦检测到异常，可以使用分类技术将其归为特定活动之一。

解决异常检测的一个小步骤是开发检测特定异常事件的算法，例如暴力检测器[30]和交通事故检测器[23,34]。然而，很明显，这种解决方案不能推广到检测其他异常事件，因此它们在实践中的应用有限。

现实世界中的反常事件是复杂而多样化的。很难列出所有可能的反常事件。因此，希望异常检测算法不依赖于关于事件的任何先验信息。换句话说，异常检测应在最低限度的监督下进行。基于稀疏编码的方法[28,41]被认为是实现最先进的异常检测结果的代表性方法。这些方法假设视频的一小部分初始部分包含正常事件，因此初始部分用于构建正常事件字典。那么，异常检测的主要思想是异常事件不能准确地从正常事件字典中重构。然而，由于监控摄像机捕捉到的环境可能会随着时间的推移而发生巨大的变化。在一天的不同时间)，这些方法对不同的正常行为产生高假警率。

动机和贡献。虽然上述方法很吸引人，但它们是基于这样的假设，即任何偏离学习到的正常模式的模式都将被视为异常。然而，这个假设可能不成立，因为很难或不可能定义一个将所有可能的正常模式/行为考虑到正常模式/行为的正常事件。更重要的是，正常行为和异常行为之间的边界往往是模糊的。此外，在现实条件下，相同的行为可能是不同条件下的正常或异常行为。因此，我们认为正常事件和异常事件的训练数据可以帮助异常检测系统更好地学习。本文提出了一种利用弱标记训练视频进行检测的异常检测算法。也就是说，我们只知道视频级别的标签，即一个视频是正常的或在某些地方包含异常的，但我们不知道在哪里。这很有趣，因为我们可以通过只分配视频级的标签来很容易地注释大量的视频。为了建立一种弱监督学习方法，我们求助于多实例学习(MIL)[12,4]。具体来说，我们建议通过深度MIL框架来学习异常，将正常和异常的监控视频作为包，将每个视频的短片段/剪辑作为包中的实例。基于训练视频，我们自动学习一个异常排名模型，预测视频中异常片段的高异常分数。在测试过程中，一个长时间未修剪的视频被分成多个片段，并输入我们的深度网络，该网络为每个视频片段分配异常分数，这样就可以检测到异常。综上所述，本文做出了以下贡献。

我们提出了一种仅利用弱标记的训练视频进行异常检测的MIL解决方案。我们提出了一种对深度学习网络具有稀疏性和平滑性约束的MIL排序损失来学习视频片段的异常分数。据我们所知，我们是第一个在MIL的背景下制定视频异常检测问题。

我们介绍了一个大规模的视频异常检测数据集，由1900个13个不同异常事件的真实监控视频组成。它是迄今为止最大的数据集，视频比现有的异常数据集超过15倍，总共有128小时的视频。

在新数据集上的实验结果表明，该方法比最先进的异常检测方法取得了优越的性能。由于活动的复杂性和巨大的类内变化。

我们的数据集也为未修剪视频的活动识别提供了一个具有挑战性的基准。在识别13种不同的异常活动上，我们提供了基线方法，C3D[36]和TCNN[21]。

2.相关工作

异常检测异常检测是计算机视觉[39,38,7,10,5,20,43,27,26,28,42,18,26]中最具挑战性和长期存在的问题之一。对于视频监控应用程序，有几次尝试来检测视频中的暴力或攻击性[15,25,11,30]。Datta等人。建议通过利用人的运动和肢体取向来检测人类暴力。Kooij等人。[25]利用视频和音频数据来检测监控视频中的攻击性行为。高等人提出了用暴力流动描述来检测人群视频中的暴力行为。最近，Mohammadi等人。[30]提出了一种新的基于行为启发式的暴力和非暴力视频分类方法。

除了暴力和非暴力模式的区分，[38,7]的作者还提出使用跟踪来建模人的正常运动，并将偏离正常运动的偏差作为异常来检测。由于难以获得可靠的轨迹，有几种方法避免通过基于直方图的方法来跟踪和学习全局运动模式[10]，主题建模[20]，运动模式[31]，社会力量模型[29]，动态纹理模型[27]的混合物，隐马尔可夫模型(HMM)在局部时空体积[26]，和上下文驱动的方法[43]。给定正态行为的训练视频，这些方法学习正态运动模式的分布，并检测低可能的模式为异常。

随着稀疏表示和字典学习方法在几个计算机视觉问题上的成功发展，[28,42]中的研究人员使用稀疏表示来学习正常行为的字典。在测试过程中，重构误差较大的模式被视为异常行为。由于深度学习在图像分类中的成功演示，人们提出了几种用于视频动作分类[24,36]的方法。然而，获取关于培训的注释是不同的和费力的，特别是对于视频。
近年来，[18,39]使用基于深度学习的自动编码器来学习正常行为模型，并利用重构损失来检测异常。我们的方法不仅考虑正常行为，而且考虑异常检测的异常行为，只使用弱标记的训练数据。

排序学习排序是机器学习中一个活跃的研究领域。这些方法主要集中于提高项目的相对分数，而不是独立的分数。乔阿奇姆斯（Joachims）等人[22]提出了rank-SVM来提高搜索引擎的检索质量。 (Bergeron）伯格登等人，[8]提出了一种利用连续线性规划求解多实例排序问题的算法，演示了其在计算化学中的氢抽象问题中的应用。近年来，深度排序网络已被应用于一些计算机视觉应用，并显示出最先进的性能。它们已被用于特征学习[37]、高亮检测[40]、图形交换格式(GIF)生成[17]、人脸检测和验证[32]、人重新识别[13]、位置识别[6]、度量学习和图像检索[16]。所有的深度排序方法都需要大量的正样本和负样本的注释。

与现有的方法相比，我们利用正常和异常数据将异常检测作为排序框架中的回归问题。为了减少获得精确的段级标签的困难。为了进行训练，我们利用了依赖于弱标记数据的多实例学习。视频级标签-正常或异常，比时间注释更容易获得，学习异常模型并检测视频片段级异常。

3.提出的异常检测方法

所提出的方法（如图1所总结）从在训练期间将监控视频分成固定数量的片段开始。这些片段在一个包中制作实例。同时使用正（异常）和负（正常）包，我们使用所提出的深度多实例排序损失来训练异常检测模型。

3.1.Multiple Instance Learning

在使用支持向量机的标准监督分类问题中，所有的正和负例子的标签都是可用的，并使用以下优化函数学习分类器：

其中①为hinge loss，yi表示每个示例的标签，φ(x)表示图像补丁或视频片段的特征表示，b为偏置，k为训练示例的总数，w为要学习的分类器。为了学习一个鲁棒的分类器，需要对正的和负的例子进行准确的注释。在监督异常检测的背景下，分类器需要对视频中的每个片段进行时间注释。然而，获取视频的时间注释是费时费力的。

MIL放宽了具有这些准确的时间注释的假设。在MIL中，视频中异常事件的精确时间位置是未知的。相反，只需要视频级的标签来显示整个视频中存在异常。包含异常的视频被标记为正，没有任何异常的视频被标记为负。然后，我们将一个积极的视频表示为一个积极的包Ba，其中不同的时间段在包中生成单独的实例，(p1，p2，…，pm)，其中m是包中的实例数。我们假设这些实例中至少有一个包含异常。类似地，负的视频用一个负的包Bn表示，其中这个包中的时间段形成负的实例(n1，n2，…，nm)。在负的包中，没有一个实例包含异常。由于正实例的确切信息（即实例级标签）未知，因此可以根据每个包[4]中的最大分数实例来优化目标函数：

其中YBj表示包级标签，z为包的总数，其他所有变量都与等式1中相同

3.2Deep MIL Ranking Model

异常行为很难准确定义[9]，因为它是相当主观的，可能有很大的差异。此外，如何为异常情况分配1/0的标签并不明显。此外，由于没有足够的异常例子，异常检测通常被视为低可能性模式检测，而不是分类问题[10,5,20,26,28,42,18,26]。

在我们提出的方法中，我们将异常检测作为一个回归问题。我们希望异常视频片段比正常片段有更高的异常分数。直接的方法将是使用一个排序损失（rank loss），这鼓励了异常视频片段比正常片段的高分，例如：

其中，Va和Vn表示异常和正常的视频片段，f(Va)和f(Vn)分别表示相应的预测分数。如果在训练中知道视频片段的注释，上述rank函数应该很良好。
然而，在没有视频片段注释的情况下，不可能使用等式3.相反，我们提出了以下多实例排序目标函数：

其中max是在每个包中的所有视频片段。我们不是要在包的每个实例上执行排名，而是只要在正包和负包中异常得分最高的两个实例上执行排名。正包中最高异常得分对应的段最有可能是真正的阳性实例。与负包中最高的异常得分对应的段看起来最像一个异常段，但实际上是一个正常的实例。这个负的实例被认为是一个困难的实例，它可能会在异常检测中产生错误，变成阳性。通过使用方程式4，我们想把正实例和负实例区分开。因此，我们在hinge loss公式中的排序损失如下：

上述损失的一个局限性是，它忽略了异常视频的潜在时间结构。首先，在现实场景中，异常通常只发生很短的时间。在这种情况下，异常包中的实例（段）的分数应该是稀疏的，这表明只有少数段可能包含异常。第二，由于视频是一系列片段，异常分数应该在视频片段之间平滑地变化。因此，我们通过最小化相邻视频片段的分数差异来加强时间相邻视频片段的异常分数之间的时间平滑性。通过结合对实例分数的稀疏性和平滑性约束，损失函数成为

其中，①表示时间平滑度项，②表示稀疏性项。在这个MIL的ranking loss中，该loss从正包和负包的最大分数视频片段反向传播。通过对大量的正包和负包进行训练，我们希望让网络将学习一个广义模型来预测正包中异常片段的高分（见图8）。最后，我们完整的目标函数是

其中，W表示模型的权重。
标签形式。我们将每个视频分成等数量的不重叠的时间段，并使用这些视频段作为包实例。给定每个视频片段，我们提取三维卷积特征[36]。我们使用这种特征表示是由于它的计算能力强，在视频动作识别中有明显的捕捉外观和动作动力学的能力。

图1 所提出的异常检测方法的流程图。给定正（包含某个地方的异常）和负（不包含异常）的视频，我们将它们分成多个时间视频片段。然后，每个视频被表示为一个包，每个时间段代表包中的一个实例。在提取视频片段的C3D特征[36]后，我们利用一种新的排序损失函数（ranking loss）训练一个全连接的神经网络，该函数计算正包中得分最高的实例（红色）之间的排序损失。

4.数据集

4.1.以前的数据集

我们简要回顾了现有的视频异常检测数据集。UMN数据集[2]由五个不同的阶段性视频组成，人们在那里四处走动，一段时间后开始向不同的方向运行。异常的特征是只有运行的动作。UCSDPed1和Ped2数据集[27]分别包含70个和28个监控视频。这些视频只在一个地点拍摄。视频中的异常很简单，并不能反映视频监控中的实际异常。人们走过人行道上，没有行人（溜冰者、骑自行车者和轮椅）。Avenue数据集[28]由37个视频组成。虽然它包含更多的异常，但它们是在一个位置上捕获的。与[27]类似，这个数据集中的视频很短，而且一些异常是不现实的，例如：扔纸）。Subway Exit and Subway Entrance 数据集每个视频都包含一个长长的监控视频。这两个视频捕捉到了一些简单的异常情况，比如走向错误的方向和跳过付款。BOSS[1]数据集是从安装在火车上的监控摄像头中收集的。它包含骚扰、患者、恐慌症以及正常视频。所有的异常都由行为者执行的。总的来说，以前的视频异常检测数据集在视频数量或视频长度方面都很小。异常情况的变化也很有限。此外，有些异常现象是不现实的。

4.2.我们的数据集

由于以往数据集的局限性，我们构建了一个新的大规模数据集来评估我们的方法。它由长时间未修改的监控视频组成，涵盖了13个现实世界的异常情况，包括虐待、逮捕、纵火、袭击、事故、盗窃、爆炸、战斗、抢劫、枪击、偷店行窃和破坏。之所以选择这些异常现象，是因为它们对公共安全有重大影响。我们将我们的数据集与表1中以前的异常检测数据集进行了比较。

视频收集。为了确保我们的数据集的质量，我们训练了10个数据标注者（具有不同层次的计算机视觉专业知识）来收集数据集。我们在YouTube1和LiveLeak2上使用每个异常现象的文本搜索查询（有轻微的变化，如“车祸”、“交通事故”）来搜索视频。为了检索尽可能多的视频，我们还使用不同语言（如法语、俄语、汉语等）的文本查询。对于每一个异常现象，请感谢谷歌翻译器。我们删除了属于以下任何情况之一的视频：手动编辑，恶作剧视频，不是被闭路电视摄像头拍摄的，拍摄新闻，使用手持相机拍摄的，并包含编译的。我们也丢弃了其中异常情况尚不清楚的视频。在上述视频剪枝约束下，收集了950个未经编辑的真实世界中有明显异常的监控视频。使用相同的约束条件，收集了950个正常视频，导致我们的数据集中共有1900个视频。在图2中，我们展示了来自每个异常的四帧示例视频。

注释。对于我们的异常检测方法，只需要视频级的标签来进行训练。然而，为了评估其在测试视频上的性能，我们需要知道时间的注释，即每个测试异常视频中的异常事件的开始和结束帧。为此，我们将相同的视频分配给多个注释者，以标记每个异常的时间范围。最终的时间注释是通过平均不同注释器的注释来获得的。经过几个月的艰苦努力，完整的数据集最终确定。

Training and testing 数据集。我们将数据集分为两部分：训练集包括800个正常视频和810个异常视频（详情见表2所示），测试集包括其余150个正常视频和140个异常视频。训练集和测试集都包含了视频中不同时间位置的所有13个异常。此外，其中一些视频有多种异常现象。训练视频在长度（分钟）的分布如图3所示。每个测试视频中的帧数和异常百分比分别如图4和图5所示。

5.实验

5.1.实施细节

我们从C3D网络[36]的全连接(FC)层FC6中提取视觉特征。在计算特性之前，我们将每个视频帧重新调整为240×320像素，并将帧率固定为30fps。我们计算每16帧视频剪辑的C3D特征，然后进行l2归一化。为了获得一个视频片段的特征，我们取该片段内所有16帧剪辑特征的平均值。我们将这些特征(4096D)输入到一个3层的FC神经网络中。第一个FC层有512个单元，然后是32个单元和1个单元的FC层。在FC层之间使用60%的dropout正则化[33]。我们用更深层次的网络进行实验，但没有观察到更好的检测精度。我们在第一FC层和最后一层分别使用ReLU[19]激活和Sigmoid激活，并使用Adagrad[14]优化器，初始学习率为0.001。将MIL ranking loss中的稀疏性和平滑性约束参数设置为λ1=λ2=8×10−5，以获得最佳性能。
我们将每个视频分成32个不重叠的片段，并将每个视频片段作为包的一个实例。32是依靠经验设置的。我们还实验了多尺度重叠的时间段，但不影响检测精度。我们随机选择30个阳性包和30个阴性包作为一个小批次。我们利用Theano[35]在计算图上通过反向模式自动微分来计算梯度。具体来说，我们确定了损失所依赖的变量集，计算了每个变量的梯度，并通过计算图上的链规则得到了最终的梯度。每个视频通过网络，我们得到其每个时间段的分数。然后我们计算损失，如等式6和等式7、并反向传播整个批次的损失。

评估度量。
在之前对异常检测[27]的研究之后，我们使用(ROC)曲线和曲线下相应的面积(AUC)来评价我们的方法的性能。我们不使用等错误率(EER)[27]，因为它不能正确测量异常，特别是当长视频的一小部分包含异常行为时。

表1 异常数据集的比较。我们的数据集包含更多的更长的监控视频和更现实的异常。

图2 我们数据集中训练和测试视频的不同异常的例子。

5.2.与最先进的技术进行比较

我们比较了我们的方法与两种最先进的异常检测方法。陆等人[28]提出了基于字典的正常行为学习方法，并利用重构误差来检测异常。根据它们的代码，我们从每个正常的训练视频中提取7000个长方体，并计算每个卷中基于梯度的特征。在使用主成分分析减少特征维数后，我们使用稀疏表示法学习字典。哈桑等人[18]提出了一种基于完全卷积前馈深度自动编码器的学习局部特征和分类器的方法。利用他们的实现方法，我们在正常视频上进行训练网络，并使用40帧的时间窗口。与[28]类似，我们使用重建误差来测量异常情况。我们还使用一个二进制SVM分类器作为基线方法。具体来说，我们将所有异常视频视为一个类，而将正常视频视为另一个类。计算每个视频的C3D特征，用线性核训练一个二进制类符。对于测试，该分类器提供了每个视频片段是异常的概率。我们还比较我们有和没有平滑性和稀疏性约束方法的结果。结果表明，该方法的性能明显优于现有的方法。特别是，我们的方法在低假阳性概率下比其他方法获得了更高的真阳性概率。

二值分类器的结果表明，传统的动作识别方法不能用于现实监控视频中的异常检测。这是因为我们的数据集包含长时间的未修剪的视频，其中异常大多发生在短时间内。因此，从这些未修剪的训练视频中提取的特征对于异常事件没有足够的区别性。在实验中，二元分类器对几乎所有的测试视频产生非常低的异常分数。由[28]学习的字典不够健壮，不足以区分正常模式和异常模式。除了对视频的正常部分产生低重建误差外，对异常部分也产生低重建误差。哈桑等人。[18]学习正常模式。然而，即使是对于新的正常模式，它也往往会产生很高的异常分数。我们的方法表现明显优于[18]，证明了其有效性，并强调了使用异常和正常视频的训练对于鲁棒的异常检测系统是必不可少的。

图7 该方法对视频测试的定性结果。彩色窗口显示ground truth异常区域。(a)、(b)、©和(d)分别显示包含虐待动物（殴打狗）、爆炸、交通事故和枪击事件的视频。(e)和(f)显示正常视频，无异常。(g)和(h)提出了我们的异常检测方法的两种故障案例。

在图7中，我们在8个视频上展示了我们的方法的定性结果。(a)-(d)显示四个具有异常事件的视频。我们的方法通过为异常帧产生高异常分数，提供了成功和及时地检测这些异常。(e)和(f)是两个正常的视频。我们的方法在整个视频中产生较低的异常分数（接近0），对两个正常视频产生零误警。我们还说明了(g)和(h)中的两个故障情况。具体来说，(g)是包含入室盗窃事件（人通过窗口进入办公室）的异常视频。由于场景的黑暗（夜间视频），我们的方法未能检测到异常部分。此外，它产生的假警主要是由于在镜头前被飞虫遮挡。在(h)中，我们的方法会由于人们突然聚集（在街道上观看接力赛）而产生假警。换句话说，它不能识别正常的群体活动。

5.3.提出的方法分析

图8 训练视频分数的演变。彩色窗口表示ground truth（异常区域）。随着迭代的增加，我们的方法在异常视频片段上产生高异常分数，在正常片段上得分低。

模型训练。该方法的基本假设是，给定大量带有视频级标签的正面和负面视频，网络可以自动学习预测视频中异常的位置。为了实现这一目标，网络应该学习在训练迭代过程中给异常视频片段产生高分。图8显示了一个训练异常例子在迭代中的异常分数的演变。在1000次迭代中，该网络预测异常视频片段和正常视频片段都有高分。经过3000次迭代后，网络开始对正常段产生低分数，并保持异常段的高分数。随着迭代次数的增加和网络看到更多的视频，它会自动学习精确定位异常。请注意，虽然我们不使用任何段级别的注释，但该网络能够根据异常分数来预测异常的时间位置。

表4 在正常测试视频上的误报率比较

假警率。在现实世界中，监控视频的一个大部分是正常的。鲁棒的异常检测方法在正常视频上应具有较低的假警率。因此，我们只评估了我们的方法和其他方法在正常视频上的性能。表4列出了不同方法在50%阈值下的假警率。我们的方法的假警率率要与其他方法相比低得多，表明了一种更鲁棒的异常检测系统。这验证了同时使用异常和正常视频进行训练有助于我们的深度MIL排序模型学习正常模式。

5.4.异常活动识别实验

我们的数据集可以作为异常活动识别基准，因为我们在数据收集过程中有异常视频的事件标签，但不用于我们上面讨论的异常检测方法。对于活动识别，我们使用来自每个事件的50个视频，并将它们分成75 ：25的比例进行训练和测试3。基于4倍交叉验证，我们在我们的数据集上提供了两个活动识别的基线结果。

图9 (a)和(b)显示我们数据集上使用C3D[36]和TCNN[21]的活动识别的混淆矩阵。

表5 C3D[36]和TCNN[21]的活性识别结果。
对于第一个基线，我们通过平均每个16帧剪辑的C3D[36]特征，然后进行l2标准化，构建一个4096维的特征向量。该特征向量被用作对最近邻分类器的输入。第二个基线是管卷积神经网络(TCNN)[21]，它引入了感兴趣的管道(ToI)池化层来取代C3D管道中的第5个三维最大池化层。ToI池化层聚合了所有剪辑的特征，并为整个视频输出一个特征向量。因此，它是一种基于端到端深度学习的视频识别方法。定量的结果，即混淆矩阵和准确性如图9和表5所示。这些最先进的动作识别方法在这个数据集上表现较差。这是因为这些视频是长期未修剪的低分辨率的监控视频。此外，由于摄像机视点和照明的变化，以及背景噪声的变化，存在很大的类内变化。因此，我们的数据集是一个独特的和具有挑战性的异常活动识别数据集。

6.结论

我们提出了一种深度学习方法来检测监控视频中的现实世界异常。由于这些现实异常的复杂性，仅使用正常数据可能不是异常检测的最佳方法。我们试图同时利用正常和异常的监控视频。为了避免训练视频中异常片段注释耗费大量精力、时间，我们学习了一个使用具有弱标记数据的深度多实例排序框架进行异常检测的通用模型。为了验证该方法，本文引入了一种新的由各种真实世界中的异常组成的大规模异常数据集。在该数据集上的实验结果表明，我们提出的异常检测方法明显优于基线方法。此外，我们还证明了我们的数据集对异常活动识别的第二个任务的有效性。

7.Acknowledgement

该项目由 Award No. 2015-R2-CXK025支持，由 the National Institute of Justice, Of-
fice of Justice Programs, U.S. Department of Justice赞助。本出版物中所表达的意见、调查结果、结论或建议是作者的意见，并不一定反映司法部的意见。

References

[1] http://www.multitel.be/image/researchdevelopment/research-projects/boss.php.
[2] Unusual crowd activity dataset of university of minnesota. In http://mha.cs.umn.edu/movies/crowdactivity-all.avi.
[3] A. Adam, E. Rivlin, I. Shimshoni, and D. Reinitz. Robust real-time unusual event detection using multiple fixedlocation monitors. TPAMI, 2008.
[4] S. Andrews, I. Tsochantaridis, and T. Hofmann. Support vector machines for multiple-instance learning. In NIPS, pages 577–584, Cambridge, MA, USA, 2002. MIT Press.
[5] B. Anti and B. Ommer. Video parsing for abnormality detection. In ICCV, 2011.
[6] R. Arandjelovi´c, P. Gronat, A. Torii, T. Pajdla, and J. Sivic.NetVLAD: CNN architecture for weakly supervised place recognition. In CVPR, 2016.
[7] A. Basharat, A. Gritai, and M. Shah. Learning object motion patterns for anomaly detection and improved object detection. In CVPR, 2008.
[8] C. Bergeron, J. Zaretzki, C. Breneman, and K. P. Bennett.Multiple instance ranking. In ICML, 2008.
[9] V. Chandola, A. Banerjee, and V. Kumar. Anomaly detection: A survey. ACM Comput. Surv., 2009.
[10] X. Cui, Q. Liu, M. Gao, and D. N. Metaxas. Abnormal detection using interaction energy potentials. In CVPR, 2011.
[11] A. Datta, M. Shah, and N. Da Vitoria Lobo. Person-onperson violence detection in video data. In ICPR, 2002.
[12] T. G. Dietterich, R. H. Lathrop, and T. Lozano-P´erez. Solving the multiple instance problem with axis-parallel rectangles. Artificial Intelligence, 89(1):31–71, 1997.
[13] S. Ding, L. Lin, G. Wang, and H. Chao. Deep feature learning with relative distance comparison for person re-identification. Pattern Recognition, 48(10):2993–3003,2015.
[14] J. Duchi, E. Hazan, and Y. Singer. Adaptive subgradient methods for online learning and stochastic optimization. J.Mach. Learn. Res., 2011.
[15] Y. Gao, H. Liu, X. Sun, C. Wang, and Y. Liu. Violence detection using oriented violent flows. Image and Vision Computing, 2016.
[16] A. Gordo, J. Almaz´an, J. Revaud, and D. Larlus. Deep image retrieval: Learning global representations for image search.In ECCV, 2016.
[17] M. Gygli, Y. Song, and L. Cao. Video2gif: Automatic generation of animated gifs from video. In CVPR, June 2016.
[18] M. Hasan, J. Choi, J. Neumann, A. K. Roy-Chowdhury,and L. S. Davis. Learning temporal regularity in video sequences. In CVPR, June 2016.
[19] G. E. Hinton. Rectified linear units improve restricted boltzmann machines vinod nair. In ICML, 2010.
[20] T. Hospedales, S. Gong, and T. Xiang. A markov clustering topic model for mining behaviour in video. In ICCV, 2009.
[21] R. Hou, C. Chen, and M. Shah. Tube convolutional neural network (t-cnn) for action detection in videos. In ICCV,2017.
[22] T. Joachims. Optimizing search engines using clickthrough data. In ACM SIGKDD, 2002.
[23] S. Kamijo, Y. Matsushita, K. Ikeuchi, and M. Sakauchi.Traffic monitoring and accident detection at intersections.IEEE Transactions on Intelligent Transportation Systems,1(2):108–118, 2000.
[24] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar,and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014.
[25] J. Kooij, M. Liem, J. Krijnders, T. Andringa, and D. Gavrila.Multi-modal human aggression detection. Computer Vision and Image Understanding, 2016.
[26] L. Kratz and K. Nishino. Anomaly detection in extremely crowded scenes using spatio-temporal motion pattern models. In CVPR, 2009.
[27] W. Li, V. Mahadevan, and N. Vasconcelos. Anomaly detection and localization in crowded scenes. TPAMI, 2014.
[28] C. Lu, J. Shi, and J. Jia. Abnormal event detection at 150 fps in matlab. In ICCV, 2013.
[29] R. Mehran, A. Oyama, and M. Shah. Abnormal crowd behavior detection using social force model. In CVPR, 2009.
[30] S. Mohammadi, A. Perina, H. Kiani, and M. Vittorio. Angry crowds: Detecting violent events in videos. In ECCV, 2016.
[31] I. Saleemi, K. Shafique, and M. Shah. Probabilistic modeling of scene dynamics for applications in visual surveillance.TPAMI, 31(8):1472–1485, 2009.
[32] A. Sankaranarayanan, S. Alavi and R. Chellappa. Triplet similarity embedding for face verification. arXiv preprint arXiv:1602.03418, 2016.
[33] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Dropout: A simple way to prevent neural networks from overfitting. J. Mach. Learn. Res., 2014.
[34] W. Sultani and J. Y. Choi. Abnormal traffic detection using intelligent driver model. In ICPR, 2010.
[35] Theano Development Team. Theano: A Python framework for fast computation of mathematical expressions. arXiv preprint arXiv:1605.02688, 2016.
[36] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri.Learning spatiotemporal features with 3d convolutional networks. In ICCV, 2015.
[37] J. Wang, Y. Song, T. Leung, C. Rosenberg, J. Wang,J. Philbin, B. Chen, and Y. Wu. Learning fine-grained image similarity with deep ranking. In CVPR, 2014.
[38] S. Wu, B. E. Moore, and M. Shah. Chaotic invariants of lagrangian particle trajectories for anomaly detection in crowded scenes. In CVPR, 2010.
[39] D. Xu, E. Ricci, Y. Yan, J. Song, and N. Sebe. Learning deep representations of appearance and motion for anomalous event detection. In BMVC, 2015.
[40] T. Yao, T. Mei, and Y. Rui. Highlight detection with pairwise deep ranking for first-person video summarization. In CVPR,June 2016.
[41] B. Zhao, L. Fei-Fei, and E. P. Xing. Online detection of unusual events in videos via dynamic sparse coding. In CVPR,pages 3313–3320, 2011.
[42] B. Zhao, L. Fei-Fei, and E. P. Xing. Online detection of unusual events in videos via dynamic sparse coding. In CVPR,2011.
[43] Y. Zhu, I. M. Nayak, and A. K. Roy-Chowdhury. Contextaware activity recognition and anomaly detection in video. In IEEE Journal of Selected Topics in Signal Processing, 2013.