Abnormal behavior recognition for intelligent video surveillance systems: A review

原文地址

Mabrouk A B, Zagrouba E. Abnormal behavior recognition for intelligent video surveillance systems : a review[J]. Expert Systems with Applications, 2017, 91.

粗略翻译了需要的内容

摘要： 随着室内室外监控摄像头数量的提高，可以检测异常行为的智能系统的需求上升。尽管人体动作识别在计算机视觉领域是一个高度热门的话题，但是异常行为检测进来才引起越多的研究关注。事实上，已经有一些系统提出来保证人类安全。在本文中，我们感兴趣于视频智能系统的主要的两步，行为表示和行为建模。回顾了对于行为表示的特征提取和特征描述相关的技术。提供了行为建模的分类方法和框架。甚至提供了性能验证可能的数据集和度量方法。最后，描述一下真实世界中已存的视频监控系统。

1、介绍和相关工作

视频中人体动作识别在计算机视觉领域是一个比较活跃的领域，近几年引起了越多的关注。这对很多应用变的非常重要，例如视频监控、场景建模和视频内容注释和检索。先前已经发表了几个关于人体动作检测和分析、行为分析和理解、活动识别的调研（见表1）。最近，Dawn, Debapratim, Shaikh, and SoharabHossain (2015)和 Hassan et al. (2014) 总结了基于计算机视觉技术来识别由单人执行的简单行为（如跑步和走路）的几种方法。Bux, Plamen, and Zul- fiqar (2017)回顾了不同阶段人体活动识别的技术，包括目标分割、特征提取和表示、活动分类。特别的，Sarvesh and Anupam (2013) and Mishra and Bha- gat (2015)提出在视频监控应用中的动作分析和活动识别的技术。事实上，视频监控中的异常行为检测能确保户内户外的安全，例如火车站和机场。事实上，异常行为检测是人体动作识别一个特殊的问题。随着监控摄像头数量的提高，因为人的注意力下降和疲劳，通过保安员监督多个监控器是非常困难的。此外，异常事件相对较少且不是经常发生。这使得监督任务变得更复杂和具有挑战性。因此，对于自动检测异常行为并发出警报的智能视频监控系统的需求越来越高。

表1： 最近相关的调研

事实上，先前的调查已经提供了视频监控系统。例如，Valera and Velastin (2005)给出了异常检测的自动化监控系统的综述。Oluwatoyin and Kejun (2012)提供了不同环境下视频监控应用中人体异常行为检测方法的调研。更近一些，Zablocki, K., D., and R. (2014)综述了使用于智能监控系统来监控公共空间的不同技术。de Campos (2014) and Teng et al. (2015)调研了拥挤监控场景下的异常事件检测方法。在本文中，我们大范围地回顾了已存的使用在视频监控中的方法，我们突出强调在异常行为检测领域上当下的改进。

智能视频监控系统的目标是有效地从大量视频中检测出感兴趣的事件，来阻止危险事情的发生。通常，这个任务需要两个级别的视频处理，如图1。第一个级别包含两步，首先，提取致力于检测场景中的兴趣区域的低层特征，然后基于低层级别特征的原始特征用来描述兴趣区域。第二个级别，提供关于人体动作的语义信息，并判定这个行为是否异常。

文章的剩余部分组织如下：在第2部分，将提供特征表示最重要的技术，包括特征提取和特征表示。在第3部分，提供对于拥挤和非拥挤场景下的行为建模的不同的框架和分类方法。在第4部分，首先给出验证视频监控系统最流行的数据集，然后提供先前工作的性能验证。在第部分，介绍现在已有的视频监控系统的例子。最后第6部分，给出总结和关于这篇综述的讨论。

图1： 智能视频监控系统

2、行为表示

行为表示是对于行为分析低层级别的处理步骤，它致力于捕捉一些特征来描述视频中的目标。它包含了两步，首先，场景中的兴趣区域的检测是基于低层特征的，并且还有提供对这个区域（目标体）的描述。事实上，这个级别是困难且具有挑战性的，因为它很大程度上影响了感兴趣目标行为的理解。事实上，行为表示最大的挑战是找个一个合适的特征，在很多转换下具有鲁棒性，例如改变背景和目标的外观。在表2中，给出了最常用的行为表示的特征。

表2： 行为表示流行的特征

为了表示目标体，可能会描述不同的方面，比如形状观和纹理。例如，Li, Mahadevan, and Vasconcelos (2014) 和 Mahadevan, Li, Bhalodia, and Vasconcelos (2010)提出一种方法检测拥挤场景的异常，它是基于动态纹理（MDT）模型的混合。Miao and Song (2014)使用灰度共生矩阵（GLCM），HU不变矩和导向梯度直方图（HOG）来分别提取视频中的纹理、形状和动作特征。Rao, Gubbi, Rajasegarar, Marusic, and Palaniswami (2014)也使用了GLCM特征来检测拥挤场景异常。Wang and Xu (2015)使用时空纹理特征，基于小波变换，检测拥挤场景下的异常行为。然而，在视频中最重要的表示感兴趣目标的是动作信息。用多个特征来检测和描述一段时间内移动的目标。这些特征可以分为局部和全局特征。

局部特征可以在帧预先定义的区域内检测，这个区域可以由兴趣点或者局部区域表示。例如，Bermejo, Deniz, Bueno, and Rahul (2011) , Ming-yu, Lily, Padmanabhan, Alexander, and Rahul (2010) , 和 Xu, Gong, Yang, Wu, and Yao (2014)通过使用动作尺度不变特征转换MoSIFT（是SIFT特征的扩展）来描述感兴趣目标的局部动作。Li, Wu, Xu, Guo, and Feng (2015)基于时空视频立方体的分析检测局部异常。Songhao, Juanjuan, and Zhe (2016) 提出基于时空blobs提取的局部异常行为检测方法。事实上，是使用统计模型来检测局部异常blob。另外工作的重点是检测时空兴趣点（STIP）来提取视频中的局部特征。事实上，Laptev (2005)提出的STIP可以在空间和时间领域上检测，相较于不规则的动作，它很大程度上表示了动作变化。例如，Zhao, Yu, Jie, and Nikola (2015)在STIP点附近提取局部时空描述符（命名为HNF）。事实上，HNF是HOG描述向量和光流梯度HOF的结合，这两个可以分别用来描述外表信息和动作信息。Bellamine and Tairi (2015 , 2016)提出了STIP特征的色彩版本，命名为color STIP（CSTIP），它包含了在每一个STIP点周围引入的色彩信息，来检测视频中的动作。

全局特征用来描述整个帧中的动作信息。光流特征通常用来提取全局特征信息。例如，Gu, Cui, & Zhu, 2014 提出的使用光流基于移动粒子提取的方法来检测拥挤场景中的异常。Hajananth, Fookes, Denman, and Sridharan (2014)提出两种基于特征的光流：光流加速度和光流梯度直方图来代表事件。事实上，基于光流的直方图通常用来处理异常行为识别。Cong, Yuan, and Liu (2013) 提出一个名为多量程光流直方图MHOG的基于光流的描述子。Gnanavel and Srinivasan (2015)将面向边缘的直方图和MHOG相结合，来获得拥挤场景下异常行为环境的检测。其他工作使用光流导向直方图HOFO描述子来区分正常和异常事件。例如，Wang and Snoussi (2014)使用通过背景消除法获得的前景和原图共同计算的HOFO特征，在视频监控中识别异常事件。同样的方法，Jaechul and Kristen (2009)使用HOFO特征和引入的量级信息来检测拥挤场景中的异常事件。

我们注意到光流广泛地应用于暴力事件检测，这是异常行为识别中比较流行的一个问题。例如，Tao et al. (2015)提出快速又鲁棒性的方法来检测和定位暴力事件，基于光流的高斯模型GMOF和OFHO描述子。Hassner, Itcher, and Kliper-Gross (2012a)提出一个暴力流ViF的描述子，用来检测拥挤场景的暴力事件。事实上，基于光流量级的特征进行改变来实时验证暴力事件。Gao, Liu, Sun, Wang, and Liu (2016)提出ViF的扩展，称为OViF，这个描述子使用了从光流中获得的光度和方向信息，来准确表示动作。Tao et al. (2017)使用动作韦伯局部描述子MoWLD来进行暴力检测。事实上，MoWLD是基于光流信息和韦伯局部描述子WLD（已成功应用在人脸识别中）。

用于目标跟踪的动作信息，可以使用优化算法来提取。例如蚁群和粒子群优化PSO技术。事实上，Zhang et al. (2008)结合了时间一致性信息，这对PSO算法中的跟踪过程是必要的，因此这适合跟踪移动目标。此外，动作还可以采用这些方法判定，如基于跟踪法的卡曼滤波器，从视频中获得的运动矢量，使用相对目标blob的跟踪特征的运动跟踪，光流变化，波动描述子和动作历史图像MHI方法。

特别的，我们注意到，移动目标的轨迹被大量的用于决策是否异常。几个先前的工作基于其轨迹分析了的目标行为。例如，Ce, Zhenjun, Qixiang, and Jianbin (2013)提出一种方法，基于目标轨迹分析来检测异常行为。首先，他们使用正常行为的轨迹构建了字典；然后分类每个测试轨迹是正常还是异常。Leach, Sparks, and Robertson (2014b)提出使用行人轨迹检测异常的方法。此外，Zhang, Lin, et al. (2014)提出基于blob轨迹优化过程的异常活动检测方法。SungChun and Ram (2014)提出，使用跟踪人体轨迹，一个系统分成两级组成结构，第一层，也就是低层处理，分析轨迹并对检测出的可疑事件实时发出警报。在第二层（高层处理），检查这个可疑事件是否是人类触发的。Rajkumar, Arif, Prosad, and Pratim (2017)基于目标轨迹提取高层特征处理监督场景分割。

尽管局部特征准确地表示了视频中的局部特征，但当有太多的运动时可能没有产生明确的关于这个动作的信息。另一方面，全局特征提供整个场景的整体信息，但是当背景复杂有噪声的情况下会产生不相关的信息。基于局部和全局特征，Mabrouk and Zagrouba (2017)提出关于暴力检测的时空描述子，称为Distribution of Magnitude and Orientation of Local Interest Frame (DiMOLIF)。事实上，DiMOLIF是基于光流的光度和STIP点周围的方向的二维分布的评估。

3、异常行为识别分类方法

视频监控中的异常行为检测在计算机视觉中是一项具有挑战性的任务，并且最近有重大改进。低层处理过程允许检测和表示移动目标，但这些步骤不能理解移动目标工作的类型，或者判断这个行为是否异常。已经有多种方法提出视频监控中的异常检测，我们致力将其分为两部分介绍：

框架建模和分类方法
密集场景和移动目标交互

3.1 框架建模和分类方法

识别异常行为取决于处理框架和分类行为的方法。给定学习过程的样本（正常和异常），分类方法可以分为监督、半监督和无监督方法。在表3中，我们描述并比较了分类方法的三个类别。

表3： 分类方法类别的比较

监督方法是通过带标签数据对异常和正常行为进行建模，它们通常设计为检测在训练阶段预定义的一些特定异常行为，如打架检测、徘徊检测和摔倒检测。一些关于文字上的监督方法已经提出致力于检测视频中感兴趣事件。其中最流行的方法就是Bag of Words (BOW)，它使用单词（局部图像特征，轨迹等）直方图表示每一个视频或者单帧，首先，构建单词字典，然后，通过统计每一个字典的单词在视频中出现的频率计算直方图。事实上，BOW方法通常用在SVM分类器方法中，SVM是一个对于行为检测和拥挤异常识别有效的工具。Kim et al. (2016)提出基于人体部位估计，使用测地线图和SVM分类器的异常行为识别算法。然而，这种方法的性能很大程度上受到人体区域检测，特别是相邻人体检测的影响。

半监督方法只需要正常行为的视频数据来训练，可以分为基于规则和基于模型的方法。第一种方法致力于使用正常行为模式建立规则，然后，左右不符合这个规则的样本就被标记为异常。例如， Lu, Shi, & Jia, 2013 提出一种基于稀疏编码的规则来检测异常行为。尽管在较短的执行时间内（每秒10帧）实现了比较好的效果，但这种结果收到阈值的高度影响。另一项工作依赖于一些规则的构建，来判定是正常还是异常行为。Nguyen et al. (2014) 提出使用形状特征，基于规则的摔倒检测系统。此外，Tani, Lablack, Ghomari, and Bilasco (2015)使用基于本体论的规则来检测视频监控中的异常事件。Castro, Delgado, Medina, and Ruiz-Lozano (2011)结合多个源（音频、视频和传感器）的信息，提出基于规则使用模糊逻辑的自适应系统进行入侵检测。使用模糊规则，Albusac, Vallejo, Castro-Schez, Glez-Morcillo, and Jiménez (2014)提出对于移动目标常规分析的方法，为了检测异常情境，如高速度。Chen, Tian, Zeng, and Huang (2015)提出基于模糊聚类的框架和几个自动编码器。事实上，这个框架包含两个阶段：训练阶段和测试阶段。在训练阶段，提取移动目标的轨迹，并使用模糊聚类技术分组。然后通过训练每一个族群获得自动编码器的集合，然后在测试阶段用其检测异常。此外，Acampora, Foggia, Saggese, and Vento (2015)提出人体行为分析系统，使用基于模糊推理系统的神经网络来分层构建。

在基于模型的方法中，异常模式符合偏离正常行为表示的模型中的实例。马尔科夫随机场MRF模型、高斯混合模型GMM和隐马尔科夫模型HMM是最常用的方法。例如，Hajananth et al. (2014)使用基于MRF技术的GMM来检测异常。另一种分类方法是基于高斯模型。例如，Nannan et al. (2015) 提出，使用基于模型的高斯处理来检测异常的方法。首先，使用HOF提取低层特征来描述运动模式。然后，建立高斯处理模型，产生正常行为分布，然后用来检测视频中的异常。Feng, Yuan, and Lu (2017)建立一个深层GMM，用来学习正常模式。Kai-Wen, Yie-Tarng, and Wen- Hsien (2015b)提出，使用高斯过程回归GPR和STIPs特征，建立层级异常事件检测和定位框架。

无监督方法致力于从无标签数据中提取出统计属性，来学习异常和正常行为。例如，Alvar, Torsello, Miralles, and Armingol (2014)提出，使用基于Dominant Set的无监督框架处理异常行为的方法。Weiya, Guohui, Boliang, and Kuihua (2015)提出，使用特征空间和支持向量数据描述SVDD的无监督核框架来检测异常。表4总结这些方法和框架。

表4： 异常行为检测的框架和分类方法

3.2 密集场景和移动目标交互

3.2.1 宽敞场景

3.2.2 拥挤场景

4、性能验证

性能验证部分至关重要，不仅确保所提系统的效率，也可以与其他系统进行比较。对于视频监控系统有多个验证工程。例如，TRECVID是一家视频检索评估方面的国际公司。他提供监督事件检测SED任务，致力于按照真实事件检测来验证监督系统的性能。事实上，验证阶段必须汇报，使用公共视频数据集，识别了多少异常行为，产生了多少误警。在下文中，我们首先给出广泛使用的异常行为识别的数据集。然后我们给出最流行的验证视频监控系统的度量。

4.1 数据集

异常行为识别已存如此多数量的方法表明它广泛的研究领域。对公共数据集来验证视频监控系统有着越来越大的需求。事实上，这些数据集可以分为非拥挤和拥挤场景。第一种类型的视频包含暴力动作，例如拳击或者踢打。第二种类型的视频描述了群体之间的交互，例如恐慌逃离。表6给出了比较流行的数据集，对于其他数据集，可以参看他们的网站。

表6： 视频监控系统验证可用的数据集

4.2 验证度量

5、已存的视频监控系统

为了人们的安全，智能视频监控系统急切需要，可以在私人和公共领域检测危险情况。对于每一个系统，都是一个依赖于环境的特殊架构。例如，Vallejo, Albusac, Castro-Schez, Glez-Morcillo, and Jiménez (2011)提出一个多代理架构，来配置一个城市交通监管的监督系统。Hampapur et al. (2005)提出跟踪系统的多量程架构，这个系统致力于检测和跟踪移动物体，为了验证他们的属性（动物、车、人等）。事实上，取决于系统的架构，不同的研究工作用来提高监督任务和协助人类操作员。其中一些由European Union (EU).建立，例如，CROMATICA (CROwd MAnagement with Telematic Imaging and Communication Assistance) ( Tomasi & Kanade, 1991 ) 和 PRISMATICA (PRo-active Integrated Systems for security MAnagement by Technological In- stitutional and Communication Assistance) ( Murray & Basu, 1994 )建立的公共交通旅客监控系统。AVITRACK设计用来监管机场的飞机。The Video Surveillance And Monitoring (VSAM) project ( Collins et al., 20 0 0 )由美国政府建立，对移动目标进行检测和定位。还有一些正在使用的监控系统，ADVISOR (Annotated Digital Video for Surveillance 和 Optimised Retrieval) ( Siebel & Maybank, 2004 ), VIGILANT and HESPERIA ( Garcia et al., 2007 ).在表8中，我们给出并比较了上述提到的系统。

表8： 已有的视频监控系统

6、总结和讨论

【论文学习】Abnormal behavior recognition for intelligent video surveillance systems: A review相关推荐

步态识别新论文学习——《Gait Recognition from a Single Image using a Phase-Aware Gait Cycle Reconstruction Netw》
步态识别最新论文学习 <Gait Recognition from a Single Image using a Phase-Aware Gait Cycle Reconstruction Ne ...
深度学习 Feeding behavior recognition for group-housed pigs with the Faster R-CNN 论文篇
Feeding behavior recognition for group-housed pigs with the Faster R-CNN -- 在Faster R-CNN中对群养猪的进食行为识 ...
论文学习-Non-Contact Emotion Recognition Combining Heart Rate and Facial Expression for Interactive Gami
Non-Contact Emotion Recognition CombiningHeart Rate and Facial Expression for Interactive Gaming Env ...
论文学习10-Joint entity recognition and relation extraction as a multi-head selection problem（实体关系联合抽取模型
文章目录 abstract 1.introduction 2. 相关工作 2.1 命名实体识别 2.2 关系抽取 2.3 实体关系联合抽取模型 3.联合模型 3.1 Embedding层 3.2 bi ...
论文学习--Resource allocation for multi-user downlink MISO OFDMA-URLLC systems
Title:Resource allocation for multi-user downlink MISO OFDMA-URLLC systems Author:Walid R. Ghanem, V ...
论文阅读 Skeleton-based abnormal gait recognition with spatio-temporal attention enhanced
Skeleton-based abnormal gait recognition with spatio-temporal attention enhanced gait-structural gra ...
【论文学习】《Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems》
<Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems>论文学习文章目录 <Who is Real ...
深度学习论文: MicroNet: Improving Image Recognition with Extremely Low FLOPs及其PyTorch实现
深度学习论文: MicroNet: Improving Image Recognition with Extremely Low FLOPs及其PyTorch实现 MicroNet: Improvin ...
异常行为检测论文学习综述
近来找了几篇异常行为检测的论文,先大概浏览了一下摘要,记录主要内容,以便后续查看. 1.Abnormal behavior detection using hybrid agents in crowd ...
人群行为分类数据库--Novel Dataset for Fine-grained Abnormal Behavior Understanding in Crowd
Novel Dataset for Fine-grained Abnormal Behavior Understanding in Crowd 数据库:https://github.com/hosse ...

【论文学习】Abnormal behavior recognition for intelligent video surveillance systems: A review