视频异常检测综述（一）

文章目录

视频异常检测综述（一）
一、视频异常检测(Video anomaly detection)的定义
二、单场景&多场景
三、视频异常类型
- 1.Appearance-Only Anomalies
- 2.Short-Term Motion-Only Anomalies
- 3.Long-Term Trajectory Anomalies
- 4.Group Anomalies
- 5.Time-of-Day Anomalies
四、数据集（单场景视频异常检测）
- 1.Subway
- 2.UMN
- 3.UCSD Pedestrian
- 4.CUHK Avenue
- 5.Street Scene
五、数据集（多场景视频异常检测)
- 1.ShanghaiTech
- 2.UCF-Crime
六、评估方法
- 1.传统的评估方法
- 2.近期的评估方法
禁止搬运、转载！

一、视频异常检测(Video anomaly detection)的定义

视频异常可以被认为是不正常的外观或运动属性的发生，或者正常的外观或运动属性在不正常的位置或时间发生。

然而由于视频异常是和场景相关的，在一个场景中异常的活动在另一个场景中可能是正常的，因此，模型训练需要正常的视频(即不包含任何异常的视频)来表达在特定场景中可能发生的各种正常活动。对于异常的视频来说，收集所有可能的异常事件的视频用于训练是不现实的，而且即使收集少数异常事件也很昂贵，因此通常的假设是，训练数据仅由正常活动组成。

二、单场景&多场景

以往的大多数视频异常检测工作都没有认识到单场景视频异常检测与多场景视频异常检测的重要区别。

一个重要的区别是，单场景异常检测公式可以包含位置相关的异常，而多场景不能。
位置相关的异常是指，某一物体或活动在场景的某些区域出现或发生是异常的，但在其他区域不是。在草地上行走就是一个很好的例子，在一个特定的草地上，可能会有一些草地区域是允许正常行走的，而其他区域是被限制的，因此在上面行走是异常的，区分这两种活动的唯一因素是位置。
在多场景视频异常检测中，通常是从多个不同的、不相关的场景中提取正常的视频，建立单一的常态化模型。这种情况下的目标是学习各种现象和活动出现在任何一个视频里的常态。并且在多场景公式中没有跨场景的对应关系，所以不可能创建一个单一的模型，去区分其中一个活动在某些场景的某些位置是异常的，而在其他位置是正常的。
然而在单场景视频异常检测中，与位置相关的异常(如乱穿马路、在人行道上骑自行车、向错误的方向驾驶汽车等)，包括正常的活动或物体发生或出现在不正常位置的情况是很常见的。

另外一个重要的区别是：多场景视频异常检测中正常的训练视频需要保持一致性
一致性的含义是指，训练样本的所有场景中，什么是正常的行为，什么是异常的行为必须是相同的。这是因为一个单一的常态模型是由所有不同场景的视频建立起来的。例如，在一个场景中，卡车倒向建筑物可能是正常的，因为有一个装货码头，而卡车倒向建筑物在另一个场景中可能是反常的。这样的场景是不一致的。

三、视频异常类型

1.Appearance-Only Anomalies

这些异常可以被认为是一个场景中不寻常的物体出现。例如人行道上的骑自行车者，或道路上的巨石。检测这些异常只需要检查单个视频帧的局部区域。

2.Short-Term Motion-Only Anomalies

这些异常可以被认为是场景中不寻常的物体运动行为。例如，一个人在图书馆跑步，或汽车在路上侧滑。检测这些异常通常只需要在短时间内检查视频的局部区域。

Appearance-Only Anomalies和Short-Term Motion-Only Anomalies可以进一步归类为局部异常，因为它们具有局部性这种额外的属性

3.Long-Term Trajectory Anomalies

这些异常可以被认为是场景中不寻常的物体轨迹。例如，行人在人行道上呈之字形行走，汽车在车流中穿梭，或在外国使馆建筑周围闲逛。检测轨迹异常需要检查更长的视频片段。

4.Group Anomalies

群异常可以被认为是场景中不寻常对象之间的交互。例如，一群人排成队形行走(如军乐队)。检测组异常需要分析两个或多个视频区域之间的关系。

5.Time-of-Day Anomalies

这种类型的异常与所有其他类型都不同。使某些活动归为异常的原因是它们发生的时间异常。例如，人们在黎明时分进入了电影院。通常，检测这些异常只需要在一天的不同时间使用不同的正常模型。

并不是所有这些不同类型的异常对于每种应用都是必须检测的。视频异常检测往往会更加深入，依赖于应用需求。事实上，在公开的视频异常检测数据集中，主要只出现Appearance-Only Anomalies和Short-Term Motion-Only Anomalies的异常。并且不同类型的异常并不是相互排斥的，多种类型的异常同时发生的现象非常普遍。

值得注意的一点是，虽然异常通常是在二元的意义上进行讨论，但其本质上是一个流动的概念，每一种活动在某种程度上都是异常的。当两个活动相似时，找到与我们直觉概念相对应的特征和距离测量是创建成功的视频异常检测算法的关键。

四、数据集（单场景视频异常检测）

1.Subway

Subway数据集由两个不同室内场景的长视频组成，一个地铁入口和一个地铁出口，形成两个独立的数据集。它主要捕捉通过旋转门进出的人。异常现象包括人们在旋转门上跳跃或挤来挤去，清洁工在清理墙壁，人们走错了方向。目前还不清楚应该以什么样的帧速率从这些视频中提取数据集，以及哪些帧被标记为异常，哪些帧用于训练和测试，也没有空间上的Ground Truth提供。数据集包含总共85个被标记为时间的异常事件。
这个数据集现在已经相当老了，由于存在歧义和缺乏空间注释，不建议使用该数据集来评估任何形式的异常检测方法。

2.UMN

UMN数据集有11个短的视频片段，由3个不同的摄像机在室外场地，室外庭院和室内门厅拍摄。所有的视频都是从正常的活动开始，然后是一个异常的事件，如人群突然迅速疏散，暗示了疏散的场景。异常是分阶段的，每个片段都有一个异常事件，并且异常只是临时性标记的。对于提取、训练或测试的分割帧率没有明确的规范。

数据集和GT可以在http://mha.cs.umn.edu/proj_events.shtml#crowd进行获取。
由于这些歧义和缺乏空间注释，不建议使用它来评估任何形式的异常检测方法。

3.UCSD Pedestrian

视频异常检测最广泛使用的数据集是UCSD Ped1和Ped2数据集。这些数据集中都包含来自不同视角的静态摄像机拍摄的视频，这些摄像机可以俯瞰人行道，视频中人行道上的人群密度有时很高，甚至会造成严重堵塞。在该数据集中，所有非行人对象以及行人的异常运动均被视为异常。存在的异常类型有“自行车手”、“滑冰者”、“手推车”、“轮椅”、“步行穿越”和“其他”。
UCSD Ped1由34个训练视频和36个测试视频组成，分辨率为158×238像素，视角范围可以被视为中等范围，每个视频有200帧。
UCSD Ped2包含16个训练视频和12个测试视频，分辨率略高，为240×360像素，每个视频具有120至200帧。
数据集可以在http://www.svcl.ucsd.edu/projects/anomaly/dataset.htm进行获取
作者提供的UCSD Ped1和Ped2数据集的空间（像素级）和时间注释均可用，但对于UCSD Ped1，作者仅发布了部分像素级GT，随后由B. Antic and B. Ommer完成了注释的补充，补充的内容可以在https://hci.iwr.uni-heidelberg.de/COMPVIS/research/parsing/进行获取。最近，B. Ramachandra, M. Jones, and R. Vatsavai提供了一组该数据集的边界框注释，其中包含异常区域标识符以及使用最新标准进行评估所需的轨迹标识符，可以在http://www.merl.com/demos/video-anomaly-detection进行获取。

4.CUHK Avenue

该数据集由一台摄像机拍摄的短视频片段组成，该摄像机观察建筑物的侧面，建筑物的旁边是一条人行道，视频主要包括人们进出建筑物，建筑物中的混凝土柱会造成人流严重堵塞。
该数据集包含16个训练视频和21个测试视频，其空间分辨率为640×360像素，共包含47个异常事件，主要包括“扔纸”、“扔包”、“儿童打闹”、“行走方向错误”和“把包放在草地上”等动作。
作者提供了时间和像素级（边界框形式）注释，数据集和GT可在http://www.cse.cuhk.edu.hk/leojia/projects/detectabnormal/dataset.html找到。B. Ramachandra, M. Jones, and R. Vatsavai提供了另一组边界框注释，其中包含异常区域标识符以及使用最新协议进行评估所需的轨迹标识符，可以在http://www.merl.com/demos/video-anomaly-detection进行获取。
值得注意的一点是，一些在该数据集上报告结果的论文使用了GitHub上的一些评估代码[https://alliedel.github.io/anomalydetection/]错误计算像素级结果,代码生成的像素级AUC高于帧级AUC，这是不可能的，因为帧级AUC对像素级AUC施加了上限。未来的论文不应该引用这些错误的结果，也不应该使用产生这些错误的代码。

5.Street Scene

该数据集是视频异常检测公开可用数据集的最新添加也是最大的数据集，包括46个训练视频和35个测试视频，空间分辨率为1280×720。这些视频片段由USB摄像机拍摄，俯瞰包含自行车道和人行道的双车道街道在白天时的场景。该数据集是较有挑战性的数据集，因为发生了各种各样的活动，如汽车驾驶、转弯、停车；步行、慢跑、推婴儿车的行人；还有在自行车道上骑自行车的人。此外，视频还包括不断变化的阴影、移动的背景（如旗帜和随风飘扬的树木），以及树木和大型车辆造成的遮挡。
若以每秒15帧的速度从原始视频中提取，可以得到用于训练的帧数为56847，用于测试的帧数为146410，该数据集总共包含205个自然发生的异常事件，从违规行为(如乱穿马路和非法掉头)到训练集中不会发生的行为(如遛宠物和售票员给汽车开罚单)。可以参考__Street scene: A new dataset and evaluation protocol for video anomaly detection__以获得更详细的描述和完整的元数据。
作者在http://www.merl.com/demos/video-anomaly-detection上提供了数据集和一组边界框注释，其中包含了异常区域标识符以及用于评估最新协议所需的跟踪标识符。

五、数据集（多场景视频异常检测)

值得注意的是，其他一些数据集对多场景视频异常检测很有用，因为这些数据集包括了来自各种不相关场景的视频。

1.ShanghaiTech

该数据集包含了13个不同场景的视频，其中一个典型的视频场景是人们沿着大学的人行道行走，异常活动包括骑自行车、玩滑板和打架。该数据集旨在用于从所有13个场景的训练集中学习单个模型。虽然可以将该数据集视为13个独立的数据集(如UCSD Ped 1和Ped2)，但这是有问题的，因为这种分割方法将产生平均每个场景仅有10个异常事件，这是非常小的，而且还不清楚每个场景的小训练集中捕获的变化是否代表正常活动。
该数据集可在https://svip-lab.github.io/dataset/campus_dataset.html上下载。

2.UCF-Crime

这个数据集包含从许多不同的摄像头拍摄的128小时的互联网视频，包括盗窃、入店行窃和攻击等犯罪异常活动。异常只在时间上有注释(即没有空间注释)。作者还主张根据一组预先确定的异常类型对异常进行分类，这使得本数据集所要处理的问题公式不同于通常的多场景视频异常检测公式。数据集可以从https://www.crcv.ucf.edu/projects/real-world/下载。

六、评估方法

异常是与场景相关的，什么是异常完全取决于测试时发生的训练集(定义正常活动)中没有的活动。此外，虽然异常是一个流动的概念，但基础真注解在本质上是二元的。确定训练视频中缺少哪些活动通常会导致歧义。例如，在训练视频中可能有两个人并排走在人行道上，但可能没有两个人在走路时牵着手的活动出现。后者应该被标记为反常吗?异常到底在哪个帧开始和结束?整个区域(包括两个行人)应该被标记为异常区域，还是只是在手拉手周围的一个狭窄区域?
此任务的每个数据集和注释都是不完美的，并且会存在这样的歧义。尽管标记中不可避免地存在歧义，但评估措施将试图对算法在实践中的定性性能给出一个现实的衡量。

1.传统的评估方法

传统上，该领域的研究使用帧级和像素级标准来评估性能，在给定的异常评分阈值下计数阳性、阴性、真阳性和假阳性，并计算真阳性率(TPR)和假阳性率(FPR)。

T P R = 预测为正例且真实情况为正例的个数所有真实情况为正例的个数 TPR = \frac{预测为正例且真实情况为正例的个数}{所有真实情况为正例的个数} TPR=所有真实情况为正例的个数预测为正例且真实情况为正例的个数
F P R = 预测为正例但真实情况为反例的个数所有真实情况为反例的个数 FPR = \frac{预测为正例但真实情况为反例的个数}{所有真实情况为反例的个数} FPR=所有真实情况为反例的个数预测为正例但真实情况为反例的个数
TPR越大，表示挑选出来的越有可能是正确的；FPR越大，表示挑选出来的越有可能是错误的，二者呈反相关。

通过改变异常评分的阈值，以生成FPR与TPR的ROC曲线，ROC曲线下面积(Area under ROC curve，AUC)和等错误率(Equal Error Rate, EER)用来总结ROC曲线。

以上评估方法需要使用像素级的Ground Truth，即在某一时刻t对应的帧 F t F^t Ft,都有其对应的二进制掩码 A t A^t At,来表示每一个像素是否有异常出现。

对应的帧级评判标准如下：给定测试视频的第t帧进行逐像素预测的异常得分图 S t S^t St,若 ∑ p [ S t ( p ) ⩾ Γ ] ⩾ 1 \textstyle\sum_{p}[S^t(p)\geqslant\varGamma ]\geqslant1 ∑p[St(p)⩾Γ]⩾1,该帧就会被预测为异常，其中p代表覆盖一帧中的所有像素的索引， Γ \varGamma Γ 为异常分数的阈值，[C]的计算含义为，如果c = 1或True，则[c] = 1,否则为0。即观察该帧的所有像素的异常分数，若至少出现一个像素位置的异常分数超出阈值，则将帧预测为异常。

进一步地，在某一帧被预测为异常的情况下，若 ∑ p [ A t ( p ) = = 1 ] ⩾ 1 \textstyle\sum_{p}[A^t(p) == 1]\geqslant1 ∑p[At(p)==1]⩾1，则该帧被归类为真阳性；若 ∑ p [ A t ( p ) = = 1 ] = = 0 \textstyle\sum_{p}[A^t(p) == 1]==0 ∑p[At(p)==1]==0，则该帧被归类为假阳性，由其可以计算TPR与FPR，从而可以进一步地计算AUC和EER。

帧级标准不评估是否实现了任何空间定位，不建议单独使用这个标准，而是建议在判断真阳性与假阳性时使用像素级标准。

对应的像素级评判标准如下：给定测试视频的第t帧进行逐像素预测的异常得分图 S t S^t St,若 ∑ p [ ( S t ( p ) ⩾ Γ ) ⋅ A t ( p ) ] ⩾ 0.4 ⋅ ∑ p [ A t ( p ) = = 1 ] \textstyle\sum_{p}[(S^t(p)\geqslant\varGamma ) \cdot A^t(p)]\geqslant0.4\cdot\textstyle\sum_{p}[A^t(p) == 1] ∑p[(St(p)⩾Γ)⋅At(p)]⩾0.4⋅∑p[At(p)==1]且 ∑ p [ A t ( p ) = = 1 ] ⩾ 1 \textstyle\sum_{p}[A^t(p) == 1]\geqslant1 ∑p[At(p)==1]⩾1,该帧就会被预测为真阳性。

这种方法的优势在于考虑到了一些空间上的信息，即如果一帧中超过40%标注的Ground Truth中的异常像素被模型预测为异常，那么一帧就被算作真阳性帧。如果一帧没有Ground Truth异常像素，但有至少一个像素被预测为异常，假阳性被计数。注意，使用这个标准，即使考虑了空间定位(尽管是粗略的)，真阳性和假阳性的计数仍然在帧级别。

而正负总数目与帧级评估标准相同，将产生以下后果:

即使帧中存在多个异常，帧也只能被计算为一个真阳性帧。40%的阈值应用于一帧中所有Ground Truth异常像素。
该准则不惩罚预测区域的松动，即使某一帧在预测时有很多正常的区域被预测为异常，但是满足了帧级、像素级评估标准，还是会将它归类为真阳性，按常理应该归类为假阳性。
即使有多个不同的区域被预测为异常但实际上全部是正常的帧，也只能算作一个假阳性。

虽然在正确使用这些标准的情况下，可以对不同的视频异常检测算法进行排名，但它们现在在较小的数据集上已经饱和(过去几年里，帧级AUC在UMN数据集上反复被报道为> 99%)，显然存在严重的缺陷。

2.近期的评估方法

一些研究人员已经认识到帧级和像素级标准的这些缺点，并试图提出旨在解决这些问题的新标准。M. Sabokrou, M. Fayyaz, M. Fathy, and R. Klette提出了双像素级准则，该准则在像素级准则的基础上增加了一个额外的约束。

双像素级别准则：若 ∑ p [ ( S t ( p ) ⩾ Γ ) ⋅ A t ( p ) ] ⩾ 0.4 ⋅ ∑ p [ A t ( p ) = = 1 ] \textstyle\sum_{p}[(S^t(p)\geqslant\varGamma ) \cdot A^t(p)]\geqslant0.4\cdot\textstyle\sum_{p}[A^t(p) == 1] ∑p[(St(p)⩾Γ)⋅At(p)]⩾0.4⋅∑p[At(p)==1]且 ∑ p [ ( S t ( p ) ⩾ Γ ) ⋅ A t ( p ) ] ⩾ 0.1 ⋅ ∑ p [ S t ( p ) ⩾ Γ ] \textstyle\sum_{p}[(S^t(p)\geqslant\varGamma ) \cdot A^t(p)]\geqslant0.1\cdot\textstyle\sum_{p}[S^t(p)\geqslant\varGamma] ∑p[(St(p)⩾Γ)⋅At(p)]⩾0.1⋅∑p[St(p)⩾Γ]且 ∑ p [ A t ( p ) = = 1 ] ⩾ 1 \textstyle\sum_{p}[A^t(p) == 1]\geqslant1 ∑p[At(p)==1]⩾1,则该帧被归类为真阳性。

也就是说，除了预测为异常的像素需要覆盖至少40%的地面真实异常像素外，预测为异常的像素也需要至少有10%为Ground Truth异常像素。即增加的条件为，被预测为异常的像素不能包含太多正常的像素。

虽然这是一种改进，但它仍然不能正确地计算(1)具有多个Ground Truth异常的帧中的真阳性和假阳性数量，(2)真阳性和假阳性都可以预测到的像素区域数量，(3)多个假阳性同时都预测错误的像素区域的数量。

C. Lu, J. Shi, W. Wang, and J. Jia也意识到像素级准则存在缺陷，并使用与目标检测评判标准中类似的Intersection Over Union (IOU)来惩罚CHUK Avenue数据集上检测的紧密性和松散性。不幸的是，这并不能解决真阳性或假阳性的多个计数的问题。此外，由于注释格式的差异，他们不能在其他数据集上使用这个基于IOU的标准。

B. Ramachandra and M. Jones提出了两个新的标准，基于区域和基于跟踪的评估方法，以取代以前的标准。在他们看来，评估协议的设计应考虑到任何异常检测数据集中可能出现的歧义、偏差和不一致性。他们使用了两个措施来试图解决旧标准中出现的问题:

1、提出了一种松散的IOU准则来判断空间定位，从而解决了异常事件标记和检测中固有的模糊性。此外，他们提出的基于轨迹的准则只要求在异常轨迹中检测到固定百分比的帧中的异常。

2、他们计算真阳性和假阳性的数量的计算标准是按区域来计算，而按帧数来进行计算。这意味着在他们的标准下，一个框架可以有多个真阳性或假阳性。

基于区域的检测准则计算测试集中所有帧的基于区域的检测率(RBDR)与每帧假阳性区域的数量比率(FPR)

R B D R = 预测为真阳性的区域数量该帧中包含的所有异常区域的数量 RBDR = \frac{预测为真阳性的区域数量}{该帧中包含的所有异常区域的数量} RBDR=该帧中包含的所有异常区域的数量预测为真阳性的区域数量

F P R = 预测为假阳性的区域数量 ( N F P ) 总帧数 FPR = \frac{预测为假阳性的区域数量(NFP)}{总帧数} FPR=总帧数预测为假阳性的区域数量(NFP)

真阳性区域的数量(NTP)的计算方法如下：

N T P = ∑ t = 1 T ∑ i = 1 N t [ ∃ D t s u c h t h a t G i t ⋂ D t G i t ⋃ D t ⩾ β ] NTP = \displaystyle\sum_{t=1}^T \displaystyle\sum_{i=1}^{N_t} [\exist D^t such that \frac{G_i^t\bigcap D^t}{G_i^t\bigcup D^t}\geqslant\beta] NTP=t=1∑Ti=1∑Nt[∃DtsuchthatGit⋃DtGit⋂Dt⩾β]

其中 D t D^t Dt表示的是第t帧检测到的一个异常区域， G i t G_i^t Git表示的是第t帧的第i个Ground Truth异常区域， N t N_t Nt为帧t中ground truth异常区域的个数， β \beta β为阈值，通常设置为0.1

换句话说，真阳性区域的数量就是所有检测到的测试帧中属于Ground Truth真区域的总数。当框架内任意一个被检测为异常区域与Ground Truth的真区IOU计算大于等于 β \beta β时，认为该帧内的真异常区域被检测到。

假阳性区域(false positive region, NFP)的数量可以表示为

N F P = ∑ t T ∑ j = 1 M t [ ∀ G t , G t ⋂ D j t G t ⋃ D j t < β ] NFP = \displaystyle\sum_{t}^T \displaystyle\sum_{j=1}^{M_t} [\forall G^t ,\frac{G^t\bigcap D_j^t}{G^t\bigcup D_j^t}<\beta] NFP=t∑Tj=1∑Mt[∀Gt,Gt⋃DjtGt⋂Djt<β]

其中 G t G^t Gt表示的是第t帧Ground Truth中的一个异常区域， D j t D_j^t Djt表示的是第t帧，第j个被检测为异常的区域， M t M_t Mt是第t帧检测为异常的区域数量， β \beta β为阈值，通常设置为0.1

也就是说，假阳性区域的数量是所有测试帧中与任何ground truth异常区域没有足够重叠的检测区域的总数。

基于轨迹的检测准则衡量基于轨迹的检测率(TBDR)与每帧假阳性区域的数量。

对于这一标准，需要Ground Truth异常轨迹。Ground Truth异常轨迹是在连续帧序列中的一组Ground Truth异常区域。

T B D R = 预测为真阳性的轨迹数量所有轨迹的数量 TBDR = \frac{预测为真阳性的轨迹数量}{所有轨迹的数量} TBDR=所有轨迹的数量预测为真阳性的轨迹数量

不失一般性的情况下，假设使用之前定义的标记 G k t G_k^t Gkt来进一步定义异常轨迹，那么一个异常轨迹 L k L_k Lk可以定义为：跨度为t1到t2帧所包含的Ground Truth异常区域的集合。

L k : = { G k t 1 , G k t 1 + 1 , . . . , G k t 2 − 1 , G k t 2 } L_k :=\text{\textbraceleft} G_k^{t1}, G_k^{t1+1},...,G_k^{t2-1},G_k^{t2}\text{\textbraceright} Lk:={Gkt1,Gkt1+1,...,Gkt2−1,Gkt2}

真阳性的预测轨迹(NTPT)的计算方法可以按如下定义：

N T P T = ∑ k = 1 N k [ ( ∑ G k t ∈ L k [ ∃ D t s u c h t h a t G k t ⋂ D t G k t ⋃ D t ⩾ β ] ) ⩾ α ⋅ ∣ L k ∣ ] NTPT = \displaystyle\sum_{k=1}^{N_k} \Bigg[ \Bigg(\displaystyle\sum_{{G_k^t}\in{L_k}} [\exist D^t such that \frac{G_k^t\bigcap D^t}{G_k^t\bigcup D^t}\geqslant\beta] \Bigg)\geqslant \alpha \cdot |L_k| \Bigg] NTPT=k=1∑Nk[(Gkt∈Lk∑[∃DtsuchthatGkt⋃DtGkt⋂Dt⩾β])⩾α⋅∣Lk∣]

其中 N k N_k Nk是异常轨迹的总数(NAT), ∣ L k ∣ |L_k| ∣Lk∣是 L k L_k Lk的大小， α \alpha α为阈值，通常设置为0.1

换句话说，只有当Ground Truth异常区域轨迹中至少( α ⋅ 100 \alpha \cdot 100 α⋅100)%的部分被正确检测出来，这个预测的异常区域轨迹才会被当作真阳性。

公式的内部表示的意思是被预测为异常的区域与该帧中的Ground Truth异常区域的IOU小于 β \beta β, 则该区域为假阳性，这与基于区域的准则的定义相同。

在这个方法里的FPR的计算方法如下

F P R = 假阳性区域的数量总和 ( N F P ) 总帧数 FPR = \frac{假阳性区域的数量总和(NFP)}{总帧数} FPR=总帧数假阳性区域的数量总和(NFP)

注意到由于假阳性区域是逐帧统计的，任何一种标准的最大可能的假阳性率都可以超过1.0，建议通过计算两种标准每帧的假阳性率的AUC来总结ROC曲线。

使用这些新标准的要求是，需要带有唯一异常区域id和异常轨道id的边界框注释，这些注释在数据集UCSD Ped1、UCSD Ped2、CHUK Avenue和Street Scene中是提供的。

最后，我们还应该考虑到，AUC等度量只提供了对性能狭隘观点的总结，并且有许多缺点。由于这些原因，鼓励研究人员提供定性分析和可视化的检测。

禁止搬运、转载！