【时序异常检测翻译】1.DeepAnT: A Deep Learning Approach for Unsupervised Anomaly Detection in Time Series

DeepAnT：一种用于时间序列中无监督异常检测的深度学习方法

摘要

传统的基于距离和密度的异常检测技术无法检测流数据中常见的周期性和季节性点异常，在当前物联网时代，时间序列异常检测存在很大差距。为了解决这个问题，我们提出了一种新的基于深度学习的时间序列数据异常检测方法（DeepAnT），该方法同样适用于非流情况。DeepAnT能够检测范围广泛的异常，即时间序列数据中的点异常、上下文异常和不一致。与学习异常的异常检测方法不同，DeepAnT使用未标记的数据来捕获和学习用于预测时间序列正常行为的数据分布。DeepAnT由两个模块组成：时间序列预测器和异常检测器。时间序列预测器模块使用深度卷积神经网络（CNN）来预测定义的地平线上的下一个时间戳。本模块采用时间序列窗口（用作上下文），并尝试预测下一个时间戳。然后将预测值传递给异常检测器模块，该模块负责将相应的时间戳标记为正常或异常。即使不从给定的数据集中删除异常，也可以对DeepAnT进行训练。通常，在基于深度学习的方法中，训练模型需要大量数据。而在DeepAnT中，由于CNN的有效参数共享，模型可以在相对较小的数据集上训练，同时实现良好的泛化能力。由于DeepAnT中的异常检测是无监督的，因此在模型生成时不依赖异常标签。因此，这种方法可以直接应用于现实生活中的场景，在这些场景中，几乎不可能标记来自由正常点和异常点组成的异构传感器的大数据流。我们在**10个异常检测基准上对15种算法进行了详细评估，这些基准共包含433个实时和合成时间序列。**实验表明，在大多数情况下，IDEACT优于现有的异常检测方法，而与其他方法相比性能更高。
**关键词：**异常检测、人工智能、卷积神经网络、深度神经网络、递归神经网络、时间序列分析

1. 介绍

由于异常检测的普遍性，它一直是核心研究领域之一。在日常生活中，我们观察到的异常是我们关注的焦点。当某个东西与分布的其他部分有很大差异时，它被标记为异常或异常值。在本文中，异常值和异常值互换使用，如[1]所述。在计算机科学中，异常检测指的是找到不符合数据集正态分布的特定数据点的技术。Grubbs[2]给出了与计算机科学有关的异常现象的最相关定义：“一个离群观测，或“异常值”，是一个似乎明显偏离其发生样本中其他成员的观测”。“异常”一词被广泛使用，它指的是不同领域的不同问题。例如，网络安全系统中的异常可能是与恶意软件或黑客企图有关的活动[3]。然而，在制造领域，有缺陷的产品被视为异常。尽早发现异常非常重要，以避免金融系统黑客攻击、机器全面故障或人体恶性肿瘤等重大问题。
来自制造业、汽车业、医疗保健业、住宿业、旅游业、时尚业、食品业和物流业等不同行业的公司正在投入大量资源[4]、[5]收集大数据，并探索其中隐藏的异常模式，以方便客户。在大多数情况下，收集的数据都是流式时间序列数据，由于其固有的周期性、趋势性、季节性和不规则性，因此精确检测其中的点异常是一个具有挑战性的问题。此外，在大多数现实生活场景中，几乎不可能标记大量数据，因此，我们使用的是无监督的方法。尽管有许多无监督的方法可用，但它们不能处理时间序列数据的固有特征。例如，传统的基于距离的异常检测技术不包含时间序列的上下文，因此无法发现周期中发生的点异常。提出的无监督方法将上下文、季节性和趋势纳入到异常检测中。这种方法可以适应不同的场景和用例，并适用于不同领域的数据。
本文提出了一种新的基于无监督深度学习的流数据异常检测方法DeepAnT。这种方法不依赖于异常的标记，而是利用原始时间序列数据，即使不删除异常（假设数据集中的异常数量小于5%[3]）。DeepAnT使用CNN作为其预测模块。本模块预测给定时间序列窗口的下一个时间戳。随后，预测值被传递到检测器模块，检测器模块将该值与实际数据点进行比较，以实时检测异常。该方法是现实的，甚至适用于从异构源和传感器收集时间序列数据的领域。DeepAnT在训练数据较少的情况下具有良好的泛化能力。由于在特征提取过程中有效的参数共享，只有少量的训练样本（取决于数据集，例如Yahoo数据集的568个数据点和电离层数据集的140个数据点）足以构建预测模型。在公开的异常检测基准测试中，DeepAnT在大多数情况下都优于最先进的异常检测方法。DeepAnT的目标不是将整个时间序列划分为正常或异常（如[6]–[9]中所述），而是可靠地检测点异常。具体而言，本文的主要贡献如下：
1）据我们所知，DeepAnT是第一个基于深度学习的方法，能够在无监督的环境中检测时间序列数据中的点异常、上下文异常和不一致。
2）提议的管道是灵活的，可以很容易地适应不同的用例和领域。它既适用于单变量时间序列，也适用于多变量时间序列。
3）与基于LSTM的方法相比，基于CNN的DeepAnT并不需要数据。它同样适用于大数据和小数据。我们只使用给定时间序列的40%来训练模型。
4）我们在一个地方收集了不同的异常检测基准，并在10个数据集（包括流式和非流式情况）的不同设置下对15种最先进的方法进行了广泛评估，这些数据集总共包含433个时间序列。DeepAnT在大多数数据集上都取得了最先进的性能。
论文的其余部分组织如下。第二节概述了现有的异常检测方法。第三节提到并总结了最先进的异常检测方法，并将其与第五节中提出的技术进行了评估和比较。第四节详细介绍了时间序列数据中异常检测的方法。第五节对DeepAnT进行了详细评估，并与不同基准上的其他最先进异常检测方法进行了坚实的比较。本节进一步分为几个小节，详细阐述了所用数据集的细节和最先进方法的实验设置。最后，第六部分总结了本文，并为未来可能的工作指明了方向。

2.异常检测方法的文献综述

由于场景和算法的多样性，异常检测问题有多种分类。最常见的分类是基于算法所需的监督级别；有监督、半监督和无监督。另一种分类是基于所使用的基本方法，其次是Aggarwal[10]。此类异常检测方法的示例包括概率模型、统计模型、线性模型、基于邻近性的模型和高维异常检测。此外，基于不同机器学习和深度学习技术的异常检测方法也存在。本节概述了常用的异常检测技术。首先，我们讨论被广泛用于点异常的异常检测技术。然后，概述了针对时间序列数据设计的异常检测技术。最后讨论了基于深度神经网络的异常检测技术。
统计异常检测技术最常用于检测异常。k-NN异常检测方法是点异常最简单、应用最广泛的无监督全局异常检测方法。这种基于距离的算法基于k近邻距离计算异常分数[11]。这种技术计算成本高，高度依赖于k值，如果正常数据点没有足够的邻居，可能会失败。Breunig等人[12]提出了基于局部密度的异常检测最广泛使用的无监督方法，称为局部异常因子（LOF）。在LOF中，通过计算到所有其他实例的距离来确定每个实例的k-最近邻集。该算法的基本假设是数据实例的邻域以球形的方式分布。然而，在一些应用场景中，正常数据点以线性连接的方式分布，密度的球形估计变得不合适[3]。Tang等人[13]提出了一种改进版的LOF，称为基于连通性的离群因子（COF），它改进了考虑到的线性结构。该算法的一个缺点是，在某些情况下，当具有不同密度的聚类彼此非常接近时，异常值得分估计不正确。在这种情况下，低密度集群边界处的实例是相对于高密度集群的局部异常值[3]。受影响异常值（INFLO）[14]算法进一步解决了这一缺点。
除了基于最近邻的算法外，基于聚类的算法也用于无监督的异常检测。顾名思义，基于聚类的局部异常因子（CBLOF）[15]是一种基于聚类的异常检测算法，其中使用k均值（或任何其他）聚类算法对数据点进行聚类。一个实例的异常分数是到下一个大集群的距离。由于该方法基于聚类算法，因此会出现选择正确数量的聚类的问题，并且由于聚类算法的不确定性，同样的异常分数也不可能再现。
基于直方图的异常值分数（HBOS）[16]是另一种统计无监督异常检测算法。与最近邻和基于聚类的异常检测方法相比，该算法的计算成本要低得多。HBOS通过提供标准的固定仓位宽度直方图和动态仓位宽度（每个仓位中的项目数量固定）来处理任意数据。
基于一类支持向量机（OCSVM）的异常检测算法存在半监督和非监督变体。Amer等人[17]引入了OCSVM的无监督变体。基于[18]的想法，这种技术不需要事先的训练数据。它试图学习一个决策边界，以实现点和原点之间的最大分离。该技术还用于检测日常生活活动中的异常情况，例如睡眠、坐姿和行走模式[19]。Hu等人[20]提出了另一种基于OCSVM的时间序列异常检测技术。该方法首先在实际的单变量或多变量时间序列上定义六个元特征，然后在基于元特征的数据空间上应用OCSVM来发现异常状态。一般来说，OCSVM在没有标签的情况下对异常值很敏感。它也被用作新颖性检测技术。Liu等人[21]提出了一种基于支持向量数据描述（SVDD）的异常值检测方法[22]。
Shyu等人[23]提出了一种基于主成分分析（PCA）的异常检测方法，其中预测模型由正常情况的主要和次要主成分构成。Kwitt和Hofmann[24]提出了该技术的另一种变体，其中最小协方差行列式（MCD）用于计算协方差和相关矩阵，而不是标准估计量。
为了结合时间序列特征，存在不同的异常检测技术，这些技术专门用于查找流式时间序列数据的异常。Netflix于2015年将其异常检测功能开源，称为鲁棒异常检测（RAD）[25]。该功能基于鲁棒主成分分析（RPCA）来检测异常。为了检测多TB数据集中的异常时间序列，在[26]中提出了一种磁盘感知算法。统计自回归滑动平均（ARMA）模型及其变量（如ARIMA和ARMAX）广泛用于时间序列预测和异常检测。Yu等人[27]提出了一种基于ARIMA模型的无线传感器网络流量控制异常检测技术。他们提出，短步指数加权平均法是在网络流量中做出更好的异常检测判断的关键。在同一领域，Yaacob等人[28]提出了一种对拒绝服务（DoS）攻击进行早期预警检测的技术。通过比较实际网络流量和ARIMA生成的预测模式，识别异常行为。
如今，人工神经网络（ANN）已成功应用于广泛的领域，如手写识别、语音识别、文档分析、活动识别等；主要用于分类和预测目的。不同的人工神经网络结构已经成功地用于时间序列分析。Malhotra等人[6]提出的异常检测技术基于叠加LSTM。他们的预测模型是在正常时间戳上训练的，这进一步用于计算给定序列的误差向量。根据误差阈值，时间序列被标记为正常或异常。Chauhan和Vig[8]使用类似的方法检测ECG数据中的异常。他们使用RNN和LSTM来检测4种不同类型的异常。Kanarachos等人[29]最近提出了另一种基于深度学习的异常检测技术，他们将小波和希尔伯特变换与深度神经网络相结合。他们的目标是检测时间序列模式中的异常。
Lipton等人[7]使用LSTM将时间序列分为正常或异常。他们在一个临床数据集上应用了他们的技术，并证明仅在原始时间序列上训练的LSTM和目标复制优于在手工工程特征上训练的MLP。郑等人[30]使用CNN进行多变量时间序列分类。他们提出了多通道深度CNN（MC-DCNN），其中每个通道将多维时间序列数据的一个维度作为输入，并单独学习特征。然后是一层MLP来执行分类。实验结果表明，MC-DCNN的性能优于基于欧几里德距离和动态时间包络的K近邻基线方法。所有上述基于深度学习的时间序列异常检测技术都用于将序列或子序列分类为正常或异常。
自动编码器是一种经过训练以再现其输入的神经网络。通常，自动编码器用于降维，这有助于分类和可视化任务。由于它以无监督的方式进行有效的数据编码，它在异常和新颖性检测问题上也越来越受欢迎。Amarbayasgalan等人[31]提出了一种基于深度自动编码器的新颖检测技术。他们的方法从深度自动编码器中获取压缩数据和错误阈值，并对压缩数据进行基于密度的聚类，以获得低密度的新奇组。Schreyer等人[32]还在欺诈检测领域使用深度自动编码器来检测大规模会计数据中的异常情况。

3.用于比较的最先进的方法

本节总结了用于与拟议方法进行比较的最新方法。Twitter Inc.于2015年公开了其异常检测1软件包，该软件包基于季节性混合ESD（s-H-ESD）算法[33]。该技术基于广义极端学习偏差（ESD）测试[34]来处理多个异常值，以及使用黄土（STL）[35]进行季节性和趋势分解来处理时间序列数据和季节性趋势的分解。Twitter异常检测可以检测全局和局部异常。它们提供了两种异常检测功能，用于检测季节性单变量时间序列中的异常：
（i）当输入是一系列<时间戳，值>对时，使用异常检测函数。
（ii）当输入是一系列观察值时，使用异常检测ec函数。
Yahoo实验室发布了另一种异常检测方法EGADS[36]，用于检测大规模时间序列数据中的异常。2 EGADS（可扩展通用异常检测系统）由两个主要组件组成：时间序列建模模块（TMM）和异常检测模块（ADM）。对于给定的时间序列，TMM对时间序列进行建模，并在时间戳t处生成预期值。ADM将预期值与实际值进行比较，并计算错误数E。根据E确定自动阈值，并给出最可能的异常作为输出。TMM支持七个时间序列模型和三个异常检测模型。
ContextOSE[37]基于上下文异常检测（CAD）方法。顾名思义，CAD基于时间序列的上下文/局部信息，而不是全局信息。这种无监督的方法采用一组相似的时间序列和一个窗口大小。首先，选择时间序列的子集，然后计算所选时间序列的质心。质心值与其他时间序列特征一起被进一步用于预测时间序列的值。
Numenta和NumentaTM[38]、[39]是Numenta基于分层时间记忆（HTM）的异常检测方法的两个变体。这些技术对给定数据流中的时间序列进行建模。在给定的时间t，HTM会对下一个时间戳进行多次预测。这些预测将进一步与实际值进行比较，以确定某个值是正常值还是异常值。对于每个时间戳，计算异常可能性分数，对其进行阈值化，以最终得出关于是否存在异常的结论。
Skyline[40]是Etsy，Inc.开发的一种实时异常检测方法。该方法综合了来自不同专家方法的投票。他们使用不同的简单检测器投票计算最终的异常分数。
隔离林（iForest）[41]是一种基于模型的异常检测技术，它基于随机树的思想。在这里，“隔离”意味着将异常实例与其他实例分离。iForest通过随机划分一棵树，然后随机选择特征来隔离实例。这种随机划分会为异常生成更短的路径。从根节点到终止节点的路径长度在随机树林中求平均值。
Twitter异常检测方法专门设计用于检测社交网络数据中的季节性异常。当周期性数据中出现与以前的数据没有太大差异的异常时，这种技术表现良好。但是，当时间序列趋势随时间变化时，它很难发现异常。不同时间序列模型的可用性使EGADS成为通用异常检测方法的良好候选。该方法能够适应不同的用例，其并行架构能够在实时异常中检测异常。ContextOSE利用上下文信息，这对于检测时间序列异常非常重要。NumentaTM基于在线序列存储算法，能够检测空间和时间异常。他们的研究结果仅基于NAB评分。该分数旨在评估异常的早期检测，不能直接用于点异常比较。

4. DeepAnT：时间序列异常检测的新方法

提议的DeepAnT由两个模块组成。第一个模块，时间序列预测器，预测给定视界的时间戳，第二个模块，异常检测器，负责将给定的时间序列数据点标记为正常或异常。深度学习已被广泛应用，主要是因为它能够在不需要任何领域知识的情况下自动发现复杂的特征。这种自动特征学习能力使神经网络成为时间序列异常检测问题的良好候选。因此，DeepAnT使用CNN并利用原始数据。此外，与其他神经网络和统计模型相比，它对变化具有鲁棒性。文献[42]，[43]表明，由于LSTM能够提取遇到的时间序列中的长期趋势，因此它在时间数据上表现良好。然而，我们在这项研究中已经表明，CNN由于其参数效率，可以作为单变量和多变量时间序列数据的良好替代品。通常，CNN和LSTM用于文献[7]，[30]中的时间序列分类问题，但我们使用CNN（和LSTM进行比较）用于时间序列回归问题。

A. 时间序列预测器

DeepAnT的预测模块基于CNN。CNN是一种人工神经网络，由于其参数效率，在计算机视觉和自然语言处理等不同领域得到了广泛的应用。顾名思义，这个网络采用了一种叫做卷积的数学运算。通常，CNN由一系列层组成，包括卷积层、池化层和完全连接层。每个卷积层通常有两个阶段。在第一阶段，层执行卷积运算，从而产生线性激活。在下一阶段，对每个线性激活应用非线性激活函数。在最简单的形式中，卷积是对实值参数的两个函数进行数学运算，以生成第三个函数。卷积运算通常用星号表示：

这个新函数s可以描述为平滑估计或时间戳t处函数x（τ）的加权平均，其中加权由w给出(−τ）在（1）中，函数x被称为输入，函数w被称为内核。输出称为特征映射。一维卷积定义为：

在DeepAnt中，与其他已知方法[44]、[45]类似，卷积层的输出由池层中的池函数进一步修改。池函数根据卷积层的邻域，统计总结了卷积层在某个位置的输出。最常用的最大池操作在DeepAnT中使用，它在定义的邻域中输出最大激活。由于存在多个要素地图，因此在所有这些要素地图上分别应用了池功能。
在一对卷积和最大池层之后，DeepAnT中连接的最后一层是完全连接的层。在这一层中，前一层的每个神经元都连接到所有输出神经元。卷积层和完全连接层的激活分别在（4）和（6）中给出，其中k定义为bFilterSize/2c。

在（4）中，alji是指在卷积层的第i个输入位置激活lth层中的第j个神经元。然而，alj指的是（6）中lth完全连接层中第jth神经元的激活。
与其他人工神经网络一样，CNN使用训练数据调整其参数（权重和偏差）以执行所需任务。在DeepAnT中，使用随机梯度下降（SGD）优化网络参数。训练或学习神经网络的想法是减少成本函数C。在该预测模块中，成本函数计算网络预测和期望预测之间的差异。在学习过程中，通过调整网络的权重和偏差，这种差异被最小化。计算梯度的过程称为反向传播，这是调整权重和偏差所需的。它是通过计算成本函数对任何权重w或偏差b的偏导数获得的，如下所示：∂C/∂w和∂C/∂分别是b。网络权重由SGD更新。
为了利用CNN进行预测，需要以兼容的形式更改时间序列数据，以便系统对其进行操作。对于时间序列中时间戳t处的每个元素xt，时间戳t+1处的下一个元素xt+1用作其标签。输入数据被转换成几个大小为w的重叠窗口序列。该窗口大小定义了历史中的时间戳数量，并将其考虑在内（称为历史窗口）。它还充当xt的上下文。需要预测的时间戳的数量被称为预测窗口（p_w）。在一些研究中，预测窗口也称为（预测）视界[46]，[47]。
考虑时间序列：

在我们的回归问题中，左手边被视为输入数据，右手边被视为标签。在这种情况下，它可以被称为多对一的预测。当p_w>1时，它可以被称为多对多预测。

图1. 用于时间序列预测的DeepAnT体系结构：一个具有两个卷积层、两个最大池和一个完全连接层的卷积神经网络。
1）架构概要
我们做了大量实验，最终确定了体系结构及其超参数。如图1所示，在该架构中使用了两个卷积层，每个卷积层后跟一个最大池层。输入层有w个输入节点，因为我们已经将数据转换成w个向量。每个卷积层由32个滤波器（内核）和一个元素激活函数ReLU组成，如（7）所示。网络的最后一层是完全连接（FC）层，其中每个神经元与前一层中的所有神经元相连。该层表示下一个时间戳的网络预测。输出层中使用的节点数等于p_w。在我们的例子中，我们只预测下一个时间戳，因此输出节点数为1。在本文后面的部分中，当我们预测一个序列而不是单个数据点时，输出层中的节点数会相应地改变。

2）损失函数
（8）中给出的平均绝对误差（MAE）已被用作实际yj和预测ˆyj输出之间差异的指标。通过减少实际值和预测值之间的误差，网络可以学习预测时间序列的正常行为。我们根据训练数据对每个时间序列进行了标准化。

B. 异常探测器

一旦时间序列预测器对下一个时间戳xt+1进行预测，该模块将检测给定时间序列中的异常。预测模块预测的值被传递给该模块，并计算实际值和预测值之间的差值。（9）中给出的欧几里德距离用作差异的度量。

式中，yt为实际值，y0t为预测值。
欧几里德距离被用作异常评分。较大的异常分数表示在给定的时间戳处存在显著异常。需要为该模块定义基于时间序列类型的阈值，这在大多数异常检测算法中都是必需的。

5. 实验装置

我们在10个不同的数据集（433个时间序列）上评估了DeepAnT，并与15种异常检测方法进行了详细比较，其中包括几种最先进的方法。来自不同领域的合成和实时序列数据均用于实验。我们将我们的实验装置分为几个部分，因为文献中不同的异常检测方法是基于不同的度量在不同的基准上进行评估的。本节的划分分别基于Y ahoo、NAB、经典异常检测基准和NASA航天飞机阀门数据集。本节还提供了每个基准及其评估设置的详细说明。

A. 实验环境一：雅虎数据集

1）数据集描述
Y ahoo Webscope3数据集是Y ahoo实验室发布的公开数据集。该数据集由367个带有点异常标签的实时和合成时间序列组成。每个时间序列包含1420-1680个实例。该异常检测基准进一步分为四个子基准，即A1基准、A2基准、A3基准和A4基准。
A1基准包含真实的Y ahoo会员登录数据，它跟踪Y ahoo网络上登录的聚合状态[36]，而其他三个子基准包含合成数据。A2Benchmark和A3Benchmark只包含异常值，而A4Benchmark也包含变化点异常。在合成数据中，异常值出现在随机位置上。在每个数据文件中，都有一个布尔属性–label–指示特定时间戳的值是异常值还是正常值。除了值和标签，A3Benchmark和A4Benchmark还包含其他字段，如变化点、趋势、噪音和季节性。然而，我们抛弃了所有附加属性，只对所有实验使用value属性。图2显示了来自四个子基准的时间序列样本。实际数据流以蓝色显示，异常数据点以红色垂直线突出显示。选择该数据集进行评估的主要原因是点异常标签的可用性，这在公开的流数据集（见[48]）中通常不可用。

图2. 图中显示了每个Yahoo子基准的样本时间序列。实际的流数据以蓝色显示，而红色垂直线根据提供的标签突出显示异常数据点。图（a）和（b）具有随机的季节性、趋势性和噪声，而图（c）和（d）具有具有三个预先指定的季节性的趋势。
2）评估指标和实验设置F分数是最常用的单例指标，它是模型性能的一个指标。因此，我们采用F分数（等式10）作为模型的评估指标。该实验环境中的所有异常检测方法分别应用于每个时间序列。报告每种方法的每个次级基准的平均F分数。

我们在拥有8核Intel Xeon（R）处理器和NVIDIA GeForce GTX 1070的同一台机器上运行所有算法。在给定的Y ahoo Webscope时间序列上，获得异常检测结果平均需要0.076秒，测试数据中有852-1008个实例。
a:深度参数
我们只使用每个时间序列的40%作为训练集，其余60%的数据作为测试集。我们进一步拆分训练集，并使用其中的10%进行验证。由于这是一种无监督的方法，我们在培训过程中不使用任何标签信息。对于每个时间序列，只预测下一个时间戳，并将其标记为正常或异常数据点。为了比较CNN和LSTM在异常检测方面的性能，我们还在DeepAnT的时间序列预测模块中使用了LSTM。我们在训练LSTM时使用了与CNN相同的40%训练数据方案。对于基于LSTM的模型，我们使用了两个LSTM层（如[6]中所述），每个层有32个存储单元。对于这两种技术，我们使用相同的w作为子基准。
找到最佳阈值对于评估非常重要。通常情况下，每个时间序列都有自己的特征，找到一个适用于所有时间序列的通用阈值并不是一项简单的任务。由于每个雅虎子基准都有共同的属性，因此，我们根据验证数据搜索每个子基准的最佳阈值。为了在单个时间序列上获得自动阈值（a）参数方法–Kσ偏差和（b）非参数方法–可以使用密度分布，如[36]所述。
历史窗口（w）是另一个超参数，在改进DeepAnT的预测模型中起着至关重要的作用。同样，没有通用的固定窗口大小可用于所有时间序列。为了再现性，我们在表1中列出了产生最佳F分数的阈值和窗口大小的组合。在超参数优化后，我们筛选出了25、35和45的窗口大小。人们可以使用网格搜索来寻找新时间序列的最佳窗口大小。特定时间序列中周期大小的知识可以作为网格搜索找到最佳窗口大小的良好起点。图3显示了w对每个子基准的平均F分数的影响。这些图还显示了选择正确数量的w。
表1. 此表显示了用于评估Yahoo数据集上DeepAnT的选定历史窗口和阈值。

b:TWITTER异常检测参数
我们使用Twitter异常检测中为A2Benchmark、A3Benchmark和A4Benchmark提供的异常检测功能。对于一个基准测试，我们使用了AnomalyDetectionV ec函数，因为时间戳由发布者在这个数据集中用增量为1的整数替换。我们使用了该方法的所有默认参数，但以下两个除外：
（i） Alpha：该参数定义了接受或拒绝异常的统计显著性水平。我们对该参数使用了三个值，即0.05、0.1和0.2。
（ii）方向：该参数定义要检测的异常的方向性（正或负）。我们使用了“两者”，因为在这个数据集中，异常可以是任何方向的。
c:雅虎EGADS参数
我们在TMM中使用奥林匹克模型，在ADM中使用EGADS ExtremeLowDensityModel Outlier。使用所有其他参数的默认值。Twitter异常检测和EGADS都为每个时间序列计算阈值，并给出异常数据点的时间戳或索引（如果输入数据不包含时间戳）作为输出。为了评估这两种方法，我们使用了用于评估DeepAnT的每个时间序列的相同60%的测试数据。
图3. 每个Yahoo子基准的平均F分数是按照DeepAnT中使用的历史窗口绘制的。图中显示了每个子基准的三个入围窗口。对于A1Benchmark和A2Benchmark，w=45提供了更好的平均F分数，但对于A3Benchmark和A4Benchmark，w=35表现良好。（1）基准测试。（b）基准测试。（c） A3Benchmark。（d） A4Benchmark。

图4. 图中显示了使用DeepAnT进行时间序列预测和异常检测的示例。实际时间序列以蓝色显示。训练数据预测显示为黄色，测试数据预测显示为红色。垂直蓝线是异常地面真相，垂直蓝线上有点显示由DeepAnT检测到的点异常（真正）。对于这个时间序列，DeepAnT F-score为1，而EGADS和Twitter异常检测F-score为0。
表2. 下表给出了雅虎数据集上Twitter异常检测、Yahoo EGADS、DeepAnT和LSTM（DeepAnT使用LSTM作为时间序列预测器）的平均F分数。粗体F分数是对应Yahoo子基准的最佳分数。

3）结果
单个时间序列上的深度异常检测结果如图4所示。在该图中，实际序列用蓝色表示，训练数据预测用黄色表示（未在报告结果中使用），测试数据预测用红色表示。垂直蓝线是训练和测试数据中的基本事实。然而，带圆点的蓝色垂直线显示DeepAnT检测到的点异常（真阳性）。在本例中可以看出，训练数据中存在异常，但网络正确地捕获了生成分布的数据，而忽略了异常。预测数据点（红色）被超级施加在实际时间序列上，以突出我们模型的泛化能力。观测到的时间序列是周期性和趋势性的组合。在这种情况下，异常不仅是一个可以清晰区分的峰值，还可能是一个局部偏离实际周期的数据点。这些局部偏差很难可靠地检测出来。图4放大了两个这样的异常。从该图中还可以看出，从训练和测试数据集开始，w数据点缺失。在这两种情况下，这都是进行预测的开始序列（历史窗口）。
在详细的层面上，表2显示了DeepAnT与EGADS、Twitter和LSTM（DeepAnT使用LSTM作为预测指标）在整个数据集上的比较。DeepAnT在两个次级基准测试中的表现优于其他方法，在其他测试中，它排名第二。基准由不存在趋势和季节性影响的异常组成。大多数情况下，这些异常只是基准测试中的峰值。由于我们是根据低于基准水平的阈值来计算F分数，因此，DeepAnT并不在榜首。然而，其他方法是分别计算每个时间序列的阈值。对于A3Benchmark和A4Benchmark，DeepAnT的F分数明显优于其他方法。Twitter异常检测在基准上根本不起作用。该表还显示，在这种情况下，参数“Alpha”没有显著影响。在此表中还需要注意的是，基于CNN的DeepAnT在三个子基准测试中的性能优于LSTM，在一个子基准测试中的性能稍差。这表明，CNN可以用于训练数据有限的情况。
由于DeepAnT的异常检测模块依赖于时间序列预测器模块，因此良好的预测性能会导致更好的异常点检测。图5显示了时间序列的实际值（地面真值）与预测值的曲线图。理想情况下，它应该是一条平滑的对角线，因为实际值和预测值应该相同或接近。但是，在实践中，由于预测模型中的微小误差，它是一条不均匀的对角线。当实际值和预测值之间存在差异时，则数据点远离对角线——显示特定时间戳处的异常。

图5. 对于单个时间序列，根据时间序列预测绘制实际时间序列值，以显示预测模型的准确性。当实际值和预测值相同（或彼此接近）时，它们形成一条对角线。然而，当实际值和预测值不相同（或彼此不接近）时，它们最终会偏离对角线——这代表观察到的时间序列中的异常。
B. 实验设置II：NAB数据集
1）数据集描述
NAB（Numenta异常基准）[38]是Numenta发布的一个公开的流异常检测基准。4这个数据集由58个数据流组成，每个数据流有1000-22000个实例。该数据集包含来自不同领域的流式数据，包括道路交通、网络利用率、在线广告和互联网交通。根据异常的已知根本原因或按照定义的标记程序（如[38]所述）对数据集进行标记。每个数据文件由时间戳和实际数据值组成。每个数据文件的异常标签在一组单独的文件中给出。
尽管NAB提供了多种标记的流异常检测数据集，但仍存在一些挑战[49]，难以用作实际的异常检测基准。每个带有地面真值异常标签的数据点都以定义的异常窗口（数据文件长度的10%）为中心，这使得正常数据点的地面真值标签也异常。例如，对于大小为350的异常窗口，数据流中的所有350个数据点被标记为异常，而在该异常窗口的中间仅存在2-3个实际异常。这种标签有助于计算良好的NAB分数，并使召回率非常低。[38]中引入了NAB分数作为异常检测分数，旨在奖励早期异常检测，并根据异常窗口内的真检测和假检测惩罚后期检测。
表3. 对来自不同领域的20个NAB时间序列的不同最新算法和所提出的算法进行比较评估。精密度和召回率见下表。
在这里插入图片描述

2）实验装置和评价指标
较高的NAB分数表明，特定算法更倾向于检测早期异常。然而，它并没有显示该算法在异常和假警报的真实检测方面有多好。在现实生活中，除了早期异常检测之外，检测正确数量的异常也同样重要。[49]显示，在某些情况下，NAB分数较高，但精确度和召回率较低，这意味着该算法无法检测到最大数量的异常。本节显示了相同实验的两个级别。在第一个层次上，除了DeepAnT之外，我们还对来自不同领域的20个NAB时间序列应用了五种时间序列异常检测算法。我们选择了与[49]中提到的时间序列相同的时间序列。这些算法是基于精确度和召回率进行评估的。在实验的第二层，我们对11种算法进行了详细的分析，并在整个NAB基准上与DeepAnT进行了比较。评估的算法包括Twitter的异常检测（Twitter ADVec）、上下文OSE、Skyline、Numenta、多项式相对熵[50]、贝叶斯变化点检测[51]、暴露[52]和简单滑动阈值。所有这些算法都在[39]中提到的相同设置和相同参数下使用，因为它们对每个算法进行了广泛的参数调整，并使用了最佳参数。我们使用F分数进行详细评估，以便报告算法的总体性能。我们在此不报告NAB分数，因为我们希望根据检测到的和被拒绝的异常数量以及[49]中提出的其他参数来评估算法。由于NAB基准由来自不同领域的多个时间序列组成，因此，我们报告了每个领域的平均F分数。
3）结果
表3显示了我们NAB实验的第一级结果。在大多数情况下，高精度之后是低召回率。这种低召回率的主要原因是NAB数据集中使用的标记机制。从该表中可以看出，每种算法都能够实现接近1的精度，但召回率保持在0.001之间− 0.36. 在这种情况下，算法检测1−346个异常中有4个异常−401个异常。然而，与其他算法（如ec2请求延迟系统故障、speed-t4013）相比，DeepAnT具有相对更好的召回率和同等精度。表4显示了整个NAB数据集上各种算法的平均F分数（第二级结果）。这里可以注意到，DeepAnT的性能远远优于其他算法。迪潘特是2− 比NAB数据集中不同领域的最佳算法高13倍。
表4. 对NAB数据集上最先进的异常检测方法进行比较评估。报告每个领域的平均F分数，因为每个领域包含不同数量的时间序列。DeepAnT在整个数据集上执行所有其他方法（以粗体显示的最佳平均F分数）。

表5。异常检测基准的数据属性。
C. 实验设置III：经典异常检测基准

1）数据集描述
在本节中，我们使用了7个自然数据集和1个合成数据集，它们在经典异常检测设置中最常用。这些多变量数据集可从UCI机器学习库[53]和OpenML获得。在这些数据集中，5个已知异常案例被标记为地面真相。我们删除了[41]和[54]中所述的所有非连续属性。每个数据集的简要说明如下：
1） Shuttle是NASA的航天飞机数据集，出版商已经将其分为训练集和测试集。如[41]中所述，我们删除了属于类4的所有数据实例。除1类以外的其他类被视为异常。
2） Pima是美国国家糖尿病、消化和肾脏疾病研究所收集的糖尿病数据集。该诊断数据显示患者是否有糖尿病症状。目标值“pos”表示患者患有糖尿病，相应的数据点被视为异常。
3） ForestCover数据集（在UCI存储库中也称为Covertype）的目标值为整数，这是不同的树种。该数据集共由54个特征组成，其中44个特征为分类特征。因此，我们只使用10个非分类特征来训练我们的模型。在7个目标类中，我们使用了[41]中的2个类。4类的所有实例都被认为是异常的，而2类的实例被认为是正常的。
4） Ionosphere是一个雷达数据集。目标属性是电离层，如果雷达显示电离层中存在某种类型的结构，则视为“良好”，否则视为“不良”坏的电离层被认为是异常的。
5） HTTP是KDD CUP’99网络入侵数据的子集。在正常网络数据中手动注入了各种异常（即网络攻击）。这个数据集被用于很多研究中。我们以[55]中描述的标准方式使用了该数据集。
6） SMTP也是KDD CUP’99网络入侵数据的一个子集。该数据集也如[55]所述使用。
7） Mulcross数据集是从一个名为Mulcross[56]的合成数据生成器获得的。它生成了一个多元正态分布，具有可选择数量的异常簇。我们对该数据集使用了与[41]中提到的相同的设置（污染率、距离因子和异常簇）。
8） Mammography数据集在OpenML上公开，有6个功能。1类的所有数据实例都被视为异常。
这些数据集的属性如表5所示。特征数量和异常百分比在这些数据集之间存在显著差异。本表中还提到了每个数据集的目标类别（异常）。
2）评价指标与实验装置
为了评估不同的异常检测算法和DeepAnT，使用了AUC度量。AUC最常用于报告上述数据集异常检测技术的结果。评估是以半监督的方式进行的。在半监督设置（也称为新颖性检测[54]）中，训练数据仅由正常数据组成。在此设置中，在预处理步骤中删除训练集中的所有异常。我们比较了三种最先进的异常检测方法与DeepAnT在上述数据集上的结果。对于基于模型的方法（iForest、OCSVM和DeepAnT），40%的实际数据用于训练，其余用于测试。为了训练iForest模型，我们使用了[41]中建议的默认参数，即ψ=128和t=100。对于OCSVM，我们使用了RBF（径向基函数）核。LOF通常采用k=10的设置。对于DeepAnT，使用历史窗口2，其余参数保持不变。
表6. 在半监督（新颖性检测）环境中对最先进的异常检测方法进行比较。DeepAnT在大多数情况下表现最好（最佳AUC以粗体显示）。

3）结果
半监督或新颖性检测设置的评估结果如表6所示。DeepAnT显示了大多数使用数据集的最佳AUC。在新颖性检测设置中，OCSVM被认为是最好的方法，然而，DeepAnT在大多数数据集中都优于它。这些结果表明，DeepAnT也能够在多变量数据集中发现异常。
D. 实验环境四：不和谐检测
在前面的小节中，我们已经展示了DeepAnT能够检测流式和非流式数据中的点异常以及上下文异常。在本节中，我们将展示DeepAnT也适用于时间序列不一致检测。时间序列不和谐是较长时间序列的子序列，与其他子序列不同[57]。不和谐被认为是时间序列中的异常序列。对于这个实验，我们选择了NASA航天飞机阀门数据集[58]。该数据集中的时间序列是马洛塔MPV-41系列阀门的当前测量值。这些阀门用于控制航天飞机上的燃料流量。在这个数据集中，一些子序列是正常的，而一些是异常的。最初，每个子序列由1000个数据点组成，每个样本的速率为1ms。但是，我们对这组数据进行了70%的降采样，以表明使用CNN可以在少得多的数据上检测到时间序列不一致。正常子序列显示在图6（a）的蓝色突出显示区域，而异常子序列显示在红色突出显示区域。图中的每个子序列由一条蓝色垂直线分隔。我们不提取所有子序列并将其转换为某种符号表示（如[57]中所述），而只是在正常子序列上训练预测模型。除了历史窗口和地平线之外，这里使用了相同的DeepAnT架构和参数。在给定的测试数据上，DeepAnT预测器尝试预测整个子序列。通过聚合在子序列的每个时间戳（如图6（b）所示）处计算的异常分数，计算整个子序列的异常分数。通过在计算出的子序列异常评分上应用阈值来检测不一致。除了不一致检测之外，还可以使用DeepAnT来识别实际导致不一致的子序列的行为。可以在图6（b）的红色突出显示区域中观察到，相应异常行为的异常分数要高得多，这实际上导致了不和谐。

图6. DeepAnT也适用于检测时间序列不一致。时间序列的正常子序列在图（a）中以蓝色突出显示，而以红色突出显示的子序列是不协调的。下图（b）显示了子序列的相应逐点异常分数，该分数（每个子序列）累积以检测不一致。

6. 结论

我们提出了一种基于深度学习的时间序列数据异常检测方法。由于该方法是无监督的，因此不需要异常标签。相反，该方法对规则的数据分布进行建模，并将不符合该模型的数据点标记为异常。该方法能够处理较小的数据污染（小于5%）。即使在检测时间序列周期中的小偏差/异常时，该技术也是准确的，而其他基于距离和基于密度的异常检测技术通常会忽略这些偏差/异常。
我们在10个不同的数据集上评估了DeepAnT，共包含433个时间序列，并与15种最先进的异常检测方法进行了详细比较。为了突出所提出技术的通用性，我们在不同领域的真实和合成数据集上进行了测试，包括道路交通[38]、网络利用[38]、在线广告[38]、互联网交通[55]、航天飞机[58]和健康[53]。在大多数情况下，深度优于最先进的方法，同时保持与他人同等。该方法能够检测具有周期性和季节性特征的时间序列数据中的点异常和上下文异常，也适用于时间序列不和谐的检测。DeepAnT在小数据和大数据场景中都展示了泛化能力。
这种方法可以实际应用于大量数据可用的情况，而不需要对其进行任何标记。然而，数据质量差可能会破坏数据建模阶段。另一方面，如果污染水平过高（超过5%），系统将尝试对这些实例进行建模，因此，在推断时将其视为正常情况。另一个限制是网络架构和相应超参数的选择。这可以通过使用最新的架构搜索技术[59]来避免，该技术将人类的专业知识与计算时间相交换。最严重的限制之一可能是对抗性示例[60]，限制了这种方法（以及大多数以前的数据驱动方法）在安全关键场景中的使用。在理解和抵御这些敌对例子方面已经取得了重大进展。然而，还没有开发出通用技术来规避这个问题。
我们正在扩展该模型，并在时间序列分析中使用域自适应和转移学习的概念进行异常检测。评估不同预处理技术对最终时间序列预测的影响也很有趣。

REFERENCES
[1] C. C. Aggarwal, ‘‘An introduction to outlier analysis,’’ in Outlier Analysis.
Cham, Switzerland: Springer, 2016, pp. 1–40.
[2] F. E. Grubbs, ‘‘Procedures for detecting outlying observations in samples,’’
Technometrics, vol. 11, no. 1, pp. 1–21, 1969.
[3] M. Goldstein, ‘‘Anomaly detection in large datasets,’’ Ph.D. dissertation,
Dept. Comput. Sci., Univ. Kaiserslautern, München, Germany, Feb. 2014.
[Online]. Available: http://www.goldiges.de/phd
[4] L. Columbus. (Dec. 2017). 53% of Companies Are Adopting Big Data
Analytics. [Online]. Available: https://goo.gl/tN5eNC
[5] J. Koetsier. (Dec. 2017). IoT in the USA. [Online]. Available: https://
goo.gl/CPKYrc
[6] P . Malhotra, L. Vig, G. Shroff, and P . Agarwal, ‘‘Long short term memory
networks for anomaly detection in time series,’’ in Proc. Eur . Symp. Artif.
Neural Netw., vol. 23, 2015, p. 89.
[7] Z. C. Lipton, D. C. Kale, C. Elkan, and R. Wetzell. (2015). ‘‘Learning
to diagnose with LSTM recurrent neural networks.’’ [Online]. Available:
https://arxiv.org/abs/1511.03677
[8] S. Chauhan and L. Vig, ‘‘Anomaly detection in ECG time signals via deep
long short-term memory networks,’’ in Proc. IEEE Int. Conf. Data Sci. Adv.
Anal. (DSAA), Oct. 2015, pp. 1–7.
[9] V . Chandola, D. Cheboli, and V . Kumar, ‘‘Detecting anomalies in a
time series database,’’ Dept. Comput. Sci., Univ. Minnesota, Minneapolis,
MN, USA, Tech. Rep. 09-004, 2009.
[10] C. C. Aggarwal, Outlier Analysis, 2nd ed. Cham, Switzerland: Springer,
2016.
[11] S. Ramaswamy, R. Rastogi, and K. Shim, ‘‘Efficient algorithms for min-
ing outliers from large data sets,’’ ACM SIGMOD Rec., vol. 29, no. 2,
pp. 427–438, 2000.
[12] M. M. Breunig, H.-P . Kriegel, R. T. Ng, and J. Sander, ‘‘LOF: Identi-
fying density-based local outliers,’’ ACM SIGMOD Rec., vol. 29, no. 2,
pp. 93–104, 2000.
[13] J. Tang, Z. Chen, A. W.-C. Fu, and D. W. Cheung, ‘‘Enhancing effec-
tiveness of outlier detections for low density patterns,’’ in Advances in
Knowledge Discovery and Data Mining. Berlin, Germany: Springer, 2002,
pp. 535–548.
[14] W. Jin, A. K. H. Tung, J. Han, and W. Wang, ‘‘Ranking outliers using sym-
metric neighborhood relationship,’’ in Advances in Knowledge Discovery
and Data Mining. Berlin, Germany: Springer, 2006, pp. 577–593.
[15] Z. He, X. Xu, and S. Deng, ‘‘Discovering cluster-based local outliers,’’
Pattern Recognit. Lett., vol. 24, nos. 9–10, pp. 1641–1650, 2003.
[16] M. Goldstein and A. Dengel, ‘‘Histogram-based outlier score (HBOS):
A fast unsupervised anomaly detection algorithm,’’ in Proc. KI-2012:
Poster Demo Track, 2012, pp. 59–63.
[17] M. Amer, M. Goldstein, and S. Abdennadher, ‘‘Enhancing one-class sup-
port vector machines for unsupervised anomaly detection,’’ in Proc. ACM
SIGKDD Workshop Outlier Detection Description, 2013, pp. 8–15.
[18] B. Schölkopf, J. C. Platt, J. Shawe-Taylor, A. J. Smola, and
R. C. Williamson, ‘‘Estimating the support of a high-dimensional
distribution,’’ Neural Comput., vol. 13, no. 7, pp. 1443–1471, 2001.
[19] S. W. Yahaya, C. Langensiepen, and A. Lotfi, ‘‘Anomaly detection in
activities of daily living using one-class support vector machine,’’ in
Proc. U.K. Workshop Comput. Intell. Cham, Switzerland: Springer, 2018,
pp. 362–371.
[20] M. Hu et al., ‘‘Detecting anomalies in time series data via a meta-feature
based approach,’’ IEEE Access, vol. 6, pp. 27760–27776, 2018.
[21] B. Liu, Y . Xiao, L. Cao, Z. Hao, and F. Deng, ‘‘SVDD-based outlier
detection on uncertain data,’’ Knowl. Inf. Syst., vol. 34, no. 3, pp. 597–618,
Mar. 2013, doi: 10.1007/s10115-012-0484-y.
[22] D. M. J. Tax and R. P . W. Duin, ‘‘Support vector data description,’’ Mach.
Learn., vol. 54, no. 1, pp. 45–66, Jan. 2004.
[23] M.-L. Shyu, S.-C. Chen, K. Sarinnapakorn, and L. Chang, ‘‘A novel
anomaly detection scheme based on principal component classifier,’’ in
Proc. IEEE F ound. New Directions Data Mining Workshop, Conjunction
3rd IEEE Int. Conf. Data Mining (ICDM), 2003, pp. 172–179.
[24] R. Kwitt and U. Hofmann, ‘‘Robust methods for unsupervised PCA-based
anomaly detection,’’ in Proc. IEEE/IST WorNshop Monitor ., Attacn Detec-
tion Mitigation, Sep. 2006, pp. 1–3.
[25] J. Wong, C. Colburn, E. Meeks, and S. V edaraman. (Feb. 2015). Rad—
Outlier Detection on Big Data. [Online]. Available: http://techblog.
netflix.com/2015/02/rad-outlier-detection-on-big-data.html
[26] D. Yankov, E. Keogh, and U. Rebbapragada, ‘‘Disk aware discord discov-
ery: Finding unusual time series in terabyte sized datasets,’’ in Proc. 7th
IEEE Int. Conf. Data Mining (ICDM), Oct. 2007, pp. 381–390.
[27] Q. Y u, L. Jibin, and L. Jiang, ‘‘An improved ARIMA-based traffic anomaly
detection algorithm for wireless sensor networks,’’ Int. J. Distrib. Sensor
Netw., vol. 12, no. 1, p. 9653230, 2016.
[28] A. H. Yaacob, I. K. Tan, S. F. Chien, and H. K. Tan, ‘‘ARIMA based
network anomaly detection,’’ in Proc. 2nd Int. Conf. Commun. Softw. Netw.
(ICCSN), Feb. 2010, pp. 205–209.
[29] S. Kanarachos, S.-R. G. Christopoulos, A. Chroneos, and
M. E. Fitzpatrick, ‘‘Detecting anomalies in time series data via a
deep learning algorithm combining wavelets, neural networks and
Hilbert transform,’’ Expert Syst. Appl., vol. 85, pp. 292–304, Nov. 2017.
[Online]. Available: http://www.sciencedirect.com/science/article/pii/
S0957417417302737
[30] Y . Zheng, Q. Liu, E. Chen, Y . Ge, and J. L. Zhao, ‘‘Time series clas-
sification using multi-channels deep convolutional neural networks,’’ in
Proc. Int. Conf. Web-Age Inf. Manage. Cham, Switzerland: Springer, 2014,
pp. 298–310.
[31] T. Amarbayasgalan, B. Jargalsaikhan, and K. H. Ryu, ‘‘Unsupervised
novelty detection using deep autoencoders with density based clustering,’’
Appl. Sci., vol. 8, no. 9, p. 1468, 2018. [Online]. Available: http://www.
mdpi.com/2076-3417/8/9/1468
[32] M. Schreyer, T. Sattarov, D. Borth, A. Dengel, and B. Reimer, ‘‘Detec-
tion of anomalies in large scale accounting data using deep autoencoder
networks,’’ CoRR, vol. abs/1709.05254, pp. 1–19, Sep. 2017. [Online].
Available: http://arxiv.org/abs/1709.05254
[33] A. Kejariwal. (Jan. 2015). Introducing Practical and Robust Anomaly
Detection in a Time Series. [Online]. Available: https://blog.twitter.com/
2015/introducing-practical-and-robust-anomaly-detection-in-a-time-
series
[34] B. Rosner, ‘‘Percentage points for a generalized ESD many-outlier proce-
dure,’’ Technometrics, vol. 25, no. 2, pp. 165–172, May 1983.
[35] R. B. Cleveland, W. S. Cleveland, J. E. McRae, and I. Terpenning,
‘‘STL: A seasonal-trend decomposition procedure based on loess,’’ J. Off.
Statist., vol. 6, no. 1, pp. 3–73, 1990.
[36] N. Laptev, S. Amizadeh, and I. Flint, ‘‘Generic and scalable framework for
automated time-series anomaly detection,’’ in Proc. 21th ACM SIGKDD
Int. Conf. Knowl. Discovery Data Mining, 2015, pp. 1939–1947.
[37] (2015). Contextual Anomaly Detector. [Online]. Available: https://github.
com/smirmik/CAD
[38] A. Lavin and S. Ahmad, ‘‘Evaluating real-time anomaly detection
algorithms—The Numenta anomaly benchmark,’’ in Proc. IEEE 14th Int.
Conf. Mach. Learn. Appl. (ICMLA), Dec. 2015, pp. 38–44.
[39] S. Ahmad, A. Lavin, S. Purdy, and Z. Agha, ‘‘Unsupervised real-
time anomaly detection for streaming data,’’ Neurocomputing, vol. 262,
pp. 134–147, Nov. 2017.
[40] (2013). Skyline. [Online]. Available: https://github.com/etsy/skyline
[41] F. T. Liu, K. M. Ting, and Z.-H. Zhou, ‘‘Isolation forest,’’ in Proc. 8th IEEE
Int. Conf. Data Mining (ICDM), Dec. 2008, pp. 413–422.
[42] F. A. Gers, D. Eck, and J. Schmidhuber, ‘‘Applying LSTM to time series
predictable through time-window approaches,’’ in Neural Nets WIRN
Vietri-01. London, U.K.: Springer, 2002, pp. 193–200.
[43] S. Hochreiter and J. Schmidhuber, ‘‘Long short-term memory,’’ Neural
Comput., vol. 9, no. 8, pp. 1735–1780, 1997.
[44] A. Krizhevsky, I. Sutskever, and G. E. Hinton, ‘‘ImageNet classification
with deep convolutional neural networks,’’ in Proc. Adv. Neural Inf. Pro-
cess. Syst., 2012, pp. 1097–1105.
[45] F. N. Iandola, S. Han, M. W. Moskewicz, K. Ashraf, W. J. Dally, and
K. Keutzer. (2016). ‘‘SqueezeNet: AlexNet-level accuracy with 50x fewer
parameters and < 0.5 MB model size.’’ [Online]. Available: https://arxiv.
org/abs/1602.07360
[46] T. T. Tchrakian, B. Basu, and M. O’Mahony, ‘‘Real-time traffic flow
forecasting using spectral analysis,’’ IEEE Trans. Intell. Transp. Syst.,
vol. 13, no. 2, pp. 519–526, Jun. 2012.
[47] P . Du Jardin and E. Séverin, ‘‘Predicting corporate bankruptcy using a self-
organizing map: An empirical study to improve the forecasting horizon of a
financial failure model,’’ Decis. Support Syst., vol. 51, no. 3, pp. 701–711,
2011.
[48] Y . Chen et al. (Jul. 2015). The UCR Time Series Classification Archive.
[Online]. Available: www.cs.ucr.edu/~eamonn/time_series_data/
[49] N. Singh and C. Olinsky, ‘‘Demystifying Numenta anomaly bench-
mark,’’ in Proc. Int. Joint Conf. Neural Netw. (IJCNN), May 2017,
pp. 1570–1577.
[50] C. Wang, K. Viswanathan, L. Choudur, V . Talwar, W. Satterfield, and
K. Schwan, ‘‘Statistical techniques for online anomaly detection in data
centers,’’ in Proc. IFIP/IEEE Int. Symp. Integr . Netw. Manage. (IM),
May 2011, pp. 385–392.
[51] R. P . Adams and D. J. C. MacKay. (2007). ‘‘Bayesian online changepoint
detection.’’ [Online]. Available: https://arxiv.org/abs/0710.3742
[52] M. Schneider, W. Ertel, and F. Ramos, ‘‘Expected similarity estimation
for large-scale batch and streaming anomaly detection,’’ Mach. Learn.,
vol. 105, no. 3, pp. 305–333, 2016.
[53] D. Dheeru and E. K. Taniskidou. (2017). UCI Machine Learning Reposi-
tory. [Online]. Available: http://archive.ics.uci.edu/ml
[54] N. Goix. (2016). ‘‘How to evaluate the quality of unsupervised anomaly
detection algorithms?’’ [Online]. Available: https://arxiv.org/abs/1607.
01152
[55] K. Yamanishi, J.-I. Takeuchi, G. Williams, and P . Milne, ‘‘On-line unsu-
pervised outlier detection using finite mixtures with discounting learning
algorithms,’’ in Proc. 6th ACM SIGKDD Int. Conf. Knowl. Discovery Data
Mining, 2000, pp. 320–324.
[56] D. M. Rocke and D. L. Woodruff, ‘‘Identification of outliers in multivariate
data,’’ J. Amer . Stat. Assoc., vol. 91, no. 435, pp. 1047–1061, 1996.
[57] E. Keogh, J. Lin, and A. Fu, ‘‘Hot sax: Efficiently finding the most unusual
time series subsequence,’’ in Proc. 5th IEEE Int. Conf. Data Mining, 2005,
pp. 226–233.
[58] B. Ferrell and S. Santuro. (2005). NASA Shuttle V alve Data. [Online].
Available: http://www.cs.fit.edu/~pkc/nasa/data/
[59] B. Zoph and Q. V. Le, ‘‘Neural architecture search with reinforcement
learning,’’ CoRR, vol. abs/1611.01578, pp. 1–16, Nov. 2016.
[60] A. Kurakin, I. J. Goodfellow, and S. Bengio, ‘‘Adversarial machine learn-
ing at scale,’’ CoRR, vol. abs/1611.01236, pp. 1–17, Nov. 2016.