摘要:本文提出了两个用于无监督的具备可解释性和鲁棒性时间序列离群点检测的自动编码器框架。

本文分享自华为云社区《解读ICDE'22论文:基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法》,作者:云数据库创新Lab 。

导读

本文(Robust and Explainable Autoencoders for Unsupervised Time Series Outlier Detection)是由华为云数据库创新Lab联合丹麦Aalborg University与电子科技大学发表在顶会ICDE’22的文章。该文章针对时间序列离群点检测问题,提出了基于自动编码器(AE)和鲁棒的主成分分析(RPCA)结合的兼具鲁棒性和可解释性的深度神经网络算法鲁棒自动编码器(RAE)和鲁棒双自动编码器(RDAE),并通过大量的实验证明RAE和RDAE算法能有效提高时间序列离群点检测的准确度,鲁棒性和可解释性。ICDE是CCF推荐的A类国际学术会议,是数据库和数据挖掘领域顶级学术会议之一。

1. 摘要

随着数据挖掘技术在制造业、众包和交通等领域的普及,大量的时序性数据被产生及应用。本文研究的是时间序列的离群点检测问题,旨在解决时间序列离群点检测难以兼具鲁棒性和可解释性的问题。

鲁棒性:在无监督的情况下,训练数据可能已经包括了离群值。由于编码器压缩了输入时间序列中的所有观测值,因此产生的潜在表征对离群值很敏感。特别是当它们的幅度很大时,少量的离群值仍然可能污染潜在的表征。训练数据中的离群值有可能污染潜在表征,使潜在表征也捕捉到离群值模式;因此一些离群值可能有小的重建误差(图1b中的红色曲线),很难从干净的数据中分离出来。这对准确性产生了不利的影响。例如,图1b中的蓝色曲线显示了从被污染的潜在表征中重建的时间序列。这就产生了一些重建误差较小的离群值,使得它们很难被发现(见图1b中的橙色区域)。为了避免这种情况,需要采用鲁棒的解决方案,使潜像表征受训练数据中离群值的影响较小。

可解释性:自动编码器将具有较大重建误差的观测值视为离群值,给定一个输入时间序列\mathcal{T}T,自动编码器将重建洁净的时间序列\hat{\mathcal{T}}T^。如果输入时间序列中的观测值与重建时间序列中的相应观测值有很大的偏差,即相应的重建误差\mathcal{T}-\hat{\mathcal{T}}T−T^很大,那么自动编码器就把这些观测值看作是离群值。然而现有的自动编码器产生的重建时间序列\mathcal{T}T往往比较复杂(例如,图1b中的蓝色曲线),致使用户难以理解哪些观测值应该出现在正常状态下。这就要求有更多的可解释的解决方案,例如重建的时间序列具有一个易于人类理解的模式(例如图1c中的蓝色曲线)。

图1. 鲁棒性和可解释性说明

本文针对以上挑战提出了相应的解决办法,主要贡献如下:

  • 本文提出了两个用于无监督时间序列离群点检测的自动编码器框架RAE和RDAE,提供了更好的鲁棒性和可解释性。
  • 本文提出了一种post-hoc可解释性分析技术。该方法能够对基于AE的离群点检测方法的可解释性进行量化分析。
  • RAE和RDAE算法的准确率和可解释性在真实的时间序列数据集上击败了现有的方法。

2. 背景

图2. 自编码器流程图

模型设计:首先,本文提出的模型支持时间序列问题。第二,本文提出的模型具有鲁棒性。第三,本文提出的模型具备可解释性。第四,本文提出的模型支持非线性关系。第五,本文支持多视角的学习机制。基于上述分析,本文提出两个兼具鲁棒性和可解释性的自动编码器框架RAE和RDAE,其差异性如图3所示:

图3. 模型差异性

3. RAE和RDAE算法设计

本文提出的RAE和RDAE算法结合了自编码器的支持时间序列,支持非线性拟合和RPCA具有良好鲁棒性和可解释性的优势。我们会先后介绍这两个模型。

RAE

RAE结合了自编码器和RPCA的优点,其流程图如图4所示:

图4. RAE流程图

RAE算法的具体细节如图5所示:

图5. RAE算法细节

RDAE

多视图学习已经被证明能够通过向学习器提供补充信息来提高学习算法的鲁棒性,例如矩阵视图和时间序列视图。受此启发,基于RAE的多视图框架RDAE被提出。其流程图如图6所示:

图6. RDAE流程图

RDAE算法的细节如图7所示:

图7. RDAE算法细节

4. 可解释性

模型的可解释性指模型的输出是否易于人类理解并接受。图8介绍了何为可解释性:

图8. 可解释性介绍

图8a中的蓝色曲线为输入的时间序列,红色点为离群点。图8b的模型展示了同事具备高准确率和可解释性的模型。图8c展示了高准确率但是不具备可解释性的模型。图8d展示了具备可解释性但是低准确率的模型。可解释性高的模型输出的洁净时间序列具有比较简单的解析形式,即具备简单的且可以被人类理解的函数形式。

本文提出了两种post-hoc量化可解释性方法,PRM-based Explainability Scores和SSA-based Explainability Scores。提出的方法可以量化不同的基于自编码器的离群点检测算法的可解释性。我们会依次介绍这两种方法。

PRM-based Explainability Scores

该方法的思想是将拟合的洁净时间序列与N阶多项式求解平方根均方误差(RMSE),设定阈值\gammaγ,若RMSE小于该阈值,则认为洁净时间序列觉有N阶多项式序列可解释性。求解模型输出可以满足要求的最小N。当N越小,则认为模型的输出更具有可解释性。其公式如下:

SSA-based Explainability Scores

该方法的思想是将拟合的洁净时间序列与包含N个组件的SSA算法输出求解平方根均方误差(RMSE),SSA算法可将时间序列分解成N个具有趋势性和周期性的时间序列的线性组合。设定阈值\gammaγ,若RMSE小于该阈值,则认为洁净时间序列觉有包含N个组件的SSA可解释性。求解模型输出可以满足要求的最小N。当N越小,则认为模型的输出更具有可解释性。其公式如下:

5. 实验

本文选取了七个时间序列数据集GD,HSS,ECG,NAB,S5,2D,SYN,并选取了15个现有的离群点检测方法作为baseline。

实验结果 本文在七个数据集上分别做了对比实验,用ROC和PR作为比较手段,总体实验结果如图9所示:

图9. 实验结果

实验表明,RAE和RDAE在绝大多数情况下取得了最优表现。

此外,本文还完成了参数学习的研究,结果如图10所示:

图10. 参数学习

我们对模型的五个模块进行了消融实验,实验证明每个模块都发挥了作用,结果如图11所示:

图11. 消融实验

最后本文还测试了算法运行时间的对比,实验表明本文提出的方法在兼具鲁棒性和可解释性的同时运行时间也有一定的优势。结果如图12所示:

图12. 运行时间实验

6. 结论

本文提出了两个用于无监督的具备可解释性和鲁棒性时间序列离群点检测的自动编码器框架。这些框架首次尝试改善现有的基于神经网络的自动编码器的两个不足:低可解释性和对离群值的高脆弱性。RAE和RDAE将一个时间序列分解为一个洁净时间序列和一个离群时间序列,并使它们对离群值具有鲁棒性和可解释性。我们提供了一种post-hoc可解释性分析方法来量化模型的可解释性。实验研究表明本模型超过了最先进的方法。

华为云数据库创新lab官网:云数据库创新Lab-主页-华为云

华为伙伴暨开发者大会2022火热来袭,重磅内容不容错过!

【精彩活动】

勇往直前·做全能开发者→12场技术直播前瞻,8大技术宝典高能输出,还有代码密室、知识竞赛等多轮神秘任务等你来挑战。即刻闯关,开启终极大奖!点击踏上全能开发者晋级之路吧!

【技术专题】未来已来,2022技术探秘→华为各领域的前沿技术、重磅开源项目、创新的应用实践,站在智能世界的入口,探索未来如何照进现实,干货满满点击了解

点击关注,第一时间了解华为云新鲜技术~

解读ICDE‘22论文:基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法相关推荐

  1. 基于鲁棒图进行概念架构设计

    ADMEMS方法归纳了鲁棒图建模的10条经验要点,分别覆盖语法,思维,技巧,注意事项等4个方面. 鲁棒图建模的10条经验. 1.遵守建模规则. 通过以下4条语句,可以理解该图的本质: 1.1 参与者只 ...

  2. 【阅读论文】基于统计特征的无监督时间序列异常检测方法

    文章目录 摘要 1.介绍 2.相关工作 3.问题描述 4.方法 4.1 统计特征 4.2提取特征总结 4.3 学习阶段算法 4.4测试阶段算法 5.结果 5.1 YOB评价:单变量 5.3对合成数据集 ...

  3. 大功率双伺服电机驱动板,包含原理图,PCB和原代码,基于STM32F4方案,支持霍尔,编码器,无感

    大功率双伺服电机驱动板,包含原理图,PCB和原代码,基于STM32F4方案,支持霍尔,编码器,无感. 需要有一定的基础,无基勿扰. :9450639029711075枫叶蓝.

  4. ICLR 2021 | 美团AutoML论文:鲁棒的神经网络架构搜索 DARTS-

    高质量模型的设计和更新迭代是当前 AI 生产开发的痛点和难点,在这种背景下,自动化机器学习(AutoML)应运而生.2017年,谷歌正式提出神经网络架构搜索(Neural Architecture S ...

  5. 【CVPR2022】基于鲁棒区域特征生成的零样本目标检测

    来源:专知 本文为论文,建议阅读5分钟 首次实现了同时针对可见目标类和不可见目标类的统一目标检测模型. 黄培亮,韩军伟,程德,张鼎文. Robust Region Feature Synthesize ...

  6. 基于鲁棒-距离平衡和基于学习的人工蜂群的强大优化算法(Matlab代码实现)

  7. PAUL VIOLA 鲁棒的实时人脸检测:Robust Real-Time Face Detection

    PS: 本文系本人本科期间翻译,由于那时刚接触学术论文,水平有限,其中难免出现翻译得不专业之处,此文翻译仅供参考...有时间的话,本人再修改修改哈 国际计算机视觉期刊57(2), 137–154, 2 ...

  8. 【论文摘要】基于多数投票模式和超混沌加密的彩色图像鲁棒安全零水印算法

    Robust and secure zero-watermarking algorithm for color images based on majority voting pattern and ...

  9. 顶会VLDB‘22论文解读:CAE-ENSEMBLE算法

    摘要:针对时间序列离群点检测问题,提出了基于CNN-AutoEncoder和集成学习的CAE-ENSEMBLE深度神经网络算法,并通过大量的实验证明CAE-ENSEMBLE算法能有效提高时间序列离群点 ...

最新文章

  1. 文顶顶 iOS开发UI篇—UITabBarController简单介绍 iOS开发UI篇—UITabBarController简单介绍...
  2. 045魔法方法:属性访问
  3. IOS12上微信中点击不到表单的bug
  4. leetcode 617. 合并二叉树 思考分析
  5. 显示文字_如何观看HBO Max并显示中文字幕?
  6. 【报告分享】2021制造业数字化转型路线图.pdf(附下载链接)
  7. 未来架构师的平台战略范例(2)_集装箱
  8. python小结教学_Python Str内部功能-个人课堂笔记,课后总结
  9. 利用cookie 解决多站点共享session的解决方案
  10. python的文件操作os_​Python:目录和文件的操作模块os.path
  11. Android HAL
  12. python图书管理系统源代码_python实现 图书管理系统源码(入门级控制台项目)...
  13. 分享一下我在东方时尚学车的经历
  14. 工具优化篇之IDEA新UI+日常插件
  15. 手机游戏的分析,设计,思考
  16. linux下主目录和根目录的区别
  17. 利用hfs工具上传文件的操作教程
  18. 寻回失落的“纸人李”——四川大学团队用3D技术平台重现传统纸人工艺
  19. 解决ERROR #42601 syntax error at or near “)“
  20. VSCode + Latex +Texlive 编译 biber格式参考文献时 VSCode的配置方法

热门文章

  1. 摄影构图没有灵感?学习这些优秀案例,想不美都难!
  2. 求一元二次方程的根(C语言实现)
  3. vue仿今日头条_Vue仿今日头条实例详解
  4. Spring 响应式编程,真香!!!
  5. 蓝牙模块HC-05使用指南
  6. 关于如何给机械革命深海泰坦添加ssd硬盘
  7. 二维码(QR code)原理解析
  8. 输入git stash后如何恢复代码
  9. 为什么Java 服务Docker容器耗尽了系统内存
  10. bios设置内存频率教程(图文教程)