↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习,不错过

Datawhale干货

作者:赵越,卡内基梅隆大学,Datawhale特邀

作者信息

知乎微调:https://www.zhihu.com/people/breaknever

PPT和视频:后台回复 异常检测 获取

内容概括

1.什么是异常检测?

2.异常检测有什么具体应用?

3.异常检测的工具概览?如何用10行Python代码进行异常检测?

4.异常检测算法概览与主流模型介绍

5.面对各种各样的模型,如何选择和调参?

6.未来的异常检测研究方向

7.异常检测相关的资源汇总(书籍、讲座、代码、数据等)

异常检测

什么是异常值、离群点(anomaly)?

异常一般指的是与标准值(或期待值)有偏离的样本,也就是说跟绝大部分数据“长的不一样”。

异常检测的一些特点:

1.异常不一定代表是“坏”的事情,但往往是“有价值”的事情,我们对异常的成因感兴趣

2.异常检测往往是在无监督的模式下完成的—历史数据中没有标签,我们不知道哪些数据是异常。因此无法用监督学习去检测。

异常检测的应用:

1.金融行业的反欺诈、信用卡诈骗检测:把欺诈或者金融风险当做异常

2.罕见病检测:把罕见病当做异常,比如检测早发的阿兹海默症

3.入侵检测:把网络流量中的入侵当做异常

4.机器故障检测:实时监测发现或预测机械故障

5.图结构、群体检测:比如检测疫情的爆发点等

异常检测的应用

IntelControlFlag

“基于10亿条包含各种错误的未标记生产质量代码的机器学习培训,ControlFlag得以通过“异常检测”技术,对传统编程模式展开筛查。无论使用的是哪种编程语言,它都能够有效地识别代码中可能导致任何错误的潜在异常。”

AmazonAWSCloudWatch:

“今天,我们将通过一项新功能增强CloudWatch,它将帮助您更有效地使用CloudWatch警报。…我们的用户可以构建自定义的控制面板,设置警报并依靠CloudWatch来提醒自己影响其应用程序性能或可靠性的问题。”

Google

“GoogleAnalytics(分析)会选择一段时期的历史数据来训练其预测模型。要检测每天的异常情况,训练期为90天。要检测每周的异常情况,训练期为32周。”

异常检测的挑战

1.大部分情况下是无监督学习,没有标签信息可以使用

2.数据是极端不平衡的(异常点仅占总体数据的一小部分),建模难度大

3.检测方法往往涉及到密度估计,需要进行大量的距离/相似度计算,运算开销大

4.在实际场景中往往需要实时检测,这比离线检测的技术难度更高

5.在实际场景中,我们常常需要同时处理很多案例,运算开销大

6.解释性比较差,我们很难给出异常检测的原因,尤其是在高维数据上。但业务方需要了解异常成因

7.在实际场景中,我们往往有一些检测的历史规则,如何与学习模型进行整合

异常检测工具

Python

1.PyOD:超过30种算法,从经典模型到深度学习模型一应俱全,和sklearn的用法一致

2.Scikit-Learn:包含了4种常见的算法,简单易用

3.TODS:与PyOD类似,包含多种时间序列上的异常检测算法

Java

1.ELKI:EnvironmentforDevelopingKDD-ApplicationsSupportedbyIndex-Structures

2.RapidMiner异常检测扩展

R

1.outlierspackage

2.AnomalyDetection

用10行Python代实行异常检测:

详细介绍:https://zhuanlan.zhihu.com/p/58313521

异常检测算法

异常检测算法可以大致被分为

1.线性模型(LinearModel):PCA

2.基于相似度的度量的算法(Proximity-basedModel):kNN,LOF,HBOS

3.基于概率的算法(ProbabilisticModel):COPOD

4.集成检测算法(EnsembleModel):孤立森林(IsolationForest),XGBOD

5.神经网络算法(NeuralNetworks):自编码器(AutoEncoder)

评估方法也不能简单用准确度(accuracy),因为数据的极端不平衡

1.ROC-AUC曲线

2.Precision@Rankk:topk的精准

3.AveragePrecision:平均精准度

主流模型介绍

如何选择和合并模型

异常检测实践中的技巧

异常检测落地中的考量

1.不要尝试一步到位用机器学习模型来代替传统模型

2.在理想情况下,应该尝试合并机器学习模型和基于规则的模型

3.可以尝试用已有的规则模型去解释异常检测模型

异常检测研究方向

本文视频讲解,PPT,赵越的异常检测资源已汇总(书籍、讲座、代码、数据等)

第 1 步:扫码关注「Datawhale」公众号

第 2 步:回复关键词 异常检测 可获取

CMU赵越 关于异常检测的分享!相关推荐

  1. CMU赵越:异常检测的算法、案例和落地

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale线上 分享:赵越,卡内基梅隆大学   研究方向:异常检测等 东南大学微软技术俱 ...

  2. CMU赵越:关于数据挖掘的分享!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale线上 分享:赵越,卡内基梅隆大学   主题:数据挖掘 理工学生联合会SESA是 ...

  3. 【机器学习基础】关于异常检测的分享!

    作者:赵越,卡内基梅隆大学,Datawhale特邀 作者信息 知乎微调:https://www.zhihu.com/people/breaknever 内容概括 1.什么是异常检测? 2.异常检测有什 ...

  4. 【GNN报告】赵越-图神经网络与异常检测

    目录 1.简介 2.图神经网络与异常检测 小引 图异常检测 背景 系统PyGOD 基准BOND综述 未来方向 总结 小结 QA 3.参考 1.简介 摘要: 在这次演讲中,赵越会围绕异常检测与图上的异常 ...

  5. WWW 2018论文分享| 基于部分可见异常样本的异常检测问题

    小蚂蚁说: The Web Conference 2018,即前WWW大会(International Conference of World Wide Web)于4月23-28日期间在法国里昂举行. ...

  6. 【CVPR智慧城市挑战赛】无监督交通异常检测,冠军团队技术分享

    [新智元导读]"智能交通视频分析界的ImageNet竞赛"--英伟达城市挑战赛落下帷幕.新加坡松下研究院联合中科院自动化所,提出了一种双模态动静联合检测方案,在交通异常检测比赛中拔 ...

  7. 【论文分享】MAD-GAN :基于生成对抗网络的时间序列数据多元异常检测

    2019年ICANN文章 MAD-GAN: Multivariate Anomaly Detection for Time Series Data with Generative Adversaria ...

  8. 技术分享|基于图神经网络的微服务系统调用链和日志融合异常检测方法

    基于图神经网络的微服务系统调用链和日志融合异常检测方法 微服务系统运行时环境具有高度的复杂性和动态性,由此带来的各种问题导致微服务系统常常出现各种故障.为了尽早发现故障,快速准确的异常检测方法成为保证 ...

  9. 【时间序列异常检测】时序异常检测综述整理(2020-2021)

    转载:宅码 最近阅读几篇异常检测综述,这里整理分享给大家,推荐阅读:5星.不足之处,还望批评指正. 赵越博士的异常检测库Python Outlier Detection (PyOD) [1]写的很好, ...

最新文章

  1. Git tag 打标签
  2. 语音用户界面基本设计原则
  3. c++ set 遍历_47. Set 是如何工作的(3) 遍历顺序是如何确定的?
  4. AliasDB:简单统一灵活的数据库访问库(支持MSSQL/MySQL/SQLite/Oracle/ODBC/OleDb)适用于中小型系统...
  5. nginx做负载均衡+keepalived(做主备)
  6. python输入输出基本点
  7. Android 视频裁剪自定义 View
  8. 惠普笔记本重装系统 BIOS设置
  9. 【网络】把路由器用作交换机的方案
  10. STM32CubeMX HAL F103 BKP备份寄存器使用
  11. statis关键字的使用
  12. php 图片获得大小,PHP获取一张图片的宽度和高度大小 并裁切图片
  13. C语言实现密码登录界面,你可能已被盯上!
  14. you are an asshole
  15. c语言参数隐式转换,Implicit conversions(隐式转换)
  16. [Python 高德地图] API调用学习历程(三)
  17. POJ - 1088 滑雪 【DP】【DFS】
  18. 微信车辆派遣小程序实现小结
  19. 企业内部防泄密不完善造成重大损失案例(上)
  20. EAS BOS:科目余额表、辅助账余额表

热门文章

  1. Elasticsearch——Rest API中的常用用法
  2. Android 曲线动画animation,类似加入购物车动画
  3. uvalive 3218 Find the Border
  4. unity中摄像机的控制---调整摄像机,不让他摔倒
  5. 大四狗找工作,持续更新
  6. 客户端如何连接 DataSnap Server 调用服务的方法
  7. Java设计模式之虚拟代理模式
  8. 电子学会青少年编程等级考试Python案例10
  9. 《C#精彩实例教程》小组阅读10 -- C#属性与方法
  10. 【ACM】杭电OJ 4548 美素数(二次打表)