目录

  • 第十章 异常检测
    • 预备知识
      • 异常的成因
      • 异常检测方法
      • 类标号的使用
      • 问题
    • 统计方法
      • 检测一元正态分布中的离群点
      • 多元正态分布的离群点
      • 异常检测的混合模型方法
    • 基于邻近度的离群点检测
    • 基于密度的离群点检测
    • 基于聚类的技术

第十章 异常检测

预备知识

异常的成因

  • 数据来源于不同的类
  • 自然变异
  • 数据测量和收集误差

异常检测方法

  • 基于模型的技术:与事先建立的数学模型不能完美拟合的对象
  • 基于邻近度的技术:基于距离的离群点检测技术
  • 基于密度的技术:对象的密度估计可以相对直接地计算

类标号的使用

  • 监督的异常检测:存在正常类和异常类的数据集
  • 非监督的异常检测:没有类标号
  • 半监督的异常检测:训练数据包含被标记的正常数据,但是没有关于异常对象的信息

问题

  • 用于定义异常的属性个数
  • 全局观点与局部观点
  • 点的异常程度:异常或离群点得分
  • 评估
  • 有效性

统计方法

离群点是一个对象,关于数据的概率分布模型,具有低概率
问题:

  • 识别数据集的具体分布
  • 使用的属性个数
  • 混合分布

检测一元正态分布中的离群点

多元正态分布的离群点


异常检测的混合模型方法


基于邻近度的离群点检测

一个对象的离群点得分由到它的k-最近邻的距离给定

基于密度的离群点检测

基于密度的离群点:一个对象的离群点得分是该对象周围密度的逆

使用相对密度的离群点检测

基于聚类的技术

  • 丢弃远离其他簇的小簇
  • 首先聚类所有对象,然后评估对象属于簇的程度

    评估对象属于簇的程度:度量对象到簇原型的距离,使用Mahalanobis距离
    离群点对初始聚类的影响:对象聚类,删除离群点,对象再次聚类
    使用簇的个数
    优点:时间空间复杂度为线性或接近线性,高度有效
    缺点:产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性

《数据挖掘导论》学习 | 第十章 异常检测相关推荐

  1. 数据挖掘导论读书笔记11异常检测

    异常检测的目标是发现与大部分其他对象不同的对象.通常,异常对象被称作离群点(Outlier). 异常检测也称偏差检测(Deviation detection),因为异常对象的属性值明显偏离期望的或者常 ...

  2. HALCON 20.11:深度学习笔记(9)---异常检测

    HALCON 20.11:深度学习笔记(9)---异常检测 HALCON 20.11.0.0中,实现了深度学习方法. 本章解释了如何使用基于深度学习的异常检测. 通过异常检测,我们想要检测图像是否包含 ...

  3. 论文阅读_深度学习的医疗异常检测综述

    英文题目:Deep Learning for Medical Anomaly Detection - A Survey 中文题目:深度学习的医疗异常检测综述 论文地址:https://arxiv.or ...

  4. 数据挖掘导论学习笔记(一)

    第一章 绪论 数据挖掘:在大型数据存储库中,自动的发现有用信息的过程. 数据库中知识发现过程(KDD): 输入数据->数据预处理---->数据挖掘---->后处理---->信息 ...

  5. 《异常检测——从经典算法到深度学习》9 异常检测资料汇总(持续更新抛砖引玉)

    <异常检测--从经典算法到深度学习> 0 概论 1 基于隔离森林的异常检测算法 2 基于LOF的异常检测算法 3 基于One-Class SVM的异常检测算法 4 基于高斯概率密度异常检测 ...

  6. 数据挖掘导论学习---1

    最近在看清华大学数据挖掘导论,图个自己复习省事,把学的东西整理在这里,也希望本菜鸡的整理对一些童鞋有帮助吧. 分类问题: 定义:给定训练集:{(x1,y1),...,(xn,yn)},生成将任何未知对 ...

  7. 数据挖掘导论学习总结——第四章

    第四章:分类与预测 分类方法用于预测数据对象的离散类别,预测则用于预测数据对象的梁旭取值,例如我们可以构造一个分类模型来对银行贷款进行风险评估,也可以简历一个预测模型以利用顾客收入与职业预测其可能用于 ...

  8. 数据挖掘导论学习笔记 第五章 分类算法

    5.1基于规则的分类器 基于规则的分类器的规则用析取范式R=(r1∨r2∨⋯∨rk)R=(r_1\lor r_2 \lor \cdots \lor r_k)R=(r1​∨r2​∨⋯∨rk​)表示.R称 ...

  9. 数据挖掘导论学习笔记:第三章 探索数据

    3.1鸢尾花数据集 这个数据集包含150种鸢尾花信息,每50种取自三个鸢尾花种之一:Setosa.Versicolour.Virginica. 属性描述: 萼片长度(cm) 萼片宽度(cm) 花瓣长度 ...

  10. 异常检测中的浅层模型与深度学习模型综述(A Unifying Review of Deep and Shallow Anomaly Detection)

    A Unifying Review of Deep and Shallow Anomaly Detection 异常检测中的浅层模型与深度学习模型综述 摘要:随着众多异常检测方法(基于生成模型,单分类 ...

最新文章

  1. 星际2的一些技术特性
  2. CSS之深入理解 flex 布局以及计算
  3. 【啃不完的算法导论】- 动态规划 - 最长公共子序列(概念篇)
  4. Redis 事务深入解析
  5. 新书进展和我的决定。
  6. c++基于asio的组播:windows linux通信
  7. Stack Usage on Transfers to Interrupt and Exception Handling Routines
  8. Paravirtualization (半虚拟化PV) - Xen
  9. 基于JAVA+SpringMVC+Mybatis+MYSQL的宿舍管理平台系统
  10. 程序员遇到不认识的花是这样识别的
  11. CPLEX——关键字
  12. Linux如何一键配置网络ip?
  13. dell主板恢复出厂设置_DELL如何进入BIOS及恢复BIOS出厂设置
  14. Thread-Specific Storage Pattern
  15. 内置方法及模块初识,set的hash算法面试题
  16. 第四课 尚硅谷Scala语言学习-面向对象
  17. 面试常见几种排序算法 Java代码总结
  18. 操作系统安全-第一章-引言
  19. Python在金融分析中的应用:量化投资与风险管理
  20. 大数据在职研究生哪个好_哪些人适合报考2019年大数据在职研究生

热门文章

  1. STM32学习——Keil5的注册步骤
  2. Multilingual预训练的那些套路
  3. Ubuntu16.04刷机+装驱动
  4. 常用Windows快捷键大全
  5. python上传文件到oss_python实现上传文件到OSS
  6. python 通信_深入浅出通信原理(Python代码版)
  7. ad18/ad19/ad20/ad21/ad22新版ADgaber导出(含官方教程)(含坐标文件)
  8. IPC Hi3518EV300开发板——1. Linux系统移植
  9. Thermo-Calc 2003p for WiN32 1CD(热力学计算、合金体系扩散控制计算)
  10. html5实例绘制时钟代码,使用html5 canvas 画时钟代码实例分享