学习笔记,仅供参考,有错必究


新颖性和离群值检测

概述

许多应用程序要求能够判断一个新的观测值是否与现有的观测值属于相同的分布(它是内值),还是应该被视为不同的分布(它是离群值)。通常,这种能力用于清洁实际的数据集。必须两个重要区别必须被声明:

  • outlier detection(离群检测)

    训练数据包含离群值,离群值定义为与其他观测值相距甚远的观测值。 因此,异常检测估计器会尝试拟合训练数据最集中的区域,而忽略异常观察。

  • novelty detection(新颖性检测)

    训练数据不会被离群值污染,我们感兴趣的是检测一个新的观测值是否是离群值。在这种情况下,离群值也被称为novelty。

离群检测和新颖性检测均用于异常检测,其中一种是检测异常或不寻常的观测值。 因此,异常检测也称为非监督异常检测,而新颖性检测也称为半监督异常检测。 在离群值检测的情况下,离群值/异常不能形成密集的群集,因为可用的估计量假设离群值/异常位于低密度区域。 相反,在新颖性检测的情况下,只要新颖性/异常位于训练数据的低密度区域(在此上下文中被视为正常),就可以形成密集的簇。

scikit-learn项目提供了一套机器学习工具,可以用于新颖性或异常值检测。这一策略是通过以无监督的方式从数据中学习对象来实现的:

estimator

sklearn自学指南(part45)--新颖性和离群值检测概述相关推荐

  1. sklearn自学指南(part46)--新颖性和离群值检测方法概述

    学习笔记,仅供参考,有错必纠 文章目录 新颖性和离群值检测 离群点检测方法概述 新颖性检验 离群值检测 拟合椭圆包络 孤立森林 局部离群因子 基于局部离群因子的新颖性检测 新颖性和离群值检测 离群点检 ...

  2. sklearn自学指南(part40)--使用手册的目录

    学习笔记,仅供参考,有错必究 文章目录 2.6. 协方差估计 2.7. 新颖性和异常值检测 2.8. 密度估计 2.9. 神经网络模型(无监督) 2.6. 协方差估计 2.6.1. 经验方差 2.6. ...

  3. sklearn自学指南(part22)--支持向量机的分类与回归

    学习笔记,仅供参考,有错必纠 文章目录 支持向量机 分类 多分类问题 分数和概率 不平衡的问题 回归 密度估计,新颖性检测 复杂性 支持向量机 支持向量机(SVM)是一组用于分类.回归和异常检测的有监 ...

  4. sklearn自学指南(part4)--使用手册的目录

    学习笔记,仅供参考,有错必纠 自翻译+举一反三 文章目录 1.4. 支持向量机 1.5. 随机梯度下降法 1.6. 近邻 1.4. 支持向量机 1.4.1. 分类 1.4.2. 回归 1.4.3. 密 ...

  5. sklearn自学指南(part57)--协方差估计

    学习笔记,仅供参考,有错必纠 文章目录 协方差估计 经验协方差 缩减协方差 基本的收缩 Ledoit-Wolf收缩 甲骨文近似收缩(Oracle Approximating Shrinkage) 稀疏 ...

  6. sklearn自学指南(part43)--数据加载工具

    学习笔记,仅供参考,有错必究 文章目录 数据加载工具 Toy datasets Real world datasets 用法 数据加载工具 sklearn.datasets 包嵌入了一些在入门的一节中 ...

  7. sklearn自学指南(part34)--K-means

    学习笔记,仅供参考,有错必究 文章目录 聚类 聚类方法概述 K-means Low-level parallelism Mini Batch K-Means 聚类 未标记数据的聚类可以通过模块skle ...

  8. sklearn自学指南(part31)--半监督学习

    学习笔记,仅供参考,有错必纠 文章目录 半监督学习 自我训练 标签传播 半监督学习 Semi-supervised learning是指在你的训练数据中,有些样本是没有标签的情况.sklearn.se ...

  9. sklearn自学指南(part30)--特征选择

    学习笔记,仅供参考,有错必纠 文章目录 特征选择 移除低方差变量 单变量特征选择 递归特征消除(Recursive feature elimination) 使用SelectFromModel进行特征 ...

最新文章

  1. 86岁还在录网课:MIT教授Gilbert Strang最新「线性代数」课程上线
  2. mysql 查询实体_mysql – 如何优化实体框架查询
  3. nginx应用总结(2)--突破高并发的性能优化
  4. android sliding tab,android – 刷新SlidingTabLayout
  5. makefile多目录多文件
  6. 海量日志分析方案--logstash+kibnana+kafka
  7. 让python脚本像普通程序一样运行
  8. 12v小型电机型号大全_电机型号参数大全
  9. Python多线程同步、互斥锁、死锁
  10. Android工具栏中心标题和自定义字体
  11. 树状数组求逆序对_算法系列之-数组中的逆序对
  12. html设置导航随滚动条滚动条,导航栏横向滚动条的两种实现方法
  13. 瑞芯微rv1126/1109软硬件解压缩对比---附:关于内存对齐的那些事
  14. office2016 office2019 office2013 ----一键安装:
  15. 知识图谱(Knowledge Graph)之综述理解
  16. MIMIC-IV- v2.0带着随访数据来啦
  17. 吴思里:阿里淘系前端面试经历
  18. 字符串拆分,根据指定分隔符拆分字符串
  19. 2015-4-12分享的PDF
  20. Python中的图像处理(第十一章)Python图像锐化及边缘检测(1)

热门文章

  1. 04_ReplaceBlank
  2. mysql-ubuntu16.04彻底卸载mysql
  3. C++自定义改进alph均值滤波
  4. BP神经网络及matlab实现
  5. h5页面不可 移动_七大h5创建工具
  6. html中文乱码_Nginx目录浏览的中文显示问题订正
  7. 问题: springboot返回登录失败
  8. MyBatis配置:在控制台打印SQL语句
  9. uve (mui/light7)写APP的使用心得(大坑);
  10. 产品原型设计的参考步骤