利用正态分布进行异常点检测

风控中安全中我们需要检测异常点,异常点对于黑白样本区分,模型评价,数据分析都具备重要的意义。本文主要就利用正态分布检测异常点的思想进行介绍。

核心思想

正态分布实际上是一个自然现象,很多事件都属于正态分布,比如人的身高,考试成绩,血压等。利用事物自身分布满足正态分布的特点,如果出现小概率事件(概率低于 0.5%),那么该事件被认为异常点

拿标准的正态分布来说,三个标准差(σ)覆盖的范围内,可以覆盖 99.7% 的数据,那么在 3σ 以外的数据就可以认定为异常点。

什么样的数据符合正态分布

表面上看,数据的分布直方图符合"钟形图"即是正态分布,比如:

但是往往我们拿到的数据,可能本身就含有杂质,比如:

我们仅仅通过图形观察,没有做一定处理的情况下,很难判断一个数据的分布是否属于正态分布。

那么正态分布的定义又是什么?

中心极限定理:多个独立统计量的和的平均值,符合正态分布。

根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,加总后的结果的平均值就是正态分布。

这里不同的因素之间是独立,不同因素的事件分布可以不同。

上图中,随着统计量个数的增加,它们和的平均值越来越符合正态分布。

现实的数据分析中,我们很难从直方图上面观察数据是否符合正态分布,只能从原理上面去理解数据本质是否符合正态分布,再配合白样本进行试验,确认数据是否满足正态分布。

标准正态分布中,样本均值为 0,标准差为 1。当然现实的例子中大部分数据的均值都不是 0,标准差可能也有较大的区别。为了更好的体现不规则的数据分布,需要利用中位数作为分界点。

利用箱线图筛选异常点

箱线图和小提琴图可以很好的描述数据的分布,箱线图的定义更有利于我们筛选异常点。

小提琴图:

箱线图:

箱线图一共有 6 个要素点,分别是:

  • q1: 1/4 分位点,1/4 分位点之前的数据占总样本概率的 25%
  • q3: 3/4 分位点, 3/4 分位点之前的数据占总样本的 75%
  • 中位数:中位数之前的数据占总样本的 50%,也是 q2
  • IQR 是分位点q1、q3 之间的距离,IQR = q3 - q1
  • 上限位:q3 + 1.5 * IQR
  • 下限位:q1 - 1.5 * IQR

标准正态分布下,上下限位外样本所占的比率为 0.7%,这个限制比 3σ 原则宽松(0.3%)。

小概率事件的定义是概率小于 0.5%,那么 3σ 限制下,区间外的事件一定是小概率,而利用箱线图部分事件可能不是小概率事件,具体取多少作为分界线,不同的数据分布,可能有有不同的阈值。

箱线图使用了中位数作为中心点划分,而标准正态分布是利用了均值作为中心位,这两者是有区别的,中位数对于异常点的敏感性要低于均值,换句话说,在可能含有异常点的数据中,中位数更具有代表性。

总结

本节主要描述了利用正态分布进行异常点检测的核心思想,利用 3σ 原则和箱线图的上下限进行异常点检测区间划分,进而找到异常点。实际风控安全中,我们涉及的数据维度很多,有些是独立的,有些是相互的,我们需要寻找到合适的场景利用正态分布检测异常,后续章节中我们会尝试评估什么样的数据维度可以用此检测方法。

欢迎关注茶歇小栈公众号 ,风控安全不迷路

利用正态分布进行异常点检测相关推荐

  1. 吴恩达机器学习笔记 —— 16 异常点检测

    http://www.cnblogs.com/xing901022/p/9398242.html 本篇介绍了异常点检测相关的知识 更多内容参考 机器学习&深度学习 我感觉这篇整理的很好很用心, ...

  2. 《异常点检测》 - 第十章阅读记录 - 离散序列的异常点检测

    20201006 - 本文主要作为<异常点检测>的第十章的内容记录,文章按照顺序的方式来进行记录,想到什么记录什么,暂时没有明确的条理. 1. 基础概念记录 1.1 离散数据的定义 离散数 ...

  3. 异常点检测isolationforest

    数据集中的异常数据通常被认为是异常点.离群点或孤立点,特点是这些数据的特征与大多数数据不一致,呈现出"异常"的特点,检测这些数据的方法称为异常检测. 在大多数数据分析和挖掘工作中, ...

  4. 非监督异常点检测算法总结——没有想到矩阵分解和编码解码器也是一种思路...

    非监督异常点检测算法总结 一.基于密度 1) d(p,o):两点p和o之间的距离: 2) k-distance:第k距离 对于点p的第k距离dk(p)定义如下: p的第k距离,也就是距离p第k远的点的 ...

  5. 利用霍夫变换做直线检测的原理及OpenCV代码实现

    图像处理开发需求.图像处理接私活挣零花钱,请加微信/QQ 2487872782 图像处理开发资料.图像处理技术交流请加QQ群,群号 271891601 霍夫变换的原理大家可以参考博文 霍夫变换_tie ...

  6. 机器学习之异常点检测

    1.iForest(独立森林)算法 样本数据过大时推荐采用这种异常值检测方法 原理分析:iForest森林也由大量的树组成.iForest中的树叫isolation tree,简称iTree.iTre ...

  7. pascal行人voc_利用Pascal VOC目标检测数据深度学习进行目标检测

    利用 Pascal VOC 目标检测数据深度学习进行目标检测 穆玉理 [期刊名称] <通讯世界> [年 ( 卷 ), 期] 2018(000)005 [摘要] 随着信息社会的发展 , 尤其 ...

  8. android view gesturedetector,如何在Android中利用 GestureDetector进行手势检测

    如何在Android中利用 GestureDetector进行手势检测 发布时间:2020-11-26 16:15:21 来源:亿速云 阅读:92 作者:Leah 今天就跟大家聊聊有关如何在Andro ...

  9. 利用 Win32 启动和检测 UWP App 的方法

    原文:利用 Win32 启动和检测 UWP App 的方法 一种启动和检测 UWP 应用的方法 背景 我们发布过多款 UWP 平台的同类型 App ,最近有一个需求:用传统 Win32 程序启动我们的 ...

最新文章

  1. 安装deepin linux
  2. 一步步实现SDDC-NSX MGR安装和主机准备
  3. 表格中点击获得行列的值、刷新页面
  4. 网络掩码和子网掩码区别?
  5. python 中 * 的使用和表示含义
  6. 分布式存储引擎OceanBase,UpdateServer 实现机制——存储引擎
  7. PyPI可以使用的几个国内源
  8. P2P(对等网络)、 PT 下载与 BT 下载
  9. 关于DEV C++的数据不一致问题
  10. 第十四周博客作业西北师范大学|李晓婷
  11. 【論文筆記】MIDAS:Microcluster-Based Detector of Anomalies in Edge Streams
  12. KEGG 通路富集分析图解
  13. 连接多个内网的方法,想连多少个连多少个
  14. 探求DVB+OTT商业模式,推动有线电视平台化运营
  15. 照片调色系列教程(一):打造格调美女
  16. 迪士尼机器人芭蕾舞_迪士尼公园只有卡通公主?内含大量惊人科技感机器人
  17. 【Linux入门学习之】Ubuntu常用软件 速配指南之软件参考
  18. 英语和计算机水平,关于我的英语和计算机水平的分析
  19. 国密浏览器介绍与下载
  20. 急!程序员夫妻结婚了,婚戒上刻什么字好?

热门文章

  1. 深入理解7816协议(1)---- 关于F/D和etu
  2. [docker学习笔记] 5.docker镜像构建
  3. 如何基于人体人脸跟踪实时监测心率?
  4. 解决某些情况下输入法中文状态下输入英文
  5. 高效管理海量影像(一)
  6. 刘金玉编程HTML5百度资源,零基础html5网页开发教程第008期 导航栏开发案例
  7. java 字节码详解_Java基础篇(JVM)——字节码详解
  8. 深入学习Java序列化
  9. Redis学习(List数据类型)
  10. nchome目录介绍