在日常的数据分析工作中经常会遇见异常数据,即超出特定区域或范围的数据通常被定义为异常或“噪声”,也称为离群值。

文章目录

  • 区分真假异常
  • 离群值的甄别方法和可视化
    • 3σ准则
    • 箱型图法
    • DataFrame
  • 离群值的处理方法

区分真假异常

根据业务经验来判断离群值

  • 伪异常: 这些异常是由特定的业务操作引起的。它们实际上正常地反映了业务状态,而不是数据本身的异常规律。
  • 真异常: 这些异常不是由特定的业务操作引起的,而是客观地反映了数据本身异常分布的情况。

离群值的甄别方法和可视化

3σ准则

如果样本是正态分布或近似正态分布,可以考虑使用3σ方法,认为99%以上的数据集中在均值上下3个标准差的范围内。具体来说,数值分布在(μ-3σ,μ+3σ)中的概率为99.73%,超过这个范围的极大或极小值,那就是异常值了。

Python数据处理Tips数据离群值的5种常用处理方法和可视化相关推荐

  1. Python数据处理Tips数据缺失值的8种常用处理方法和可视化

    在日常的数据分析工作中,数据中的缺失值是最头疼的一个内容. 在日常数据采集的过程中,由于各种原因在数据采集的过程中会造成数据的部分缺失,一般会用空格.Nan.占位符表示.但是对于应用的机器学习或者深度 ...

  2. 数据归一化及两种常用归一化方法

    数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可 ...

  3. Python数据处理Tips数据连续变量常用10种处理方法

    在日常的数据分析工作中,经常需要把数据变量转换成模型需要的样子,比如我们经常遇见的数据都是标签化.文字化等内容,需要将这些数据转换成计算机看得懂的内容,就是需要进行标签变量的转换. 不管是离散数据还是 ...

  4. Python数据处理Tips数据的降维的Scikit-learn的14种实现方式

    数据降维是为了减少数据的维数,俗称减少字段数(数据字段过多时候可以使用).可以减少模型计算量和模型运行时间,减少噪声变量信息对模型结果的影响,并有助于可视化降维信息并减少数据存储空间. 日常工作中遇到 ...

  5. Python数据处理Tips机器学习英文数据集8种算法应用

    在日常的数据分析工作中,不管在处理中文和英文或者其他语言,总体来说套路是一样的,只是有一些简单的变化转换,本文以英文举例,其中包括文本数据预处理准备.词频与停用词.词袋模型.N-Grams模型.TF- ...

  6. python 读写数据文件的6种常用方式

    本文主要介绍python读写数据文件的6种常用方式. 1. python内置方法 with open(r'test.xlsx') as f:a = f.read() 一般,在应用上述上下文管理器后,可 ...

  7. 基于 Python 的 8 种常用抽样方法

    抽样是统计学.机器学习中非常重要,也是经常用到的方法,因为大多时候使用全量数据是不现实的,或者根本无法取到.所以我们需要抽样,比如在推断性统计中,我们会经常通过采样的样本数据来推断估计总体的样本. 上 ...

  8. Python计算一组数据的PDF(概率密度函数)方法

    Python计算一组数据的PDF(概率密度函数)方法 公式如下: python实现: 第一种方法: import scipy.stats as stst.norm.pdf([一组数据]) 第二种方法: ...

  9. 归一化mysql函数_数据归一化和两种常用的归一化方法

    数据归一化和两种常用的归一化方法 一.总结 一句话总结: min-max标准化:x* =(x-min)/(max-min):新数据加入,需重新计算max和min Z-score标准化:x* =(x-μ ...

  10. Python:爬取数据出现response.status_code为403解决方法

    目录 前言 1. 原理 2. 代码 前言 出现403的返回结果 主要是有些服务器为了防止访问量过大,承受服务器的压力,或者是拒绝你的访问.服务器接收到这个信息,理应返回了这个403的信息 在前一块的代 ...

最新文章

  1. xshell突出显示集
  2. Android多线程分析之一:使用Thread异步下载图像
  3. android studio资产目录,在Android Studio中设置单元测试的自定义资产目录
  4. Spring 原理初探——IoC、AOP
  5. 还在担心服务挂掉?Sentinel Go 让服务稳如磐石
  6. 关于鸿蒙工艺调查分析报告,800万芯片订单已下,5nm工艺+鸿蒙系统,华为做了双重准备...
  7. QMainWindow中的布局管理
  8. linux nginx F配置,linux下nginx的安装及配置
  9. 什么是事务的传播特性?(转载)
  10. 第1章 Ext JS介绍与快速入门[2/4]
  11. linux islower_Python字符串islower()
  12. 2002-11-17梦笔记
  13. 数据包络分析CCR、BCC模型
  14. 淡泊明志,宁静致远。「学会做人的涵养」 - Qzone日志
  15. channel java_Java Channel
  16. Norgen提取试剂盒丨血浆/血清循环和核外RNA提取试剂盒
  17. OpenGL学习笔记——坐标转换
  18. uniapp H5 实现地图选址功能
  19. 阿里云思维导图系列(五)阿里云关系型数据库产品全家福
  20. Unity中空气墙的制作

热门文章

  1. 解决方案:智慧工地智能巡检方案视频监控系统
  2. 微商引流脚本,微商怎样选择正确的引流脚本?
  3. shark恒破解笔记2-绕过自校验
  4. Logback文件详解
  5. java八股文第一章:Java 基础知识
  6. 凭据分配没有加密oracle_两种方法解决远程桌面出现“这可能是由于CredSSP加密Oracle修正”的问题-网络教程与技术 -亦是美网络...
  7. 蒸汽管道图纸符号_如何正确画工艺流程图?图标、符号、图示、标志及含义
  8. Vue项目 设置实时时间(年月日 时分秒)两种方法
  9. MQL5 编程基础:列表
  10. AutoJs学习-实现极乐净土