文章目录

  • 简单统计分析
  • 3σ原则
  • 箱线图
  • 异常值方法处理
    • 1.直接删除
    • 2.缺失值
    • 3.修改为平均值
    • 4.盖帽法
    • 5.分箱法
    • 6不处理

对于数据异常值处理,我的理解是,这里的异常值不是代表数据出现的异常,而是对于你需要建立的模型来说,处于异常值。

比如你需要正太分布的数据,那么一些不符合正太分布,或者离群太远的值,可以更具你的需要去进行删除,这样你的模型效果就会更好。

简单统计分析

首先是简单的统计分析,比如通过最大最小值判断,什么意思呢?之前比赛遇到过一个二手车价格的问题,别的二手车都是几万到10几万不等,有一个要1000万的二手车。

1000万???,没错就是1000万的二手车,这样的数据,就算他是改装过后的玛莎拉蒂,是真实数据,但是这样的数据会影响模型的判断,所以在数据量大的时候,还是需要删除的。

df_train.max()  #最大值
df_train.min()  #最小值

3σ原则

在正态分布中,σ代表标准差,μ代表均值,x=μ即为图像的对称轴。3σ原则为

数值分布在(μ-σ,μ+σ)中的概率为0.6826,

数值分布在(μ-2σ,μ+2σ)中的概率为0.9544,

数值分布在(μ-2σ,μ+2σ)中的概率为0.9544。

可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)]区间内,超出这个范围的可能性仅占不到0.3%。几乎是不可能事件。

import numpy as np
#设定法则的左右边界
left=num.mean()-3*num.std()
right=num.mean()+3*num.std()#获取在范围内的数据
new_num=num[(left<num)&(num<right)]

这里数据是numpy的数组。

这些删除数据的方式,都有一定的依据,但是也不能完全按照这些依据,具体情况要看数据。

箱线图

箱线图是一种强大的,数据可视化工具,用于了解数据的分布。它将数据分成四分位数,并根据从这些四分位数得出的五个数字对其进行汇总:

  • 中位数:数据的中间值。标记为 Q2,描绘了第 50 个百分点。

  • 第一个四分位数:“最小非异常值”和中位数之间的中间值。标记为 Q1,描绘了第 25 个百分点。

  • 第三四分位数:“最大非异常值”和中位数之间的中间值。标记为 Q3,描绘了第 75 个百分点。

  • “最大非异常值”:按 (Q3 + 1.5*IQR) 计算。高于此值的所有值都被视为异常值。

  • “最小非异常值”:按 (Q1 – 1.5*IQR) 计算。低于此值的所有值都被视为异常值。

它还可以表示数据的对称性、偏度和分布。

sns.boxplot(x='diagnosis', y='area_mean', data=df)

上述三种是异常值的分析方法,而当找到异常值之后,我们因该如何处理这些异常值呢?

异常值方法处理

1.直接删除

如果数据量多的话,可以直接删除。参考上方3σ原则,或者根据实际情况,删除大于某个值的部分。

2.缺失值

当多缺省值进行处理。

3.修改为平均值

其实也是缺省值中的一种方法。

4.盖帽法

这种方法比较“轻柔”,不容易用力过猛。

5.分箱法

通过分箱,分桶这样的方式,在进行数据填充,会比较合理。

6不处理

这可能是异常值的特点,但是需要使用更加稳健的模型来修饰。

python大数据之异常值处理相关推荐

  1. Python大数据综合应用 :零基础入门机器学习、深度学习算法原理与案例

    机器学习.深度学习算法原理与案例实现暨Python大数据综合应用高级研修班 一.课程简介 课程强调动手操作:内容以代码落地为主,以理论讲解为根,以公式推导为辅.共4天8节,讲解机器学习和深度学习的模型 ...

  2. 财务大数据比赛有python吗-Python大数据与机器学习之NumPy初体验

    本文是Python大数据与机器学习系列文章中的第6篇,将介绍学习Python大数据与机器学习所必须的NumPy库. 通过本文系列文章您将能够学到的知识如下: 应用Python进行大数据与机器学习 应用 ...

  3. Python大数据:jieba分词,词频统计

    实验目的 学习如何读取一个文件 学习如何使用DataFrame 学习jieba中文分词组件及停用词处理原理 了解Jupyter Notebook 概念 中文分词 在自然语言处理过程中,为了能更好地处理 ...

  4. zwpython_零起点Python大数据与量化交易

    零起点Python大数据与量化交易 所属分类:数值算法/人工智能 开发工具:Python 文件大小:17263KB 下载次数:21 上传日期:2018-05-15 17:24:02 上 传 者:bla ...

  5. [转载] Python大数据文本分析及应用

    参考链接: 使用Python的SQL 3(处理大数据) 实践课题报告: 大数据文本分析与应用 学 校:xxx 学 院:大数据与智能工程学院 专 业:信息工程(数据科学与大数据技术) 年 级:2017级 ...

  6. Python +大数据-知行教育(四)-意向用户主题看板_全量流程

    Python +大数据-知行教育(四)-意向用户主题看板_全量流程 5. 意向用户主题看板_全量流程 5.1 需求分析 主要分析什么内容:1) 每一个需求涉及到那些维度, 那些直白2) 每一个需求涉及 ...

  7. Python+大数据-数仓实战之滴滴出行(二)

    Python+大数据-数仓实战之滴滴出行(二) 1. 数据转移 #验证sqoop是否工作 /export/server/sqoop-1.4.7/bin/sqoop list-databases \ - ...

  8. python+大数据-MySQL-day02(黑马)

    python+大数据-MySQL-day02(黑马) 一 MySQL学习日志–变量,函数,流程控制 1.变量 系统变量:全局变量会话变量自定义变量:用户变量局部变量#一.系统变量说明:变量由系统定义, ...

  9. 2022新版Python+大数据学习路线图,附视频教程

    互联网的未来也是人工智能的未来,那就少不了Python+大数据的助力,对于想要转行的小伙伴来说,或许这是一个新兴赛道. 第一阶段 大数据开发入门 学前导读:从传统关系型数据库入手,掌握数据迁移工具.B ...

最新文章

  1. [转]解析字符串的方法
  2. django model中的meta类
  3. JavaScript语言基础6
  4. 异常处理——zookeeper启动成功,但是zkfcunexpected error, closing socket connection and attempting reconnectjava
  5. SAP UI5 workthrough 12 sap.m.shell
  6. for循环简介及实例(输出九九乘法表)
  7. 操作系统上机作业-- 使用信号量解决生产者、计算者、消费者问题(多线程)
  8. resharper license server
  9. url主机域名可以省略_从输入url到页面完成加载发生了什么
  10. PTA c语言 统计单词的长度
  11. 疑似Redmi K40新机获得3C认证:搭载联发科天玑1000+ 支持33W快充
  12. 【Elasticsearch】搜索自己想要的东西与注释文本(字符串)插件
  13. 区块链爆史诗级漏洞,可完全控制虚拟货币交易!
  14. Python语言程序设计----【第8周 程序设计方法学】之8.2 Python程序设计思维
  15. Macbook 2021 M1pro 安装 SentencePiece
  16. Sqlserver2000服务器安装配置
  17. nosqlbooster 破解free
  18. 我喜欢计算机作文300字,关于我喜欢作文300字
  19. 控制IE浏览器升级降级
  20. mysql中vlookup函数_excel精确匹配vlookup用法(数据库属性匹配)

热门文章

  1. 读《计算机科学概论》
  2. w7上 android模拟器,win7系统运行安卓模拟器的操作方法
  3. oracle substr clob,sql – 在CLOB上的SUBSTR的性能
  4. 3. ESP8266开发板自动连接室内Wi-Fi
  5. Linux学习笔记(一) -- 在虚拟机中安装Ubuntu 18.04
  6. 了解一下winsock
  7. 【C语言实现共享栈】关于【共享栈】,你知道多少,快来看看吧
  8. excel求方差和标准差的函数_Excel标准差计算函数Stdev和StdevP的用法与区别,包含4个实例...
  9. 调试本地SQLServer存储过程
  10. 算数基本定理和代数基本定理