来源:天善智能韦玮老师 课堂笔记
作者:Dust
探索性数据分析Exploratory Data Analysis,EDA

数据探索的核心是︰
1、数据质量分析(跟数据清洗密切联系)
2、数据特征分析(分布、对比、周期性、相关性、常见统计量等)

数据清洗可以按如下步骤进行︰
1、缺失值处理(通过describe与len直接发现、通过0数据发现)2、异常值处理(通过散点图发现)
一般遇到缺失值,处理方式为(删除、插补、不处理);
插补的方式主要有:均值插补、中位数插补、众数插补、固定值插补、最近数据插补、回归插补、拉格朗日插值、牛顿插值法、分段插值等等。
遇到异常值,一般处理方式为视为缺失值、删除、修补(平均数、中位数等等)、不处理。

代码中用到的文件:

链接:https://pan.baidu.com/s/1Oxr5XGtcA0HnRi4IUaVSLQ 
提取码:1234 
复制这段内容后打开百度网盘手机App,操作更方便哦--来自百度网盘超级会员V4的分享


数据清洗:

import pandas as pda
import numpy as npy
import matplotlib.pylab as pyl
import warnings
warnings.filterwarnings("ignore", category=Warning)data=pda.read_csv("E:/Python3.7/data/starcraft1.csv")
print(data.describe())# 数据清洗
# 发现缺失值x = 0
print("len=",len(data))
data["Age"][(data["Age"]<18)]=None # 所有18岁以下的设置为空值
for i in data.columns:for j in range(len(data)):if(data[i].isnull())[j]:data[i][j]="18" #所有空值改为18x += 1
print("The number of players under 18 is:",x)


异常值处理:

我跑不出来了,也不知道为什么一直算反正就是跑不出来,,,

希望有大佬能跑出来吧- -

# 异常值处理
# 画散点图(横轴为id,纵轴为Age)
# 年龄异常:>100data2=data.T
id=data2.values[0]
age=data2.values[1]
pyl.plot(id,age)
pyl.show()
line=len(data.values)
col=len(data.values[0])
da=data.values
for i in range(0,line):for j in range(0,col):if(da[i][1]>100): # 找到年龄大于100的玩家print(data[i][j]) # 打印出玩家的信息da[i][1]=50 # 强制变为50岁

Python数据挖掘:数据探索,数据清洗,异常值处理相关推荐

  1. 【Python】数据探索分析——东北大学软件学院大数据班数据挖掘实训一(1)

    数据探索分析 (1)获取数据并进行数据预处理,将含有缺失值的样本去掉,取出死亡率在 0 (1)获取数据并进行数据预处理,将含有缺失值的样本去掉,取出死亡率在 0<q<=1范围内的数据. i ...

  2. 怎么用python处理数据_Python数据清洗 - 洗什么?怎么洗?看完就明白了

    编辑推荐: 文章来自于csdn,本文主要讲解python数据预处理中的数据清洗的主要工作:缺失值处理.重复值处理.异常值处理的相关内容,希望对您的学习有所帮助. 数据挖掘过程中,采集的原始数据里存在着 ...

  3. Python数据挖掘 数据预处理案例(以航空公司数据为例)

    Python数据预处理 一.内容: 1.数据清洗 2.数据集成 3.数据可视化 二.实验数据 根据航空公司系统内的客户基本信息.乘机信息以及积分信息等详细数据,依据末次飞行日期( LAST_FLIGH ...

  4. 用Python进行数据探索,探索竞赛优胜方案

    全世界只有3.14 % 的人关注了 青少年数学之旅 AI这个词相信大家都非常熟悉,近几年来人工智能圈子格外热闹,光是AlphoGo就让大家对它刮目相看. 随着大数据时代信息科技的快速发展,各种各样的数 ...

  5. 数据挖掘--数据探索与数据预处理

    文章目录 数据探索与数据预处理 数据理解 清除变量 分类型自变量 处理时间变量 异常值 极值 数据分箱 缺失数据 降维 过抽样与欠抽样 参考 黑体字为预处理相关的模型,即在使用这些模型时,需要关注到这 ...

  6. 数据分析与挖掘-python常用数据探索函数

    在python中,主要两个库用于数据探索,一个是Pandas(用于数据分析,这可能是数据分析领域最强的python库),另一个是Matplotlib(用于数据可视化,绘制图表,起源于MATLAB). ...

  7. python大数据之数据清洗

    数据决定模型的上限,好的数据或数据处理,对模型的影响是非常大的,同样,对于数据的处理,不同的数据,处理情况也不一样,具体情况如下所示: 缺省值处理 异常值处理 样本的数量 特征的数量:特征筛选 特征的 ...

  8. 如何用Python进行数据探索,探索竞赛优胜方案?

    全世界只有3.14 % 的人关注了 青少年数学之旅 AI这个词相信大家都非常熟悉,近几年来人工智能圈子格外热闹,光是AlphoGo就让大家对它刮目相看. 随着大数据时代信息科技的快速发展,各种各样的数 ...

  9. 【python数据分析】用python进行数据探索2(常见matplotlib及pandas绘图函数汇总、对比及拓展)

    绘图函数 绘图函数功能 所属工具箱 plot() 折线图 matplotlib/pandas pie() 饼图 matplotlib/pandas hist() 直方图 matplotlib/pand ...

  10. python pandas 数据探索

    来源于: Kaggle Lending Club Loan Data数据可视化分析与不良贷款预测 对特征缺失值的处理 1.计算特征缺失值比例的函数: def draw_missing_data_tab ...

最新文章

  1. spark 序列化错误 集群提交时_【问题解决】本地提交任务到Spark集群报错:Initial job has not accepted any resources...
  2. Java基础--static静态原理及API使用示例详解
  3. html5决战沙城源码,决战沙城h5符文玩法介绍 怎么获得完美首通
  4. PyCharm取消启动时自动加载项目
  5. JQuery与springmvc实现多个文件上传操作
  6. BN、LN、IN、GN、SN归一化
  7. IE、火狐导入收藏夹乱码解决方案
  8. ARM开发7.5.2 基础实训( 6 ) 4×4 矩阵键盘和 2 路 LED 显示系统( 2 )--LPC21XX
  9. ibm服务器查看刀片状态,IBM刀片服务器宕机故障巧排除
  10. MPI 初认识 (入门教程)
  11. numpy-poly1d、polyfit、polyval多项式使用
  12. SDN控制器Ryu、Floodlight、OpenDayLight的安装以及Mininet连接
  13. Python学习笔记(基础知识第三篇:列表、元组、字典、集合)
  14. python核心编程 第3版_Python核心编程(第3版)PDF高清晰完整中文版
  15. Springboot毕设项目电子竞技赛事管理系统f1v55java+VUE+Mybatis+Maven+Mysql+sprnig)
  16. 中国研制成功人工智能探地雷达 可为地下空间做“体检”
  17. VMware教程(一):设置 CentOS 7 共享文件夹
  18. AidLux“换脸”案例源码详解 (Python)
  19. ArcMap地理配准
  20. this.dom.getContext is not a function;

热门文章

  1. 数据结构与算法——线性结构——线性表及其表示
  2. 二元学习法3.0:三把学习大剑,打通学习的底层密码_学习方法
  3. pycharm波浪线检查去掉
  4. Druid数据库连接池使用参考
  5. 新一代图像AI ISP技术
  6. 科技公司重新关注2级以上驾驶员辅助
  7. Cocos 发射和监听事件 事件派送(TypeScript)
  8. Python:数据集成
  9. ERROR: Failed to resolve: com.android.databinding:library:3.4.2
  10. Java 对象和类 的理解