Python数据挖掘:数据探索,数据清洗,异常值处理
来源:天善智能韦玮老师 课堂笔记
作者:Dust
探索性数据分析Exploratory Data Analysis,EDA
数据探索的核心是︰
1、数据质量分析(跟数据清洗密切联系)
2、数据特征分析(分布、对比、周期性、相关性、常见统计量等)
数据清洗可以按如下步骤进行︰
1、缺失值处理(通过describe与len直接发现、通过0数据发现)2、异常值处理(通过散点图发现)
一般遇到缺失值,处理方式为(删除、插补、不处理);
插补的方式主要有:均值插补、中位数插补、众数插补、固定值插补、最近数据插补、回归插补、拉格朗日插值、牛顿插值法、分段插值等等。
遇到异常值,一般处理方式为视为缺失值、删除、修补(平均数、中位数等等)、不处理。
代码中用到的文件:
链接:https://pan.baidu.com/s/1Oxr5XGtcA0HnRi4IUaVSLQ
提取码:1234
复制这段内容后打开百度网盘手机App,操作更方便哦--来自百度网盘超级会员V4的分享
数据清洗:
import pandas as pda
import numpy as npy
import matplotlib.pylab as pyl
import warnings
warnings.filterwarnings("ignore", category=Warning)data=pda.read_csv("E:/Python3.7/data/starcraft1.csv")
print(data.describe())# 数据清洗
# 发现缺失值x = 0
print("len=",len(data))
data["Age"][(data["Age"]<18)]=None # 所有18岁以下的设置为空值
for i in data.columns:for j in range(len(data)):if(data[i].isnull())[j]:data[i][j]="18" #所有空值改为18x += 1
print("The number of players under 18 is:",x)
异常值处理:
我跑不出来了,也不知道为什么一直算反正就是跑不出来,,,
希望有大佬能跑出来吧- -
# 异常值处理
# 画散点图(横轴为id,纵轴为Age)
# 年龄异常:>100data2=data.T
id=data2.values[0]
age=data2.values[1]
pyl.plot(id,age)
pyl.show()
line=len(data.values)
col=len(data.values[0])
da=data.values
for i in range(0,line):for j in range(0,col):if(da[i][1]>100): # 找到年龄大于100的玩家print(data[i][j]) # 打印出玩家的信息da[i][1]=50 # 强制变为50岁
Python数据挖掘:数据探索,数据清洗,异常值处理相关推荐
- 【Python】数据探索分析——东北大学软件学院大数据班数据挖掘实训一(1)
数据探索分析 (1)获取数据并进行数据预处理,将含有缺失值的样本去掉,取出死亡率在 0 (1)获取数据并进行数据预处理,将含有缺失值的样本去掉,取出死亡率在 0<q<=1范围内的数据. i ...
- 怎么用python处理数据_Python数据清洗 - 洗什么?怎么洗?看完就明白了
编辑推荐: 文章来自于csdn,本文主要讲解python数据预处理中的数据清洗的主要工作:缺失值处理.重复值处理.异常值处理的相关内容,希望对您的学习有所帮助. 数据挖掘过程中,采集的原始数据里存在着 ...
- Python数据挖掘 数据预处理案例(以航空公司数据为例)
Python数据预处理 一.内容: 1.数据清洗 2.数据集成 3.数据可视化 二.实验数据 根据航空公司系统内的客户基本信息.乘机信息以及积分信息等详细数据,依据末次飞行日期( LAST_FLIGH ...
- 用Python进行数据探索,探索竞赛优胜方案
全世界只有3.14 % 的人关注了 青少年数学之旅 AI这个词相信大家都非常熟悉,近几年来人工智能圈子格外热闹,光是AlphoGo就让大家对它刮目相看. 随着大数据时代信息科技的快速发展,各种各样的数 ...
- 数据挖掘--数据探索与数据预处理
文章目录 数据探索与数据预处理 数据理解 清除变量 分类型自变量 处理时间变量 异常值 极值 数据分箱 缺失数据 降维 过抽样与欠抽样 参考 黑体字为预处理相关的模型,即在使用这些模型时,需要关注到这 ...
- 数据分析与挖掘-python常用数据探索函数
在python中,主要两个库用于数据探索,一个是Pandas(用于数据分析,这可能是数据分析领域最强的python库),另一个是Matplotlib(用于数据可视化,绘制图表,起源于MATLAB). ...
- python大数据之数据清洗
数据决定模型的上限,好的数据或数据处理,对模型的影响是非常大的,同样,对于数据的处理,不同的数据,处理情况也不一样,具体情况如下所示: 缺省值处理 异常值处理 样本的数量 特征的数量:特征筛选 特征的 ...
- 如何用Python进行数据探索,探索竞赛优胜方案?
全世界只有3.14 % 的人关注了 青少年数学之旅 AI这个词相信大家都非常熟悉,近几年来人工智能圈子格外热闹,光是AlphoGo就让大家对它刮目相看. 随着大数据时代信息科技的快速发展,各种各样的数 ...
- 【python数据分析】用python进行数据探索2(常见matplotlib及pandas绘图函数汇总、对比及拓展)
绘图函数 绘图函数功能 所属工具箱 plot() 折线图 matplotlib/pandas pie() 饼图 matplotlib/pandas hist() 直方图 matplotlib/pand ...
- python pandas 数据探索
来源于: Kaggle Lending Club Loan Data数据可视化分析与不良贷款预测 对特征缺失值的处理 1.计算特征缺失值比例的函数: def draw_missing_data_tab ...
最新文章
- spark 序列化错误 集群提交时_【问题解决】本地提交任务到Spark集群报错:Initial job has not accepted any resources...
- Java基础--static静态原理及API使用示例详解
- html5决战沙城源码,决战沙城h5符文玩法介绍 怎么获得完美首通
- PyCharm取消启动时自动加载项目
- JQuery与springmvc实现多个文件上传操作
- BN、LN、IN、GN、SN归一化
- IE、火狐导入收藏夹乱码解决方案
- ARM开发7.5.2 基础实训( 6 ) 4×4 矩阵键盘和 2 路 LED 显示系统( 2 )--LPC21XX
- ibm服务器查看刀片状态,IBM刀片服务器宕机故障巧排除
- MPI 初认识 (入门教程)
- numpy-poly1d、polyfit、polyval多项式使用
- SDN控制器Ryu、Floodlight、OpenDayLight的安装以及Mininet连接
- Python学习笔记(基础知识第三篇:列表、元组、字典、集合)
- python核心编程 第3版_Python核心编程(第3版)PDF高清晰完整中文版
- Springboot毕设项目电子竞技赛事管理系统f1v55java+VUE+Mybatis+Maven+Mysql+sprnig)
- 中国研制成功人工智能探地雷达 可为地下空间做“体检”
- VMware教程(一):设置 CentOS 7 共享文件夹
- AidLux“换脸”案例源码详解 (Python)
- ArcMap地理配准
- this.dom.getContext is not a function;
热门文章
- 数据结构与算法——线性结构——线性表及其表示
- 二元学习法3.0:三把学习大剑,打通学习的底层密码_学习方法
- pycharm波浪线检查去掉
- Druid数据库连接池使用参考
- 新一代图像AI ISP技术
- 科技公司重新关注2级以上驾驶员辅助
- Cocos 发射和监听事件 事件派送(TypeScript)
- Python:数据集成
- ERROR: Failed to resolve: com.android.databinding:library:3.4.2
- Java 对象和类 的理解