Python数据分析与挖掘实战——第三章
第三章 数据探索
目录
第三章 数据探索
一、数据探索
二、数据质量分析
1. 主要任务:
2. 缺失值分析
3. 异常值分析
4. 一致性分析
三、数据特征分析
1. 分布分析
2. 对比分析
3. 统计量分析
4. 周期性分析
5. 贡献度分析
6. 相关性分析
一、数据探索
- 数据集的质量和数量
- 没有设想过的数据状态
- 规律和趋势
- 各因素的关联性
二、数据质量分析
数据预处理的前提
1. 主要任务
检查原始数据中是否存在脏数据
脏数据:不符合要求,以及不能直接进行相应分析的数据
包括:缺失值、异常值、不一致的值(一致性、重复数据及含有特殊符号(如#、¥、*)的数据
2. 缺失值分析
包含:记录的缺失、字段的缺失
原因:无法获取、成本高、遗漏
影响:有用信息丢失、不确定性↑、建模混乱
分析:含缺失值的属性的个数、每个属性的未缺失数、缺失数、缺失率
处理:删除、插补、不处理
3. 异常值分析
录入错误、不合常理的数据、数值明显偏离其余的观测值
异常值也称离群点、异常值分析也称为离群点分析
- 1) 简单统计量分析
最大值、最小值 看是否超过
- 2) 3δ原则
如果是正态分布,看是否距离平均值3δ之外
如果不是正态分布,可以看远离平均值多少倍来衡量
- 3)箱型图分析
4. 一致性分析
数据的矛盾性、不相容性
来源:不同数据源、重复存放的数据未能进行一致性更新造成的
三、数据特征分析
1. 分布分析
揭示数据的分布特征和分布类型。
对定量数据:分布形式对称or不对称、特大或特小的可疑值——频率分布表、频率分布直方图、茎叶图
对定性数据:饼图和条形图
分布分析、对比分析、帕累托分析、周期性分析、相关性分析
a. 定量数据的分布分析
1)组数 & 组宽
2)确定组数和组宽的步骤
①求极差
②确定组距与组数
③决定分点
④列出频率分布表
⑤绘制频率分布直方图
3)主要原则
- 各组相互排斥
- 各组将所有数据包含在内
- 组宽最好相等
4)频率分布表
- 组段:左开右闭(习惯
- 组中值:各组段的代表值。本组段的上、下限相加/2
- 频数
- 频率
- 累计频率
5)频率分布直方图
- 横轴:值
- 纵轴:频率密度 = 频率/组距
b) 定性数据的分布分析
常根据变量的分类类型来分组,可试用饼图和条形图来描述分布
- 饼图:每个扇形部分代表每一类型的百分比或频数,大小与频数成正比
- 条形图:高度代表每一类型的百分比或频数,条形图的宽度没有意义
2. 对比分析
主要以下两种方式:
1) 绝对数比较
利用绝对数进行比较,从而寻找差异
2) 相对数比较
研究目的和对比基础不同,分为:
3) 结构相对数
同一总体内的部分数值与全部数值对比,求得比重,说明事物的性质、结构和质量
如:产品合格率
4) 比例相对数
将同一总体的不同部分的数值进行对比,说明总体内各部分的比例关系
如:人口性别比例
5) 比较相对数
将同一时期两个性质相同的指标进行对比,说明同类现象在不同空间条件下的数量对比关系
如:不同地区的商品价格对比
6) 强度相对数
两个性质不同但有一定联系的总量指标进行对比,说明现象的强度、密度和普遍程度
如:人均国内生产总值 元/人
计划完成程度相对数
某一时期实际完成数与计划数的对比,说明计划完成程度
7) 动态相对数
同一现象在不同时期的指标数值进行对比,说明发展方向和变化的速度
如:发展速度、增长速度
3. 统计量分析
对定量数据进行统计描述,两个方面:集中趋势和离中趋势
平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;
反应变异程度的指标是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位间距
1) 集中趋势度量
a. 均值
i. 所有数据的平均值
ii. 加权平均
iii. 问题:对极端值很敏感
iv. 截断均值——去掉高、低极端值之后的平均数
b. 中位数
将一组观察值按从小到大的顺序排列,位于中间的那个数。在全部数据中,小于和大于中位数的数据个数相等
c. 众数
数据集中出现最频繁的数,且不具有唯一性。一般用于离散变量,不用于连续变量
2) 离中趋势度量
a. 极差
极差 = 最大值 - 最小值
对数据的极端值十分敏感
b. 标准差
度量数据偏离均值的程度
c. 变异系数
度量标准差相对于均值的离中趋势
主要用来比较:两个或者多个具有不同单位或不同波动幅度的数据集的离中趋势
d. 四分位数间距
i. 四分位数为 上四分位数 - 下四分位数
ii. 四分位:将所有数值有小到大排列并分为四等份,处于第一个分割点位置的数值是下四分位数、第二个分割点是中位数。第三个分割点是上四分位数
iii. 四分位数间距越大,数据的变异程度越大;反之,数据的变异程度越小
4. 周期性分析
探索某个变量是否随着时间变化而呈现出某种周期变化趋势
时间尺度:年、季度、月、日、小时等
5. 贡献度分析
又称帕累托分析,原则是帕累托法则,又称20/80定律:相同的投入放在不同的地方会产生不同的效益(公司收益的80%利润常来自于20%最畅销的产品,而其他80%的产品只产生了20%的利润)
可用于重点改善收益最高的80%的服务
6. 相关性分析
分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来
1) 直接绘制散点图(两个属性之间
完全正/负线性相关
正/负线性相关
非线性相关(其他相关 如x^2)
不相关
2).绘制散点图矩阵(多个属性
同时考察多个变量间的相关关系时,利用散点图矩阵同时绘制各变量间的散点图
多元线性回归时尤为重要
3)计算相关系数
更准确地描述变量之间的线性相关程度
二元变量的相关分析
a. Pearson相关系数
① 用于分析两个连续变量之间的关系
② 要求连续变量的取值服从正态分布
b. spearman秩相关系数
不服从正态分布的变量、分类或等级变量之间的关联性
spearman秩相关系数,也称等级相关系数
在实际应用计算中,上面两种相关系数都要对其进行假设检验,使用t检验方法检验其显著性水平以确定其相关程度。
在正态分布假定下,Spearman秩相关系数与Pearson相关系数在效率上是等价的,而对于联系测量数据,更适合用Person相关系数来进行分析
c. 判定系数
判定系数是相关系数的平方,用r²表示,用来衡量回归方程对y的解释程度。
0≤r²≤1,接近1,表示相关性强,接近0,表示几乎没有直线相关关系
Python数据分析与挖掘实战——第三章相关推荐
- python数据分析与挖掘实战-第六章拓展偷漏税用户识别
第六章分别使用了LM神经网络和CART 决策树构建了 电力窃漏电用户自动识别模型,章末提出了拓展思考–偷漏税用户识别. 第六章及拓展思考完整代码 https://github.com/dengsiyi ...
- 《Python数据分析与挖掘实战》第10章(下)——DNN2 筛选得“候选洗浴事件”3 构建模型
本文是基于<Python数据分析与挖掘实战>的实战部分的第10章的数据--<家用电器用户行为分析与事件识别> 做的分析. 接着前一篇文章的内容,本篇博文重点是处理用水事件中的属 ...
- 《Python数据分析与挖掘实战》第12章(中)——协同推荐
本文是基于<Python数据分析与挖掘实战>的实战部分的第12章的数据--<电子商务网站用户行为分析及服务推荐>做的分析. 由于此章内容很多,因此,分为三个部分进行分享--数据 ...
- 《Python数据分析与挖掘实战》第7章——航空公司客户价值分析(kmeans)
本文是基于<Python数据分析与挖掘实战>的实战部分的第七章的数据--<航空公司客户价值分析>做的分析. 旨在补充原文中的细节代码,并给出文中涉及到的内容的完整代码. 1)在 ...
- 《Python数据分析与挖掘实战》第12章(下)——协同推荐
本文是基于<Python数据分析与挖掘实战>的实战部分的第12章的数据--<电子商务网站用户行为分析及服务推荐>做的分析. 由于此章内容很多,因此,分为三个部分进行分享--数据 ...
- 《Python数据分析与挖掘实战》一第1章 数据挖掘基础1.1 某知名连锁餐饮企业的困惑...
本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第1章,第1.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...
- 《Python数据分析与挖掘实战》第7章-聚类+绘制雷达图
本文是基于<Python数据分析与挖掘实战>的第七章的数据--<航空公司客户价值分析>做的分析对部分代码,做出补充,对原文中的雷达图进行了实现. 1. 背景与目标分析 此项目旨 ...
- 《Python数据分析与挖掘实战》第11章——应用系统负载分析与磁盘容量预测(时间序列)
文章目录 1.背景与目标分析 2.2 数据探索 2.1 查看数据信息 2.2 数据平稳性分析 3 数据预处理 3.1 数据清洗 3.2 数据变换--属性构造 4 模型构建 4.1 确定模型-- ARM ...
- 《Python数据分析与挖掘实战》第14章——基于基站定位数据的商圈分析(层次聚类)
本文是基于<Python数据分析与挖掘实战>的实战第14章<基于基站定位数据的商圈分析>做的分析. 1 挖掘背景及目标 从某通信运营商提供的特定接口解析得到用户的定位数据.利用 ...
最新文章
- 在CentOS 6.8 x86_64上安装nghttp2最新版及让curl具有http2特性
- 【MyBatis学习01】宏观上把握MyBatis框架
- 第三十五课.基于贝叶斯的深度学习
- LeetCode Counting Bits(动态规划)
- 高并发-【抢红包案例】之一:SSM环境搭建及复现红包超发问题
- linux编程能否用于windows,使R包在Windows和Linux中都可以工作
- 分享几个路由器设置小技巧,总有用得到的一天!
- 最小生成树之prim
- LeetCode 1022. 从根到叶的二进制数之和(递归)
- 系统运维tips 3 之 innodb
- box2dweb 学习笔记--sample讲解
- 什么是浏览器同源策略?
- SCPPO(八):登录实现逻辑
- testbench实例 vhdl_FPGA仿真 test bench实例(VHDL)
- 动态URL、静态URl、伪静态URL
- Cobar的安装和配置步骤
- 【经典递归问题 汉诺塔 求解】
- 赛码网在线考试无法使用外接摄像头解决方案
- 查询MAC地址和接口的对应关系
- syslinux 启动后显示SYSLINUX 5.01H. Peter Anvin et al
热门文章
- perclos嘴巴_汽车疲劳驾驶识别预警系统探秘
- 如何部署企业VoIP电话系统
- 【问题解决】git 合并commit 请求报错:Cannot ‘fixup‘ without a previous commit
- 2022原料药市场分析之前景趋势、规模份额、价格调研
- 「开源人说」第二期重磅上线!一起走进《从开源中来,到开源中去》
- Alien Skin Exposure X5与Adobe Camera Raw工作流程速度比较
- uniapp 从开发到上架应用文档(一)
- 八年级计算机考试试题及答案,八年级信息技术学科期末考试试题(开卷)
- Ubuntu20.04环境下,安装hadoop
- 什么是http无状态?怎么解决的?