第三章 数据探索

目录

第三章 数据探索

一、数据探索

二、数据质量分析

1. 主要任务:

2. 缺失值分析

3. 异常值分析

4. 一致性分析

三、数据特征分析

1. 分布分析

2. 对比分析

3. 统计量分析

4. 周期性分析

5. 贡献度分析

6. 相关性分析


一、数据探索

  • 数据集的质量和数量
  • 没有设想过的数据状态
  • 规律和趋势
  • 各因素的关联性

二、数据质量分析

数据预处理的前提

1. 主要任务

检查原始数据中是否存在脏数据

脏数据:不符合要求,以及不能直接进行相应分析的数据

包括:缺失值、异常值、不一致的值(一致性、重复数据及含有特殊符号(如#、¥、*)的数据

2. 缺失值分析

包含:记录的缺失、字段的缺失

原因:无法获取、成本高、遗漏

影响:有用信息丢失、不确定性↑、建模混乱

分析:含缺失值的属性的个数、每个属性的未缺失数、缺失数、缺失率

处理:删除、插补、不处理

3. 异常值分析

录入错误、不合常理的数据、数值明显偏离其余的观测值

异常值也称离群点、异常值分析也称为离群点分析

  • 1) 简单统计量分析

最大值、最小值  看是否超过

  • 2) 3δ原则

如果是正态分布,看是否距离平均值3δ之外

如果不是正态分布,可以看远离平均值多少倍来衡量

  • 3)箱型图分析

4. 一致性分析

数据的矛盾性、不相容性

来源:不同数据源、重复存放的数据未能进行一致性更新造成的

三、数据特征分析

1. 分布分析

揭示数据的分布特征分布类型

对定量数据:分布形式对称or不对称、特大或特小的可疑值——频率分布表、频率分布直方图、茎叶图

对定性数据:饼图和条形图

分布分析、对比分析、帕累托分析、周期性分析、相关性分析

a. 定量数据的分布分析

1)组数 & 组宽

2)确定组数和组宽的步骤

①求极差

②确定组距与组数

③决定分点

④列出频率分布表

⑤绘制频率分布直方图

3)主要原则

  • 各组相互排斥
  • 各组将所有数据包含在内
  • 组宽最好相等

4)频率分布表

  • 组段:左开右闭(习惯
  • 组中值:各组段的代表值。本组段的上、下限相加/2
  • 频数
  • 频率
  • 累计频率

5)频率分布直方图

  • 横轴:值
  • 纵轴:频率密度 = 频率/组距

b) 定性数据的分布分析

常根据变量的分类类型来分组,可试用饼图条形图来描述分布

  • 饼图:每个扇形部分代表每一类型的百分比或频数,大小与频数成正比
  • 条形图:高度代表每一类型的百分比或频数,条形图的宽度没有意义

2. 对比分析

主要以下两种方式:

1) 绝对数比较

利用绝对数进行比较,从而寻找差异

2) 相对数比较

研究目的和对比基础不同,分为:

3) 结构相对数

同一总体内的部分数值与全部数值对比,求得比重,说明事物的性质、结构和质量

如:产品合格率

4) 比例相对数

将同一总体的不同部分的数值进行对比,说明总体内各部分的比例关系

如:人口性别比例

5) 比较相对数

将同一时期两个性质相同的指标进行对比,说明同类现象在不同空间条件下的数量对比关系

如:不同地区的商品价格对比

6) 强度相对数

两个性质不同但有一定联系的总量指标进行对比,说明现象的强度、密度和普遍程度

如:人均国内生产总值 元/人

计划完成程度相对数

某一时期实际完成数与计划数的对比,说明计划完成程度

7) 动态相对数

同一现象在不同时期的指标数值进行对比,说明发展方向和变化的速度

如:发展速度、增长速度

3. 统计量分析

对定量数据进行统计描述,两个方面:集中趋势离中趋势

平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数

反应变异程度的指标是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位间距

1) 集中趋势度量
        a. 均值

i. 所有数据的平均值

ii. 加权平均

iii. 问题:对极端值很敏感

iv. 截断均值——去掉高、低极端值之后的平均数

b. 中位数
            将一组观察值按从小到大的顺序排列,位于中间的那个数。在全部数据中,小于和大于中位数的数据个数相等
        c. 众数
            数据集中出现最频繁的数,且不具有唯一性。一般用于离散变量,不用于连续变量

2) 离中趋势度量
        a. 极差
            极差 =  最大值 - 最小值
            对数据的极端值十分敏感
        b. 标准差
            度量数据偏离均值的程度
        c. 变异系数
            度量标准差相对于均值的离中趋势
            主要用来比较:两个或者多个具有不同单位或不同波动幅度的数据集的离中趋势
        d. 四分位数间距
            i.  四分位数为 上四分位数 - 下四分位数
            ii. 四分位:将所有数值有小到大排列并分为四等份,处于第一个分割点位置的数值是下四分位数、第二个分割点是中位数。第三个分割点是上四分位数
           iii. 四分位数间距越大,数据的变异程度越大;反之,数据的变异程度越小

4. 周期性分析

探索某个变量是否随着时间变化而呈现出某种周期变化趋势
时间尺度:年、季度、月、日、小时等

5. 贡献度分析

又称帕累托分析,原则是帕累托法则,又称20/80定律:相同的投入放在不同的地方会产生不同的效益(公司收益的80%利润常来自于20%最畅销的产品,而其他80%的产品只产生了20%的利润)
可用于重点改善收益最高的80%的服务

6. 相关性分析

分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来

1) 直接绘制散点图两个属性之间

完全正/负线性相关

正/负线性相关

非线性相关(其他相关 如x^2)

不相关

2).绘制散点图矩阵多个属性

同时考察多个变量间的相关关系时,利用散点图矩阵同时绘制各变量间的散点图

多元线性回归时尤为重要

3)计算相关系数

更准确地描述变量之间的线性相关程度

二元变量的相关分析

a. Pearson相关系数

① 用于分析两个连续变量之间的关系

② 要求连续变量的取值服从正态分布

b. spearman秩相关系数

不服从正态分布的变量、分类或等级变量之间的关联性

spearman秩相关系数,也称等级相关系数

在实际应用计算中,上面两种相关系数都要对其进行假设检验,使用t检验方法检验其显著性水平以确定其相关程度。

在正态分布假定下,Spearman秩相关系数与Pearson相关系数在效率上是等价的,而对于联系测量数据,更适合用Person相关系数来进行分析

c. 判定系数

判定系数是相关系数的平方,用r²表示,用来衡量回归方程对y的解释程度。

0≤r²≤1,接近1,表示相关性强,接近0,表示几乎没有直线相关关系

Python数据分析与挖掘实战——第三章相关推荐

  1. python数据分析与挖掘实战-第六章拓展偷漏税用户识别

    第六章分别使用了LM神经网络和CART 决策树构建了 电力窃漏电用户自动识别模型,章末提出了拓展思考–偷漏税用户识别. 第六章及拓展思考完整代码 https://github.com/dengsiyi ...

  2. 《Python数据分析与挖掘实战》第10章(下)——DNN2 筛选得“候选洗浴事件”3 构建模型

    本文是基于<Python数据分析与挖掘实战>的实战部分的第10章的数据--<家用电器用户行为分析与事件识别> 做的分析. 接着前一篇文章的内容,本篇博文重点是处理用水事件中的属 ...

  3. 《Python数据分析与挖掘实战》第12章(中)——协同推荐

    本文是基于<Python数据分析与挖掘实战>的实战部分的第12章的数据--<电子商务网站用户行为分析及服务推荐>做的分析. 由于此章内容很多,因此,分为三个部分进行分享--数据 ...

  4. 《Python数据分析与挖掘实战》第7章——航空公司客户价值分析(kmeans)

    本文是基于<Python数据分析与挖掘实战>的实战部分的第七章的数据--<航空公司客户价值分析>做的分析. 旨在补充原文中的细节代码,并给出文中涉及到的内容的完整代码. 1)在 ...

  5. 《Python数据分析与挖掘实战》第12章(下)——协同推荐

    本文是基于<Python数据分析与挖掘实战>的实战部分的第12章的数据--<电子商务网站用户行为分析及服务推荐>做的分析. 由于此章内容很多,因此,分为三个部分进行分享--数据 ...

  6. 《Python数据分析与挖掘实战》一第1章 数据挖掘基础1.1 某知名连锁餐饮企业的困惑...

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第1章,第1.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  7. 《Python数据分析与挖掘实战》第7章-聚类+绘制雷达图

    本文是基于<Python数据分析与挖掘实战>的第七章的数据--<航空公司客户价值分析>做的分析对部分代码,做出补充,对原文中的雷达图进行了实现. 1. 背景与目标分析 此项目旨 ...

  8. 《Python数据分析与挖掘实战》第11章——应用系统负载分析与磁盘容量预测(时间序列)

    文章目录 1.背景与目标分析 2.2 数据探索 2.1 查看数据信息 2.2 数据平稳性分析 3 数据预处理 3.1 数据清洗 3.2 数据变换--属性构造 4 模型构建 4.1 确定模型-- ARM ...

  9. 《Python数据分析与挖掘实战》第14章——基于基站定位数据的商圈分析(层次聚类)

    本文是基于<Python数据分析与挖掘实战>的实战第14章<基于基站定位数据的商圈分析>做的分析. 1 挖掘背景及目标 从某通信运营商提供的特定接口解析得到用户的定位数据.利用 ...

最新文章

  1. 在CentOS 6.8 x86_64上安装nghttp2最新版及让curl具有http2特性
  2. 【MyBatis学习01】宏观上把握MyBatis框架
  3. 第三十五课.基于贝叶斯的深度学习
  4. LeetCode Counting Bits(动态规划)
  5. 高并发-【抢红包案例】之一:SSM环境搭建及复现红包超发问题
  6. linux编程能否用于windows,使R包在Windows和Linux中都可以工作
  7. 分享几个路由器设置小技巧,总有用得到的一天!
  8. 最小生成树之prim
  9. LeetCode 1022. 从根到叶的二进制数之和(递归)
  10. 系统运维tips 3 之 innodb
  11. box2dweb 学习笔记--sample讲解
  12. 什么是浏览器同源策略?
  13. SCPPO(八):登录实现逻辑
  14. testbench实例 vhdl_FPGA仿真 test bench实例(VHDL)
  15. 动态URL、静态URl、伪静态URL
  16. Cobar的安装和配置步骤
  17. 【经典递归问题 汉诺塔 求解】
  18. 赛码网在线考试无法使用外接摄像头解决方案
  19. 查询MAC地址和接口的对应关系
  20. syslinux 启动后显示SYSLINUX 5.01H. Peter Anvin et al

热门文章

  1. perclos嘴巴_汽车疲劳驾驶识别预警系统探秘
  2. 如何部署企业VoIP电话系统
  3. 【问题解决】git 合并commit 请求报错:Cannot ‘fixup‘ without a previous commit
  4. 2022原料药市场分析之前景趋势、规模份额、价格调研
  5. 「开源人说」第二期重磅上线!一起走进《从开源中来,到开源中去》
  6. Alien Skin Exposure X5与Adobe Camera Raw工作流程速度比较
  7. uniapp 从开发到上架应用文档(一)
  8. 八年级计算机考试试题及答案,八年级信息技术学科期末考试试题(开卷)
  9. Ubuntu20.04环境下,安装hadoop
  10. 什么是http无状态?怎么解决的?