1.数字化探索

数字化探索又称为数字化描述,它主要通过函数,得到数据集的一些数字指标值,来对数据的整体结构、变量情况、分布指标、缺失值等方面进行探索。主要包含以下几方面的内容:

  • 变量的概况和详情
  • 分布指标
  • 稀疏性和缺失值
    数字化的探索结果或许没有图形看起来直观,但是却给出了各项统计指标的确切取值,这对于制作和观察图形、设定算法参数提供了依据。

2 变量的概况和详情

  • 2.1 变量的描述统计量
    1.离散型随机变量:平均值,中位数,众数,最小值,最大值,四分位数,标准差等
    2.查看数据的信息:包括每个字段的名称、非空数量、字段的数据类型 : data.info()
    3.统计学指标快速描述数据的概要: data.describe()
    4.查看的数据大小:data.shape
    5.查看数据的前5行:data.head()
    6.查看数据的后5行:data.tail()
    7.查看数据类型:data.dtypes
  • 2.2 变量的描述统计量——距离
    1、查看数据的前5行

    3、查看数据统计信息

3 分布指标

  • 所谓“分布”,通俗来说即是指数据集中某变量各水平的取值情况。在统计学中,对于离散变量,主要有二项分布、泊松分布、几何分布等概率;而对于连续性变量,则有均匀分布、指数分布,以及最为熟知的正态分布等。
    1.检查数据(SAT数据的数学成绩)是否服从正太分布?

    2.检查数据是否服从t分布?

4 稀疏性和缺失值

4.1 问题

  • 4.2.1 稀疏性的基本概念
    数据的稀疏性是对高维数据而言,即数据集中的变量个数成百上千,而其中的大部分变量仅对小部分样本有取值,高维数据的稀疏性在推荐系统等领域频繁出现。
  • 4.2.2 数据缺失值
    数据集含有缺失值是很常见的,尤其对于一些需要一个个人工收集汇总起来的数据集,很难保证每一条样本的每一个变量都有取值。
  • 4.2.3 缺失值的发现方法
    1.元素级别的判断:dataframe.isnull()
    2.列表级别的判断:dataframe.isnull().any()

5 完整代码

# *-* coding:utf-8 *-*# 导入工具库
import numpy as np
import pandas as pd
from scipy import stats# 读取数据集
sat_17 = pd.read_csv('data/sat_2017.csv')# 1. 数字化的描述
def num_describe():print(sat_17.head())       # 前5行print(sat_17.tail())       # 后5行print(sat_17.info())       # 数据集信息print(sat_17.shape)        # 数据的大小print(sat_17.describe())   # 统计信息# 2. 检验数学成绩是否服从正态分布
def check_norm():print("+++++++++++++")stat = stats.kstest(sat_17['Math'], 'norm')res = stats.shapiro(sat_17['Math'])rest = stats.normaltest(sat_17['Math'], axis=0)print(stat)print(res)print(rest)# 3. 检验数学成绩是否服从t分布
def check_t():print("============")np.random.seed(1)ks = stats.t.fit(sat_17['Math'])df = ks[0]loc = ks[1]scale = ks[2]t_estm = stats.t.rvs(df=df, loc=loc, scale=scale, size=len(sat_17['Math']))res2 = stats.ks_2samp(sat_17['Math'], t_estm)print('res2', res2)# 4 缺失值的发现
def check_isnull():print(sat_17.isnull().head())  # 元素级别print(sat_17.isnull().any())   # 列级别def main():print("--------------")num_describe()check_norm()check_t()check_isnull()if __name__ == '__main__':main()

八、探索性数据分析——数字化探索相关推荐

  1. 十一、探索性数据分析应用案例

    1.Lending Club数据处理初步处理 1.1 借贷状态数据处理 1.借贷状态分为:Fully Paid:,Charged Off和Current,Default等. 2.处理的规则:如果借贷状 ...

  2. 基于R统计分析——探索性数据分析

    数据的统计分析分为描述性统计分析和统计推断两部分, 前者又称为探索性统计分析, 它是通过绘制统计图形.编制统计表格.计算统计量等方法来探索数据的主要分布特征, 揭示其中存在的规律. 探索性数据分析是进 ...

  3. 带你和Python与R一起玩转数据科学: 探索性数据分析(附代码)

    作者:Jose A Dianes 翻译:季洋 校对:丁楠雅 本文约5822字,建议阅读20+分钟. 本系列将介绍如何在现在工作中用两种最流行的开源平台玩转数据科学.先来看一看数据分析过程中的关键步骤 ...

  4. 九、探索性数据分析的应用

    1.探索性数据分析概述 探索性数据分析主要包括以下方面的内容: 探索性数据分析的概念 探索性数据分析的目的 探索性数据分析的常见工具 探索变量关系及其可视化 2 探索性数据分析的概念 1977年Joh ...

  5. 泰坦尼克数据集预测分析_探索性数据分析—以泰坦尼克号数据集为例(第1部分)

    泰坦尼克数据集预测分析 Imagine your group of friends have decided to spend the vacations by travelling to an am ...

  6. pandas添加一行数据_恨晚,Python探索性数据分析神器pandas-profiling,一行代码搞定...

    我们使用Pandas进行数据分析时,首先要先对数据集进行探索性数据分析(Exploratory data analysis),以便有一个大体的了解,明确后续数据处理.分析方向,数据EDA大致包含如下内 ...

  7. iris数据集 测试集_IRIS数据集的探索性数据分析

    iris数据集 测试集 Let's explore one of the simplest datasets, The IRIS Dataset which basically is a data a ...

  8. 探索性数据分析(EDA)-不要问如何,不要问什么

    数据科学 , 机器学习 (Data Science, Machine Learning) This is part 1 in a series of articles guiding the read ...

  9. 探索性数据分析入门_入门指南:R中的探索性数据分析

    探索性数据分析入门 When I started on my journey to learn data science, I read through multiple articles that ...

最新文章

  1. 快速幂 + 矩阵快速幂
  2. linux查看出口IP
  3. CTFshow 命令执行 web40
  4. linux的任务计划6,Linux计划任务
  5. mysql binary like,在MySQL中为BINARY LIKE操作建立索引
  6. 使用 ADOX 将 Table 添加到 Catalog 时报“类型无效”的原因和解决方法
  7. EntityFramework中的DbContext使用疑点说明
  8. 利用Python进行游戏脚本编程,不愧是最强的脚本语言
  9. 多功能小游戏神器微信小程序源码
  10. JavaScript 设计模式之组合模式
  11. C语言/C++ 平方矩阵 数学最小值解法【简单易懂,代码可以直接运行】
  12. android冷暖色调节
  13. 计算机做word的表格,word表格制作,详细教您word如何制作表格
  14. 止血、回血 苏宁易购正在复苏路上
  15. 【大数据处理技术】实验10
  16. 计算机键盘感叹号在哪里,键盘上感叹号是哪个键
  17. fabric框架学习
  18. 手机变板砖?这有专业救砖教程
  19. 【愚公系列】2023年02月 WMS智能仓储系统-006.租户功能的配置
  20. 辽宁熤星传媒:抖音怎么做超级流量平台?

热门文章

  1. python算法与数据结构-单链表
  2. linux下安装python(安装python 3.6稳定版成功亲测)
  3. 浅析MongoDB数据库的海量数据存储应用
  4. jQuery面向对象写法规定写法样式规定
  5. httpinvoker远程调用超时_RPC远程过程调用协议工作原理分析
  6. 2012服务器文件加密,Windows Server 2012安全方面的改变_服务器评测与技术-中关村在线...
  7. java解析mqtt_物联网安全系列 | MQTT协议安全
  8. 事物与持久化_揭开Redis面纱,发布订阅、事务、安全、持久化
  9. java printwrite_Java PrintWriter write(int)用法及代码示例
  10. html 三级目录索引,墨涩网 - HTTP Web服务器索引目录列表程序Directory Lister——墨涩网...