动手学数据分析task01 数据加载及探索性数据分析（笔记）

2024-06-16 09:12:32

一、数据载入及初步观察

1. 载入数据

1.1 打开JupyterLab 导入numpy、pandas

1.2 使用绝对路径、相对路径载入数据

首先，使用path1=os.path.abspath('.') 表示当前所处文件夹的绝对路径，print(path1)显示当前绝对路径。

使用绝对路径导入数据

使用相对路径导入数据

1.3 加载文档的方式

1.4 pd.read_csv与pd.read_table

pd.read_table是以制表符‘\t’作为数据的标志，可以看出，读完后每个字符串之间有逗号相隔，每一行字符串为一列。

而 pd.read_csv读完后是每一个字符串作为一列。

1.5 逐块读取数据

读取数据时设置chunkersize为1000：

用for循环print出结果：

1.6 将columns更改为中文

方法一：读取数据时对columns直接命名：

方法二：已读取过数据，可用rename()进行修改：

2. 初步观察

2.1 查看数据基本信息

用info()查看数据基本信息，可以看到数据样本数共891条，有12个字段，每个字段非空值个数和数据类型一目了然，现在能够观察出字段【年龄】、【客舱】、【登船港口】是存在缺失值，需要后续进行数据处理。

也可以用shape查看整个数据的大小，用dtype查看数据的类型：

2.2 观察前10行和后15行数据情况

2.3 观察数据是否有空值

可以通过自定义函数的形式展示出每个字段空值、非空值的个数：

2.4 用describe()展示数据基本情况

用describe()展示出每个数值型指标的总计数、中位数、标准差、最小值、最大值、25%分位数、50%分位数和75%分位数，可以观察到：

2.5 测试集与训练集保持一致

首先，载入测试集：

对比测试集与训练集的columns，观察是否存在不同字段：

很明显，测试集相较于训练集多了【Unnamed：0】、【a】字段，现在用drop()删除：

2.6 暂时隐藏['PassengerId','Name','Age','Ticket']这几个列元素

2.7 筛选信息

按照所需条件进行筛选：

现在我们筛选出年龄在10岁以下的乘客：

年龄在10岁以上和50岁以下的乘客：

筛选出midage中第100、105、108行的乘客【Pclass】、【Name】、【Sex】信息，因为midage中的index不是连续排列，我们需要重新设置索引，然后再进行筛选：

用iloc()进行同样条件的筛选：

小结：可以选择直接用切片选择部分数据，也可以用loc()、iloc()进行选取，loc()是按照标签进行筛选，而iloc()是按所在位置进行筛选。

3. 探索性数据分析

3.1 用sort_index()对索引进行排序

3.2 用sort_values()对特定列进行排序

3.3 按【年龄】、【票价】进行排序

3.4 两个dataframe相加

只要其中一个dataframe中的值不存在，返回结果为NaN:

3.5 船上最大家族人数

算数family_num后进行排序可得最大家族人数11人：

3.6 基本信息统计

用describe()展示出每个数值型指标的总计数、中位数、标准差、最小值、最大值、25%分位数、50%分位数和75%分位数，可以观察到：

1. 乘客等级mean为2.3左右，25%分位数为2，50%、75%分位数都为3，说明大部分的乘客等级为2和3，一等座是少部分乘客，而乘客等级可能是影响幸存的重要因素；

2. 乘客年龄差较大，部分集中在20-40岁左右；

3. 50%以上的乘客都没有兄弟姐妹；

4. 75%以上的乘客是没有父母与小孩的；

5. 不同票的差价大，最高达512左右，后续可能需要标准化处理；

6. 少于半数的乘客幸存。

动手学数据分析task01 数据加载及探索性数据分析（笔记）相关推荐

Task01 数据加载及探索性数据分析
文章目录前言 1. 第一章:数据载入及初步观察 1.1 载入数据 1.1.1 任务一:导入numpy和pandas 1.1.2 任务二:载入数据 1.1.3 任务三:每1000行为一个数据模块,逐块 ...
Datawhale7月组队学习task1数据加载及探索性数据分析
Datawhale7月task1数据加载及探索性数据分析有幸了解到了Datawhale这样一个开源组织,欣然报名了2021年7月的组队学习的动手学数据分析系列课程本系列目标:完成kaggl ...
泰坦尼克号-数据加载及探索性数据分析
数据加载及探索性数据分析这部分内容主要分:数据加载.Pandas基础.探索性数据分析. 1.导入numpy.pandas及查看python版本 import pandas as pd import ...
动手学数据分析（一）- 数据加载及探索性数据分析
1 初心本系列笔记用于记录自己第一次参加Datawhale的组队学习.自己马上开启研究生学习生涯,因此熟练掌握数据分析这一重要技能对未来的学习能够提供很大的帮助,Datawhale团队在项目初衷里说 ...
python录入数据至ppt_利用Python进行数据分析之数据加载.ppt
利用Python进行数据分析之数据加载 " " " " 数据加载,存储与文件格式 1,读写文本格式数据: (read_csv,read_table,read_ ...
动手学数据分析——Task01_数据加载
前言这是一门诞生于datawhale的课程,学习它的时候搭配datawhale所配备其他资源会更好,项目地址:https://github.com/datawhalechina/hands-on-d ...
python数据分析笔记——数据加载与整理
Python数据分析--数据加载与整理总第47篇 ▼ (本文框架) 数据加载导入文本数据 1.导入文本格式数据(CSV)的方法: 方法一:使用pd.read_csv(),默认打开csv文件. 9. ...
《利用Python进行数据分析·第2版》第6章数据加载、存储与文件格式
第1章准备工作第2章 Python语法基础,IPython和Jupyter 第3章 Python的数据结构.函数和文件第4章 NumPy基础:数组和矢量计算第5章 pandas入门第6章数 ...
利用Python进行数据分析（四）：数据加载、存储与文件格式
标题利用Python进行数据分析(四):数据加载.存储与文件格式学习笔记来源于:简书https://www.jianshu.com/p/047d8c1c7e14 输入输出通常可以划分为几个大类:读取 ...

最新文章

热门文章