Datawhale---动手学数据分析---第一章：数据载入及初步观察(泰坦尼克的任务)

【回顾&引言】前面一章的内容大家可以感觉到我们主要是对基础知识做一个梳理，让大家了解数

据分析的一些操作，主要做了数据的各个角度的观察。那么在这里，我们主要是做数据分析的流程

性学习，主要是包括了数据清洗以及数据的特征处理，数据重构以及数据可视化。这些内容是为数

据分析最后的建模和模型评价做一个铺垫。

开始之前，导入numpy、pandas包和数据

import numpy as np
import pandas as pd
df = pd.read_csv('train.csv')
df

我们拿到的数据通常是不干净的，所谓的不干净，就是数据中有缺失值，有一些异常点等，需要经

过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本章我们将

学习缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的亚子。

2.1 缺失值观察与处理

我们拿到的数据经常会有很多缺失值，比如我们可以看到Cabin列存在NaN，那其他列还有没有缺

失值，这些缺失值要怎么处理呢？

2.1.1 任务一：缺失值观察

(1) 请查看每个特征缺失值个数

#方法一
df.info()

#方法二
df.isnull().sum()

(2) 请查看Age， Cabin， Embarked列的数据以上方式都有多种方式，所以大家多多益善

#方法一
df[['Age','Cabin','Embarked']]
#方法二
df.iloc[:,[5,10,11]]
#方法三
df.loc[:,['Age','Cabin','Embarked']]

2.1.2 任务二：对缺失值进行处理

(1)处理缺失值一般有几种思路

替换，删除，填充，不处理

(2) 请尝试对Age列的数据的缺失值进行处理

#方法一
df[df['Age'] == None] = 0
df

这里可以发现编号889的Age列的数据并没有发生变化（数值列读取数据后，空缺值的数据类型为float64所以用None一般索引不到）

#方法二
df[df['Age'].isnull()] = 0
df
#方法三
df[df['Age'] == np.nan] = 0
df

而这里的Age列虽然发生了变化，但是其他列的数据也跟着发生了变化

所以应该怎样才能正确处理缺失值呢，经过查询资料后知道了dropna函数与fillna函数

详情见fillna()函数的用法&dropna()函数的用法

(3) 那现在尝试使用上面的两种方法直接对整张表的缺失值进行处理

df.dropna()

df.fillna(0)

具体操作自己多加练习

2.2 重复值观察与处理

由于这样那样的原因，数据中会不会存在重复值呢，如果存在要怎样处理呢

2.2.1 任务一：请查看数据中的重复值

可以参考duplicate()函数的用法

df[df.duplicated()]

可知该数据没有整行的重复值，而当我们想知道某一列的数据是否有重复时，可在括号内加上列名

df[df.duplicated('Fare')]

2.2.2 任务二：对重复值进行处理

(1)重复值有哪些处理方式呢？

处理重复值，首先要看它有没有用，如果没有用的话，一般是进行删除操作，否则保留

(2)处理我们数据的重复值

#删除票价一样的数据
df.drop_duplicates('Fare')

2.2.3 任务三：将前面清洗的数据保存为csv格式

df.to_csv('train_clear.csv')

2.3 特征观察与处理

#重新导入numpy、pandas包和数据
import numpy as np
import pandas as pd
df = pd.read_csv('train.csv')
df

我们对特征进行一下观察，可以把特征大概分为两大类：

数值型特征：Survived ，Pclass， Age ，SibSp， Parch， Fare，其中Survived， Pclass为离散

型数值特征，Age，SibSp， Parch， Fare为连续型数值特征

文本型特征：Name， Sex， Cabin，Embarked， Ticket，其中Sex， Cabin， Embarked，

Ticket为类别型文本特征，数值型特征一般可以直接用于模型的训练，但有时候为了模型的稳定性

及鲁棒性会对连续变量进行离散化。文本型特征往往需要转换成数值型特征才能用于建模分析。

2.3.1 任务一：对年龄进行分箱（离散化）处理

(1) 分箱操作是什么？

详情见python pandas 分箱操作

完成下面的问题需要提前了解cut()的用法&qcut()的用法

(2) 将连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示

df['Age_cut1'] = pd.cut(df['Age'], 5,labels = [1,2,3,4,5])
df

(3) 将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段，并分别用类别变量12345表示

df['Age_cut2'] = pd.cut(df['Age'],[0, 5, 15, 30, 50, 80], labels = [1, 2, 3, 4, 5])
df

(4) 将连续变量Age按10% 30% 50% 70% 90%五个年龄段，并用分类变量12345表示

df['Age_cut3'] = pd.qcut(df['Age'],[0, 0.1, 0.3, 0.5, 0.7, 0.9], labels = [1, 2, 3, 4, 5])
df

(5) 将上面的获得的数据分别进行保存，保存为csv格式

#为了方便观察，直接三个存在一起了
df.to_csv('train_cut.csv')

2.3.2 任务二：对文本变量进行转换

(1) 查看文本变量名及种类

方法一: value_counts(详情见value_counts()的用法)

df['Sex'].value_counts()

方法二: unique(详情见unique()的用法)

df['Sex'].unique()

(2) 将文本变量Sex， Cabin ，Embarked用数值变量12345表示

方法一: replace(详情见replace()的用法)

df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2])
df

方法二: map(详情见map()的用法)

方法三: 使用sklearn.preprocessing的LabelEncoder

详情见sklearn.preprocessing.LabelEncoder()的用法

from sklearn.preprocessing import LabelEncoder
for feat in ['Cabin', 'Ticket']:lbl = LabelEncoder()  label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))df[feat + "_labelEncode"] = df[feat].map(label_dict)df[feat + "_labelEncode"] = lbl.fit_transform(df[feat].astype(str))df

(3) 将文本变量Sex， Cabin， Embarked用one-hot编码表示

for i in ['Sex', 'Embarked']:x = pd.get_dummies(df[i], prefix = i)df1 = pd.concat([df, x], axis=1)
df1.head()

2.3.3 任务三：从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)

df['Title'] = df.Name.str.extract('([A-Za-z]+)\.', expand=False)
df

保存最终你完成的已经清理好的数据

df.to_csv('train2.csv')

Datawhale---动手学数据分析---第二章：第二章：数据清洗及特征处理(泰坦尼克的任务)相关推荐

Datawhale动手学数据分析打卡
1.1 第一章:数据载入及初步观察 1.1.1 任务一:导入numpy和pandas import numpy as np import pandas as pd 1.1.2 任务二:载入数据 (1) ...
【TL第二期】动手学数据分析-第二章数据预处理
文章目录第二章第一节数据清洗及特征处理第二节数据重构1 第三节数据重构2 第四节数据可视化第二章第一节数据清洗及特征处理数据清洗:对于原始数据中的缺失值.异常值进行处理.相当于数 ...
Datawhale分组学习—动手学数据分析（五）
Datawhale分组学习-动手学数据分析(五)主要是做数据建模以及模型评估.模型搭建部分:1)切分数据集为训练集和测试集:2)搭建逻辑回归模型或随机森林模型完成分类任务,通过不断调参来优化模型.模型 ...
【Datawhale】动手学数据分析
动手学数据分析第一章:数据载入及初步观察载入数据任务一:导入numpy和pandas import numpy as np import pandas as pd 任务二:载入数据 train_ ...
李沐d2l《动手学深度学习》第二版——风格迁移源码详解
本文是对李沐Dive to DL<动手学深度学习>第二版13.12节风格迁移的源码详解,整体由Jupyter+VSCode完成,几乎所有重要代码均给出了注释,一看就懂.需要的同学可以在文末 ...
李沐《动手学深度学习》第二版比赛2-Classify Leaves
李沐<动手学深度学习>第二版比赛2-Classify Leaves 我的偶像,李沐大神主讲的<动手学深度学习>(使用Pytorch框架,第一版使用的是MXNet框架)目前已经进 ...
李沐《动手学深度学习》第二版 pytorch笔记1 环境搭建
李沐<动手学深度学习>第二版pytorch笔记1 搭建环境文章目录李沐<动手学深度学习>第二版pytorch笔记1 搭建环境此时尚有耐心虚拟环境搭建创建虚拟环境查看 ...
【组队学习】【32期】动手学数据分析
动手学数据分析航路开辟者:陈安东.金娟娟.杨佳达.老表.李玲.张文涛.高立业领航员:范淑卷航海士:武者小路.曾心怡基本信息内容属性:精品入门课系列开源内容:https://github.c ...
【组队学习】【31期】动手学数据分析
动手学数据分析航路开辟者:陈安东.金娟娟.杨佳达.老表.李玲.张文涛.高立业领航员:陈玉立航海士:陈安东.武帅.肖涵哲.叶前坤.沈豪基本信息开源内容:https://github.com/d ...

Datawhale---动手学数据分析---第二章：第二章：数据清洗及特征处理(泰坦尼克的任务)

开始之前，导入numpy、pandas包和数据

2.1 缺失值观察与处理

2.1.1 任务一：缺失值观察

(1) 请查看每个特征缺失值个数

(2) 请查看Age， Cabin， Embarked列的数据以上方式都有多种方式，所以大家多多益善

2.1.2 任务二：对缺失值进行处理

(1)处理缺失值一般有几种思路

(2) 请尝试对Age列的数据的缺失值进行处理

(3) 那现在尝试使用上面的两种方法直接对整张表的缺失值进行处理

2.2 重复值观察与处理

2.2.1 任务一：请查看数据中的重复值

2.2.2 任务二：对重复值进行处理

(1)重复值有哪些处理方式呢？

(2)处理我们数据的重复值

2.2.3 任务三：将前面清洗的数据保存为csv格式

2.3 特征观察与处理

2.3.1 任务一：对年龄进行分箱（离散化）处理

(1) 分箱操作是什么？

(2) 将连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示

(3) 将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段，并分别用类别变量12345表示

(4) 将连续变量Age按10% 30% 50% 70% 90%五个年龄段，并用分类变量12345表示

(5) 将上面的获得的数据分别进行保存，保存为csv格式

2.3.2 任务二：对文本变量进行转换

(1) 查看文本变量名及种类

(2) 将文本变量Sex， Cabin ，Embarked用数值变量12345表示

(3) 将文本变量Sex， Cabin， Embarked用one-hot编码表示

2.3.3 任务三：从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)

保存最终你完成的已经清理好的数据

Datawhale---动手学数据分析---第二章：第二章：数据清洗及特征处理(泰坦尼克的任务)相关推荐

最新文章

热门文章

Datawhale---动手学数据分析---第二章：第二章：数据清洗及特征处理(泰坦尼克的任务)

开始之前，导入numpy、pandas包和数据

2.1 缺失值观察与处理

2.1.1 任务一：缺失值观察

(1) 请查看每个特征缺失值个数

(2) 请查看Age， Cabin， Embarked列的数据 以上方式都有多种方式，所以大家多多益善

2.1.2 任务二：对缺失值进行处理

(1)处理缺失值一般有几种思路

(2) 请尝试对Age列的数据的缺失值进行处理

(3) 那现在尝试使用上面的两种方法直接对整张表的缺失值进行处理

2.2 重复值观察与处理

2.2.1 任务一：请查看数据中的重复值

2.2.2 任务二：对重复值进行处理

(1)重复值有哪些处理方式呢？

(2)处理我们数据的重复值

2.2.3 任务三：将前面清洗的数据保存为csv格式

2.3 特征观察与处理

2.3.1 任务一：对年龄进行分箱（离散化）处理

(1) 分箱操作是什么？

(2) 将连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示

(3) 将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段，并分别用类别变量12345表示

(4) 将连续变量Age按10% 30% 50% 70% 90%五个年龄段，并用分类变量12345表示

(5) 将上面的获得的数据分别进行保存，保存为csv格式

2.3.2 任务二：对文本变量进行转换

(1) 查看文本变量名及种类

(2) 将文本变量Sex， Cabin ，Embarked用数值变量12345表示

(3) 将文本变量Sex， Cabin， Embarked用one-hot编码表示

2.3.3 任务三：从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)

保存最终你完成的已经清理好的数据

Datawhale---动手学数据分析---第二章：第二章：数据清洗及特征处理(泰坦尼克的任务)相关推荐

最新文章

热门文章

(2) 请查看Age， Cabin， Embarked列的数据以上方式都有多种方式，所以大家多多益善