文章目录

一、数据加载
- 1.1 载入数据
- - 1.1.1 导入numpy和pandas
  - 1.1.2 载入数据
  - 1.1.3 每1000行为一个数据模块，逐块读取
  - 1.1.4 将表头改成中文，索引改为乘客ID
- 1.2 初步观察
- - 1.2.1 查看数据的基本信息
  - 1.2.2 观察表格前10行的数据和后15行的数据
  - 1.2.3 判断数据是否为空，为空的地方返回True，其余地方返回False
- 1.3 保存数据
- - 1.3.1 保存为一个新文件
二、了解数据
- 2.1 利用Pandas对示例数据进行排序，要求升序
- - 2.1.1 根据列排序
  - 2.1.2 不同排序方式总结
- 2.2 泰坦尼克号数据（trian.csv）按票价和年龄两列进行综合排序（降序排列）
- 2.3 利用Pandas进行算术计算，计算两个DataFrame数据相加结果
- 2.4 通过泰坦尼克号数据如何计算出在船上最大的家族有多少人？
- 2.5 Pandas describe()函数查看数据基本统计信息
- 2.6 分别看看泰坦尼克号数据集中票价、父母子女这列数据的基本统计数据

一、数据加载

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 导入numpy和pandas

import numpy as np
import pandas as pd
import os, sys

1.1.2 载入数据

(1) 使用相对路径载入数据

相对路径载入报错时，尝试使用os.getcwd()查看当前工作目录。

df = pd.read_csv('train.csv')
df.head(3)

(2) 使用绝对路径载入数据

df = pd.read_csv('D:/6_DP/hands-on-data-analysis-master/第一单元项目集合/train.csv')
df.head(3)

1.1.3 每1000行为一个数据模块，逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)
for chunk in chunker:print(chunk)

【思考】什么是逐块读取？为什么要逐块读取呢？

按指定大小分块读取大数据,避免因数据量大导致内存不足,但也会更耗时一些，数据的处理和清洗经常使用分块的方式处理。

【提示】大家可以chunker(数据块)是什么类型？用for循环打印出来出处具体的样子是什么？

<class ‘pandas.core.frame.DataFrame’>

1.1.4 将表头改成中文，索引改为乘客ID

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

【思考】所谓将表头改为中文其中一个思路是：将英文列名表头替换成中文。还有其他的方法吗？

1.2 初步观察

导入数据后，你可能要对数据的整体结构和样例进行概览，比如说，数据大小、有多少列，各列都是什么格式的，是否包含null等

1.2.1 查看数据的基本信息

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):#   Column  Non-Null Count  Dtype
---  ------  --------------  -----  0   是否幸存    891 non-null    int64  1   仓位等级    891 non-null    int64  2   姓名      891 non-null    object 3   性别      891 non-null    object 4   年龄      714 non-null    float645   兄弟姐妹个数  891 non-null    int64  6   父母子女个数  891 non-null    int64  7   船票信息    891 non-null    object 8   票价      891 non-null    float649   客舱      204 non-null    object 10  登船港口    889 non-null    object
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB

1.2.2 观察表格前10行的数据和后15行的数据

df.head(10)  # 观察前10行数据

df.tail(15)   # 观察后15行数据

1.2.3 判断数据是否为空，为空的地方返回True，其余地方返回False

df.isnull().head()

1.3 保存数据

1.3.1 保存为一个新文件

# 注意：不同的操作系统保存下来可能会有乱码。
# 大家可以加入  encoding='GBK' 或者  encoding = 'utf-8'df.to_csv('train_chinese.csv')

二、了解数据

2.1 利用Pandas对示例数据进行排序，要求升序

# 具体请看《利用Python进行数据分析》第五章 排序和排名 部分#自己构建一个都为数字的DataFrame数据
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['2', '1'], columns=['d', 'a', 'b', 'c'])
frame

	d	a	b	c
2	0	1	2	3
1	4	5	6	7

【代码解析】

pd.DataFrame() ：创建一个DataFrame对象

np.arange(8).reshape((2, 4)) : 生成一个二维数组（2*4）,第一列：0，1，2，3 第二列：4，5，6，7

index=['2, 1] ：DataFrame 对象的索引列

columns=[‘d’, ‘a’, ‘b’, ‘c’] ：DataFrame 对象的索引行

2.1.1 根据列排序

sort_values这个函数中by参数指向要排列的列，ascending参数指向排序的方式（升序还是降序）
ascending=False 降序排列

# 大多数时候我们都是想根据列的值来排序,所以，将你构建的DataFrame中的数据根据某一列，升序排列
frame.sort_values(by='c', ascending=False)

	d	a	b	c
2	0	1	2	7
1	4	5	6	3

2.1.2 不同排序方式总结

1、行索引升序排序

# 行索引升序排序
frame.sort_index()

	d	a	b	c
1	4	5	6	7
2	0	1	2	3

2、列索引升序排序

# 列索引升序排序
frame.sort_index(axis=1)

	a	b	c	d
2	1	2	3	0
1	5	6	7	4

3、让列索引降序排序

# 列索引降序排序
frame.sort_index(axis=1, ascending=False)

	d	c	b	a
2	0	3	2	1
1	4	7	6	5

4、任选两列数据同时降序排序

# 任选两列数据同时降序排序
frame.sort_values(by=['a', 'c'], ascending=False)

	d	a	b	c
1	4	5	6	7
2	0	1	2	3

2.2 泰坦尼克号数据（trian.csv）按票价和年龄两列进行综合排序（降序排列）

df.sort_values(by=['票价', '年龄'], ascending=False).head(3)

2.3 利用Pandas进行算术计算，计算两个DataFrame数据相加结果

# 具体请看《利用Python进行数据分析》第五章 算术运算与数据对齐 部分#建立一个例子
frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),columns=['a', 'b', 'c'],index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),columns=['a', 'e', 'c'],index=['first', 'one', 'two', 'second'])
frame1_a

【提醒】两个DataFrame相加后，会返回一个新的DataFrame，对应的行和列的值会相加，没有对应的会变成空值NaN。

2.4 通过泰坦尼克号数据如何计算出在船上最大的家族有多少人？

'''
还是用之前导入的chinese_train.csv如果我们想看看在船上，最大的家族有多少人（‘兄弟姐妹个数’+‘父母子女个数’），我们该怎么做呢？
'''
max(df['兄弟姐妹个数'] + df['父母子女个数'])

10

我们只需找出兄弟姐妹个数和父母子女个数之和最大的数就行，先让这两列相加返回一个DataFrame，然后用max函数求出最大值。

2.5 Pandas describe()函数查看数据基本统计信息

#建立一个例子
frame2 = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
frame2

# 调用 describe 函数，观察frame2的数据基本信息frame2.describe()'''
count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值
'''

2.6 分别看看泰坦尼克号数据集中票价、父母子女这列数据的基本统计数据

'''
看看泰坦尼克号数据集中 票价 这列数据的基本统计数据
'''
df['票价'].describe()

【思考】从上面数据我们可以看出，一共有891个票价数据，平均值约为：32.20，标准差约为49.69，说明票价波动特别大， 25%的人的票价是低于7.91的，50%的人的票价低于14.45，75%的人的票价低于31.00，票价最大值约为512.33，最小值为0。

'''
通过上面的例子，我们再看看泰坦尼克号数据集中 父母子女个数 这列数据的基本统计数据，然后可以说出你的想法
'''
df['父母子女个数'].describe()

1_数据分析—数据载入、导出和探索相关推荐

利用Python进行数据分析——数据载入、存储及文件格式（7）
3.数据载入.存储及文件格式输入和输出通常有以下几种类型:读取文本文件及硬盘上其他更高效的格式文件.从数据库载入数据.与网络资源进行交互(比如Web API). 3.1 文本格式数据的读写 ...
利用Python进行数据分析——数据导入导出
一.数据导入 (一)读取CSV文件 1.读取本地CSV #先创建一个CSV文件,存入数据,数据之间以"逗号"分割. 数据源来源于网络. import pandas as pd d ...
数据载入、存储及文件格式（数据分析）
目录第6章数据载入.存储及文件格式 6.1 文本格式数据的读写 6.1.1 分块读入文本文件 6.1.2 将数据写入文本格式 6.1.3 使用分隔格式 6.1.4 JSON数据 6.2 二进制格式 ...
【读书笔记】《利用Python进行数据分析》第2版_第六章数据载入、存储及文件格式
6.1 文本格式数据的读写将表格型数据读取为DataFrame对象:read_csv()和read_table() Pandas的解析函数可选参数索引:可以将一或多个列作为返回的DataFram ...
数据载入、存储及文件格式——《利用python数据分析》第六章学习
数据载入.存储及文件格式--<利用python数据分析>第六章学习前言这次带来第六章的学习笔记,希望这次效率高点,快点写完. 代码环境这次小升级,Pycharm 2021.3 + An ...
《利用Python进行数据分析》笔记记录第六章——数据载入、存储及文件格式
文章目录前言一.文本格式数据的读写 1.1 分块读入文件文本 1.2 将数据写入文件格式 1.3 使用分隔格式 1.4 JSON数据 1.5 XML和HTML:网络抓取总结前言在上几篇文章中 ...
python数据分析：数据载入、存储及文件格式
"""数据载入.存储及文件格式""" """ 输入和输出常用的类型:读取文本文件及硬盘上其他更高效的格式文件. ...
数据分析-第一章：数据载入及初步观察
复习: 这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作.知道了课程的目的之后,我们接下来我们要正式的开始数据分析的实战教学,完成kaggle上泰 ...
数据载入及初步观察 + 探索性数据分析 —— 泰坦尼克任务
第一章:数据载入及初步观察 + 探索性数据分析实验代码 1.1 载入数据 1.1.1 任务一:导入numpy和pandas # 导入numpy和pandas import pandas as pd ...

1_数据分析—数据载入、导出和探索

文章目录

一、数据加载

1.1 载入数据

1.1.1 导入numpy和pandas

1.1.2 载入数据

1.1.3 每1000行为一个数据模块，逐块读取

1.1.4 将表头改成中文，索引改为乘客ID

1.2 初步观察

1.2.1 查看数据的基本信息

1.2.2 观察表格前10行的数据和后15行的数据

1.2.3 判断数据是否为空，为空的地方返回True，其余地方返回False

1.3 保存数据

1.3.1 保存为一个新文件

二、了解数据

2.1 利用Pandas对示例数据进行排序，要求升序

2.1.1 根据列排序

2.1.2 不同排序方式总结

2.2 泰坦尼克号数据（trian.csv）按票价和年龄两列进行综合排序（降序排列）

2.3 利用Pandas进行算术计算，计算两个DataFrame数据相加结果

2.4 通过泰坦尼克号数据如何计算出在船上最大的家族有多少人？

2.5 Pandas describe()函数查看数据基本统计信息

2.6 分别看看泰坦尼克号数据集中票价、父母子女这列数据的基本统计数据

1_数据分析—数据载入、导出和探索相关推荐

最新文章

热门文章

1_数据分析—数据载入、导出和探索

文章目录

一、数据加载

1.1 载入数据

1.1.1 导入numpy和pandas

1.1.2 载入数据

1.1.3 每1000行为一个数据模块，逐块读取

1.1.4 将表头改成中文，索引改为乘客ID

1.2 初步观察

1.2.1 查看数据的基本信息

1.2.2 观察表格前10行的数据和后15行的数据

1.2.3 判断数据是否为空，为空的地方返回True，其余地方返回False

1.3 保存数据

1.3.1 保存为一个新文件

二、了解数据

2.1 利用Pandas对示例数据进行排序，要求升序

2.1.1 根据列排序

2.1.2 不同排序方式总结

2.2 泰坦尼克号数据（trian.csv）按票价和年龄两列进行综合排序（降序排列）

2.3 利用Pandas进行算术计算，计算两个DataFrame数据相加结果

2.4 通过泰坦尼克号数据如何计算出在船上最大的家族有多少人？

2.5 Pandas describe()函数查看数据基本统计信息

2.6 分别看看泰坦尼克号数据集中 票价、父母子女 这列数据的基本统计数据

1_数据分析—数据载入、导出和探索相关推荐

最新文章

热门文章

2.6 分别看看泰坦尼克号数据集中票价、父母子女这列数据的基本统计数据