数据分析工具Pandas(7):数据清洗、合并、转化和重构
数据分析工具Pandas(1):Pandas的数据结构
数据分析工具Pandas(2):Pandas的索引操作
数据分析工具Pandas(3):Pandas的对齐运算
数据分析工具Pandas(4):Pandas的函数应用
数据分析工具Pandas(5):Pandas的层级索引
数据分析工具Pandas(6):Pandas统计计算和描述
数据清洗
数据清洗是数据分析关键的一步,直接影响之后的处理工作
数据需要修改吗?有什么需要修改的吗?数据应该怎么调整才能适用于接下来的分析和挖掘?
是一个迭代的过程,实际项目中可能需要不止一次地执行这些清洗操作
处理缺失数据:pd.fillna(),pd.dropna()
数据连接(pd.merge)
pd.merge
根据单个或多个键将不同DataFrame的行连接起来
类似数据库的连接操作
import pandas as pd
import numpy as npdf_obj1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],'data1' : np.random.randint(0,10,7)})
df_obj2 = pd.DataFrame({'key': ['a', 'b', 'd'],'data2' : np.random.randint(0,10,3)})print(df_obj1)
print(df_obj2)
运行结果:
data1 keydata1 key
0 8 b
1 8 b
2 3 a
3 5 c
4 4 a
5 9 a
6 6 bdata2 key
0 9 a
1 0 b
2 3 d
1. 默认将重叠列的列名作为“外键”进行连接
# 默认将重叠列的列名作为“外键”进行连接
print(pd.merge(df_obj1, df_obj2))
运行结果:
data1 key data2
0 8 b 0
1 8 b 0
2 6 b 0
3 3 a 9
4 4 a 9
5 9 a 9
2. on显示指定“外键”
# on显示指定“外键”
print(pd.merge(df_obj1, df_obj2, on='key'))
运行结果:
data1 key data2
0 8 b 0
1 8 b 0
2 6 b 0
3 3 a 9
4 4 a 9
5 9 a 9
3. left_on,左侧数据的“外键”,right_on,右侧数据的“外键”
# left_on,right_on分别指定左侧数据和右侧数据的“外键”# 更改列名
df_obj1 = df_obj1.rename(columns={'key':'key1'})
df_obj2 = df_obj2.rename(columns={'key':'key2'})print(pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2'))
运行结果:
data1 key1 data2 key2
0 8 b 0 b
1 8 b 0 b
2 6 b 0 b
3 3 a 9 a
4 4 a 9 a
5 9 a 9 a
默认是“内连接”(inner),即结果中的键是交集
how
指定连接方式
4. “外连接”(outer),结果中的键是并集
# “外连接”
print(pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2', how='outer'))
运行结果:
data1 key1 data2 key2
0 8.0 b 0.0 b
1 8.0 b 0.0 b
2 6.0 b 0.0 b
3 3.0 a 9.0 a
4 4.0 a 9.0 a
5 9.0 a 9.0 a
6 5.0 c NaN NaN
7 NaN NaN 3.0 d
5. “左连接”(left)
# 左连接
print(pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2', how='left'))
运行结果:
data1 key1 data2 key2
0 8 b 0.0 b
1 8 b 0.0 b
2 3 a 9.0 a
3 5 c NaN NaN
4 4 a 9.0 a
5 9 a 9.0 a
6 6 b 0.0 b
6. “右连接”(right)
# 右连接
print(pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2', how='right'))
运行结果:
data1 key1 data2 key2
0 8.0 b 0 b
1 8.0 b 0 b
2 6.0 b 0 b
3 3.0 a 9 a
4 4.0 a 9 a
5 9.0 a 9 a
6 NaN NaN 3 d
7. 处理重复列名
suffixes,默认为_x, _y
# 处理重复列名
df_obj1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],'data' : np.random.randint(0,10,7)})
df_obj2 = pd.DataFrame({'key': ['a', 'b', 'd'],'data' : np.random.randint(0,10,3)})print(pd.merge(df_obj1, df_obj2, on='key', suffixes=('_left', '_right')))
运行结果:
data_left key data_right
0 9 b 1
1 5 b 1
2 1 b 1
3 2 a 8
4 2 a 8
5 5 a 8
8. 按索引连接
left_index=True或right_index=True
# 按索引连接
df_obj1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],'data1' : np.random.randint(0,10,7)})
df_obj2 = pd.DataFrame({'data2' : np.random.randint(0,10,3)}, index=['a', 'b', 'd'])print(pd.merge(df_obj1, df_obj2, left_on='key', right_index=True))
运行结果:
data1 key data2
0 3 b 6
1 4 b 6
6 8 b 6
2 6 a 0
4 3 a 0
5 0 a 0
数据合并(pd.concat)
- 沿轴方向将多个对象合并到一起
1. NumPy的concat
np.concatenate
import numpy as np
import pandas as pdarr1 = np.random.randint(0, 10, (3, 4))
arr2 = np.random.randint(0, 10, (3, 4))print(arr1)
print(arr2)print(np.concatenate([arr1, arr2]))
print(np.concatenate([arr1, arr2], axis=1))
运行结果:
# print(arr1)
[[3 3 0 8][2 0 3 1][4 8 8 2]]# print(arr2)
[[6 8 7 3][1 6 8 7][1 4 7 1]]# print(np.concatenate([arr1, arr2]))[[3 3 0 8][2 0 3 1][4 8 8 2][6 8 7 3][1 6 8 7][1 4 7 1]]# print(np.concatenate([arr1, arr2], axis=1))
[[3 3 0 8 6 8 7 3][2 0 3 1 1 6 8 7][4 8 8 2 1 4 7 1]]
2. pd.concat
注意指定轴方向,默认axis=0
join指定合并方式,默认为outer
Series合并时查看行索引有无重复
1) index 没有重复的情况
# index 没有重复的情况
ser_obj1 = pd.Series(np.random.randint(0, 10, 5), index=range(0,5))
ser_obj2 = pd.Series(np.random.randint(0, 10, 4), index=range(5,9))
ser_obj3 = pd.Series(np.random.randint(0, 10, 3), index=range(9,12))print(ser_obj1)
print(ser_obj2)
print(ser_obj3)print(pd.concat([ser_obj1, ser_obj2, ser_obj3]))
print(pd.concat([ser_obj1, ser_obj2, ser_obj3], axis=1))
运行结果:
# print(ser_obj1)
0 1
1 8
2 4
3 9
4 4
dtype: int64# print(ser_obj2)
5 2
6 6
7 4
8 2
dtype: int64# print(ser_obj3)
9 6
10 2
11 7
dtype: int64# print(pd.concat([ser_obj1, ser_obj2, ser_obj3]))
0 1
1 8
2 4
3 9
4 4
5 2
6 6
7 4
8 2
9 6
10 2
11 7
dtype: int64# print(pd.concat([ser_obj1, ser_obj2, ser_obj3], axis=1))0 1 2
0 1.0 NaN NaN
1 5.0 NaN NaN
2 3.0 NaN NaN
3 2.0 NaN NaN
4 4.0 NaN NaN
5 NaN 9.0 NaN
6 NaN 8.0 NaN
7 NaN 3.0 NaN
8 NaN 6.0 NaN
9 NaN NaN 2.0
10 NaN NaN 3.0
11 NaN NaN 3.0
2) index 有重复的情况
# index 有重复的情况
ser_obj1 = pd.Series(np.random.randint(0, 10, 5), index=range(5))
ser_obj2 = pd.Series(np.random.randint(0, 10, 4), index=range(4))
ser_obj3 = pd.Series(np.random.randint(0, 10, 3), index=range(3))print(ser_obj1)
print(ser_obj2)
print(ser_obj3)print(pd.concat([ser_obj1, ser_obj2, ser_obj3]))
运行结果:
# print(ser_obj1)
0 0
1 3
2 7
3 2
4 5
dtype: int64# print(ser_obj2)
0 5
1 1
2 9
3 9
dtype: int64# print(ser_obj3)
0 8
1 7
2 9
dtype: int64# print(pd.concat([ser_obj1, ser_obj2, ser_obj3]))
0 0
1 3
2 7
3 2
4 5
0 5
1 1
2 9
3 9
0 8
1 7
2 9
dtype: int64# print(pd.concat([ser_obj1, ser_obj2, ser_obj3], axis=1, join='inner'))
# join='inner' 将去除NaN所在的行或列0 1 2
0 0 5 8
1 3 1 7
2 7 9 9
3) DataFrame合并时同时查看行索引和列索引有无重复
df_obj1 = pd.DataFrame(np.random.randint(0, 10, (3, 2)), index=['a', 'b', 'c'],columns=['A', 'B'])
df_obj2 = pd.DataFrame(np.random.randint(0, 10, (2, 2)), index=['a', 'b'],columns=['C', 'D'])
print(df_obj1)
print(df_obj2)print(pd.concat([df_obj1, df_obj2]))
print(pd.concat([df_obj1, df_obj2], axis=1, join='inner'))
运行结果:
# print(df_obj1)A B
a 3 3
b 5 4
c 8 6# print(df_obj2)C D
a 1 9
b 6 8# print(pd.concat([df_obj1, df_obj2]))A B C D
a 3.0 3.0 NaN NaN
b 5.0 4.0 NaN NaN
c 8.0 6.0 NaN NaN
a NaN NaN 1.0 9.0
b NaN NaN 6.0 8.0# print(pd.concat([df_obj1, df_obj2], axis=1, join='inner'))A B C D
a 3 3 1 9
b 5 4 6 8
数据重构
1. stack
将列索引旋转为行索引,完成层级索引
DataFrame->Series
import numpy as np
import pandas as pddf_obj = pd.DataFrame(np.random.randint(0,10, (5,2)), columns=['data1', 'data2'])
print(df_obj)stacked = df_obj.stack()
print(stacked)
运行结果:
# print(df_obj)data1 data2
0 7 9
1 7 8
2 8 9
3 4 1
4 1 2# print(stacked)
0 data1 7data2 9
1 data1 7data2 8
2 data1 8data2 9
3 data1 4data2 1
4 data1 1data2 2
dtype: int64
2. unstack
将层级索引展开
Series->DataFrame
认操作内层索引,即level=-1
# 默认操作内层索引
print(stacked.unstack())# 通过level指定操作索引的级别
print(stacked.unstack(level=0))
运行结果:
# print(stacked.unstack())data1 data2
0 7 9
1 7 8
2 8 9
3 4 1
4 1 2# print(stacked.unstack(level=0))0 1 2 3 4
data1 7 7 8 4 1
data2 9 8 9 1 2
数据转换
一、 处理重复数据
1 duplicated()
返回布尔型Series表示每行是否为重复行
import numpy as np
import pandas as pddf_obj = pd.DataFrame({'data1' : ['a'] * 4 + ['b'] * 4,'data2' : np.random.randint(0, 4, 8)})
print(df_obj)print(df_obj.duplicated())
运行结果:
# print(df_obj)data1 data2
0 a 3
1 a 2
2 a 3
3 a 3
4 b 1
5 b 0
6 b 3
7 b 0# print(df_obj.duplicated())
0 False
1 False
2 True
3 True
4 False
5 False
6 False
7 True
dtype: bool
2 drop_duplicates()
过滤重复行
默认判断全部列
可指定按某些列判断
print(df_obj.drop_duplicates())
print(df_obj.drop_duplicates('data2'))
运行结果:
# print(df_obj.drop_duplicates())data1 data2
0 a 3
1 a 2
4 b 1
5 b 0
6 b 3# print(df_obj.drop_duplicates('data2'))data1 data2
0 a 3
1 a 2
4 b 1
5 b 0
3. 根据map
传入的函数对每行或每列进行转换
- Series根据
map
传入的函数对每行或每列进行转换
示例代码:
ser_obj = pd.Series(np.random.randint(0,10,10))
print(ser_obj)print(ser_obj.map(lambda x : x ** 2))
运行结果:
# print(ser_obj)
0 1
1 4
2 8
3 6
4 8
5 6
6 6
7 4
8 7
9 3
dtype: int64# print(ser_obj.map(lambda x : x ** 2))
0 1
1 16
2 64
3 36
4 64
5 36
6 36
7 16
8 49
9 9
dtype: int64
二、数据替换
replace
根据值的内容进行替换
# 单个值替换单个值
print(ser_obj.replace(1, -100))# 多个值替换一个值
print(ser_obj.replace([6, 8], -100))# 多个值替换多个值
print(ser_obj.replace([4, 7], [-100, -200]))
运行结果:
# print(ser_obj.replace(1, -100))
0 -100
1 4
2 8
3 6
4 8
5 6
6 6
7 4
8 7
9 3
dtype: int64# print(ser_obj.replace([6, 8], -100))
0 1
1 4
2 -100
3 -100
4 -100
5 -100
6 -100
7 4
8 7
9 3
dtype: int64# print(ser_obj.replace([4, 7], [-100, -200]))
0 1
1 -100
2 8
3 6
4 8
5 6
6 6
7 -100
8 -200
9 3
dtype: int64
参考资料
数据分析工具Pandas(7):数据清洗、合并、转化和重构相关推荐
- 【Python数据分析学习笔记Day3】(三)数据分析工具pandas,数据清洗,聚类K-Means
Pandas学习 https://blog.csdn.net/qq_41251963/article/details/103904044 Pandas数据结构 import pandas as pd ...
- 数据分析工具Pandas
数据分析工具Pandas 数据分析工具Pandas 01 Pandas的数据结构分析 Series DataFrame 02 Pandas索引操作及高级索引 索引对象 03 算术运算与数据对齐 算术运 ...
- 数据分析工具Pandas(3):Pandas的对齐运算
数据分析工具Pandas(1):Pandas的数据结构 数据分析工具Pandas(2):Pandas的索引操作 数据分析工具Pandas(3):Pandas的对齐运算 Pandas的对齐运算 是数据清 ...
- 数据分析工具Pandas(6):Pandas统计计算和描述
数据分析工具Pandas(1):Pandas的数据结构 数据分析工具Pandas(2):Pandas的索引操作 数据分析工具Pandas(3):Pandas的对齐运算 数据分析工具Pandas(4): ...
- 数据分析工具Pandas(4):Pandas的函数应用
数据分析工具Pandas(1):Pandas的数据结构 数据分析工具Pandas(2):Pandas的索引操作 数据分析工具Pandas(3):Pandas的对齐运算 数据分析工具Pandas(4): ...
- 数据分析工具Pandas(2):Pandas的索引操作
数据分析工具Pandas(1):Pandas的数据结构 数据分析工具Pandas(2):Pandas的索引操作 Pandas的索引操作 索引对象Index 1. Series和DataFrame中的索 ...
- 这就是数据分析之Pandas与数据清洗
总括 在数据分析工作中,Pandas 的使用频率是很高的,一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 json 的契合度很高,转换起来就很方便.另一方面,如果我们日常的数据 ...
- 【Pandas】数据分析工具Pandas的基本操作和可视化工具Matplotlib
1.Pandas简介 pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的 ...
- Python数据处理035:结构化数据分析工具Pandas之Pandas概览
Pandas是做数据分析最核心的一个工具.我们要先了解数据分析,才能更好的明白Pandas,因此,本文分为三个部分: 1.数据分析 2.Pandas概述 3.Pandas安装anaconda 文章目录 ...
最新文章
- jmeter生成html报告修改,Jmeter生成html报告(示例代码)
- mongoDB mac 安装 小白必备
- 山东2015职称计算机考试报名时间,2015年山东职称计算机考试报名入口
- php 抓取 wordpress 文字内容,如何抓取WordPress文章
- mysql 查询最早 表,【MySQL】MySQL查询表的创建时间
- java源代码怎么用_java源码怎么使用?java源代码用什么打开!
- 计算机合并单元格怎么操作,excel怎么合并单元格方法
- php error unexpected,PHP异常Parse error: syntax error, unexpected错误解决方法
- Java为什么要序列化
- linux下puts和gets命令用法,puts()和gets()函数(示例代码)
- Android各厂商自启动管理界面
- shell 中的括号(小括号,花括号)
- 如何从型号判断NVR支持的接入路数和硬盘数?
- 2015(2016届)校园招聘季——内推 篇
- Jmeter入参POST data乱码传入‘--VRES...SER--’的问题
- 基于SSM的校园运动会管理系统
- WiFi驱动(1)框架解析
- Simulink基础【1】-弹簧-阻尼模型的常微分方程求解
- 电商项目之收货地址理解
- Long-term 3D Localization and Pose from Semantic Labellings