Pandas数据规整

数据分析和建模方面的大量编程工作都是用在数据准备上的，有时候存放在文件或数据库中的数据并不能满足数据处理应用的要求

Pandas提供了一组高级的、灵活的、高效的核心函数和算法，它们能够轻松地将数据规整化为你需要的形式

合并

连接

Pandas提供了大量方法，能轻松的对Series，DataFrame和Panel执行合并操作

连接pandas对象 .concat()

import numpy as np
import pandas as pddf = pd.DataFrame(np.random.randn(10, 4))
df.head()

	0	1	2	3
0	0.231308	1.193636	-0.033288	0.826399
1	-0.421474	-0.618510	-1.266325	-0.439435
2	-0.279457	0.578144	1.131353	-0.639720
3	-1.197750	-0.446579	0.495728	0.900704
4	-0.638926	-0.233019	-1.106248	-0.762133

pieces = [df[:2], df[3:5], df[7:]] # 这里面切片是前闭后开的
pieces

[          0         1         2         30  0.231308  1.193636 -0.033288  0.8263991 -0.421474 -0.618510 -1.266325 -0.439435,0         1         2         33 -1.197750 -0.446579  0.495728  0.9007044 -0.638926 -0.233019 -1.106248 -0.762133,0         1         2         37 -0.265515 -0.705797  0.695531 -0.2573748  0.552615 -0.137180  0.859215 -0.8537529 -1.014105  0.392409 -1.832748  0.612679]

df2 = pd.concat(pieces)
df2

	0	1	2	3
0	0.231308	1.193636	-0.033288	0.826399
1	-0.421474	-0.618510	-1.266325	-0.439435
3	-1.197750	-0.446579	0.495728	0.900704
4	-0.638926	-0.233019	-1.106248	-0.762133
7	-0.265515	-0.705797	0.695531	-0.257374
8	0.552615	-0.137180	0.859215	-0.853752
9	-1.014105	0.392409	-1.832748	0.612679

追加 .append()

df = pd.DataFrame(np.random.randn(4, 4), columns=['A','B','C','D'])
df

	A	B	C	D
0	1.295901	-0.742636	0.873728	-0.810075
1	1.073456	0.344627	0.156597	1.460616
2	1.696282	-1.272457	1.226460	-1.944458
3	-0.473047	0.147528	-0.538231	0.125467

s = df.iloc[2]
s

A    1.696282
B   -1.272457
C    1.226460
D   -1.944458
Name: 2, dtype: float64

df.append(s, ignore_index=True)

	A	B	C	D
0	1.295901	-0.742636	0.873728	-0.810075
1	1.073456	0.344627	0.156597	1.460616
2	1.696282	-1.272457	1.226460	-1.944458
3	-0.473047	0.147528	-0.538231	0.125467
4	1.696282	-1.272457	1.226460	-1.944458

分组

group by():一般指以下一个或多个操作步骤

Splitting 将数据分组
Applying 对每个分组应用不同的function
Combining 使用某种数据结果展示结果

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],'B' : ['one', 'one', 'two', 'three','two', 'two', 'one', 'three'],'C' : np.random.randn(8),'D' : np.random.randn(8)})
df

	A	B	C	D
0	foo	one	0.556699	1.543716
1	bar	one	-0.905349	-0.054870
2	foo	two	1.220397	-0.589706
3	bar	three	0.637305	-0.046351
4	foo	two	-0.150553	-0.889157
5	bar	two	-0.771132	0.196547
6	foo	one	0.008275	-0.571672
7	foo	three	0.228275	-1.164593

# 分组后sum求和:
a = df.groupby('A').sum()
a

	C	D
A
bar	-1.039176	0.095325
foo	1.863094	-1.671411

a = df.groupby('A',as_index=False).sum()
a

	A	C	D
0	bar	-1.039176	0.095325
1	foo	1.863094	-1.671411

# 对多列分组后sum:
b = df.groupby(['A','B']).sum()
b

		C	D
A	B
bar	one	-0.905349	-0.054870
three	0.637305	-0.046351
two	-0.771132	0.196547
foo	one	0.564975	0.972044
three	0.228275	-1.164593
two	1.069844	-1.478862

b = df.groupby(['A','B'],as_index=False).sum()
b

	A	B	C	D
0	bar	one	-0.905349	-0.054870
1	bar	three	0.637305	-0.046351
2	bar	two	-0.771132	0.196547
3	foo	one	0.564975	0.972044
4	foo	three	0.228275	-1.164593
5	foo	two	1.069844	-1.478862

Pandas数据规整相关推荐

python数据分析及可视化（九）pandas数据规整（分组聚合、数据透视表、时间序列、数据分析流程）
作业拼接多个csv文件去除重复数据,重新索引自动挡和手动挡数目计算每个城市二手车数量统计每个汽车品牌平均售价价格(不是原价) 分组与聚合如下表所示,5行3列的表格,5种水果分别对应的名称, ...
Python数据分析—Pandas数据规整
数据规整一.索引二.分层索引三.数据合并 1.merge方法 2.join方法 3.concat方法四.数据分组与聚合一.索引 # 查看索引 df.index # 指定索引,但个数必须保持一 ...
pandas 数据规整化 —— 合并、清理与转换
日期处理: pd.to_datetime() df.reset_index():增加属性名为 index 的属性列 >> data = [[1,2,3],[4,5,6]] >> ...
3-10 Pandas的数据规整
数据分析工具pandas 10. Pandas的数据规整 10.1 层次化索引 10.2 数据连接 10.2.1 pd.merge 10.2.2 pd.concat 10.3 重塑 10.3.1 st ...
3.4 利用Pandas进行数据清洗和数据规整化
本文章是3.4.3.5的内容,如果想要源代码和数据可以看以下链接: https://download.csdn.net/download/Ahaha_biancheng/83338868 文章目录 3 ...
python数据分析第七章实训3_《利用python进行数据分析》读书笔记--第七章数据规整化：清理、转换、合并、重塑（二）...
3.数据转换介绍完数据的重排之后,下面介绍数据的过滤.清理.以及其他转换工作. 去重 #-*- encoding: utf-8 -*- importnumpy as npimportpandas a ...
【Python】merge：数据规整化：清理、转换、合并、重塑
merge:数据规整化:清理.转换.合并.重塑目录: 文章目录 @[toc] 一合并数据集 1 数据库风格的DataFrame合并 2 索引上的合并 3 轴向连接 4 合并重叠数据二重塑和轴向 ...
类的应用python平均分_【数据科学系统学习】Python # 数据分析基本操作[四] 数据规整化和数据聚合与分组运算...
本篇内容为整理<利用Python进行数据分析>,博主使用代码为 Python3,部分内容和书本有出入. 在前几篇中我们介绍了 NumPy.pandas.matplotlib 三个库的基本操 ...
利用Python进行数据分析--数据规整化：清理、转换、合并、重塑
转载自:http://blog.csdn.net/ssw_1990/article/details/26565069 1.数据转换目前为止介绍的都是数据的重排.另一类重要操作则是过滤.清理以及其他的 ...

Pandas数据规整

Pandas数据规整

合并

连接

分组

Pandas数据规整相关推荐

最新文章

热门文章