python/pandas数据分析（十五）-聚合与分组运算实例

用特定于分组的值填充缺失值

用平均值去填充nan

s=pd.Series(np.random.randn(6))
s[::2]=np.nan
s0         NaN
1   -0.118174
2         NaN
3   -0.308161
4         NaN
5   -0.655565
dtype: float64s.fillna(s.mean())

stats=['Ohio','New York','Vermont','Florida','Oregon','Nevada','California','Idaho']
group_key=['East']*4 + ['West']*4
data=pd.Series(np.random.randn(8),index=stats)
data[['Vermont','Nevada','Idaho']]=np.nan
dataOhio          0.345378
New York      1.538009
Vermont            NaN
Florida       0.113972
Oregon        1.618781
Nevada             NaN
California    0.728396
Idaho              NaN
dtype: float64

其中group_key是

group_key['East', 'East', 'East', 'East', 'West', 'West', 'West', 'West']

data.groupby(group_key).mean()East    0.665786
West    1.173589
dtype: float64

fill_mean=lambda g:g.fillna(g.mean())
data.groupby(group_key).apply(fill_mean)Ohio          0.345378
New York      1.538009
Vermont       0.665786
Florida       0.113972
Oregon        1.618781
Nevada        1.173589
California    0.728396
Idaho         1.173589
dtype: float64

也可自定义字典作为填充值

fill_values={'East':0.5,'West':-1}
fill_func=lambda g:g.fillna(fill_values[g.name])
data.groupby(group_key).apply(fill_func)Ohio          0.345378
New York      1.538009
Vermont       0.500000
Florida       0.113972
Oregon        1.618781
Nevada       -1.000000
California    0.728396
Idaho        -1.000000
dtype: float64

card_val=(list(range(1,11)) + [10]*3 )*4
card_val
#需要强制将rang转成list否则会报错base_names=['A']+list(range(2,11))+['J','K','Q']
base_names['A', 2, 3, 4, 5, 6, 7, 8, 9, 10, 'J', 'K', 'Q']

未完待续

python/pandas数据分析（十五）-聚合与分组运算实例相关推荐

【Python】GroupBy：数据聚合与分组运算
[博客地址]:https://blog.csdn.net/sunyaowu315 [博客大纲地址]:https://blog.csdn.net/sunyaowu315/article/details/ ...
pandas合并groupby_pandas数据聚合与分组运算——groupby方法
简介 pandas中一类非常重要的操作是数据聚合与分组运算.通过groupby方法能够实现对数据集的拆分.统计.转换等操作,这个过程一气呵成. 在本文中,你将学到: 选取特定列分组: 对分组进行迭代: ...
Python数据分析之数据聚合与分组运算（拆分、应用、合并）
笔记目录 1.分组与聚合的原理 1.2分组与聚合的过程分为三步 1.2.1拆分 1.2.2应用 1.2.3合并 2. 通过groupby()方法将数据拆分成组 2.1 groupby()方法 2.2 ...
类的应用python平均分_【数据科学系统学习】Python # 数据分析基本操作[四] 数据规整化和数据聚合与分组运算...
本篇内容为整理<利用Python进行数据分析>,博主使用代码为 Python3,部分内容和书本有出入. 在前几篇中我们介绍了 NumPy.pandas.matplotlib 三个库的基本操 ...
《利用python进行数据分析》读书笔记--第九章数据聚合与分组运算（一）
http://www.cnblogs.com/batteryhp/p/5046450.html 对数据进行分组并对各组应用一个函数,是数据分析的重要环节.数据准备好之后,通常的任务就是计算分组统计或生 ...
Python数据聚合和分组运算(1)-GroupBy Mechanics
前言 Python的pandas包提供的数据聚合与分组运算功能很强大,也很灵活.<Python for Data Analysis>这本书第9章详细的介绍了这方面的用法,但是有些细节不常用 ...
【学习经典】python 数据聚合与分组运算（part 2）
本文的前半部分:python 数据聚合与分组运算(part 1) 4. 透视表和交叉表透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具.它根据一个或多个键 ...
Python之数据聚合与分组运算
Python之数据聚合与分组运算 1. 关系型数据库方便对数据进行连接.过滤.转换和聚合. 2. Hadley Wickham创建了用于表示分组运算术语"split-apply-combin ...
python学习[第十五篇] 文件系统
python学习[第十五篇] 文件系统对文件系统访问大多数都通过os模块实现. os 模块文件/目录访问函数文件处理 mkfifo() 创建命名通道只用于linux remove(path)/un ...

python/pandas数据分析（十五）-聚合与分组运算实例

用特定于分组的值填充缺失值

python/pandas数据分析（十五）-聚合与分组运算实例相关推荐

最新文章

热门文章