5.1数据分组

5.1.1GroupBy简介

5.1.2列名分组

5.1.3按列表或元组分组

5.1.4按字典分组

5.1.5按函数分组

5.2聚合运算

5.2.1聚合函数

5.2.2 多函数应用

1 一行多函数

2 多列多函数

3 不同列不同函数

5.3分组运算

5.3.1transform方法

5.3.2apply方法

5.4数据透视表

5.4.1透视表

5.4.2交叉表

5.5综合实例-巴尔的摩公务员工资数据集

5.5.1数据来源

5.5.2定义问题

5.5.3数据清洗

5.5.4数据探索

数据的分组统计是数据分析工作中的重要环节。本节将讲解GroupBy的原理和使用方法；聚合函数的使用；富足运算中transform和apply方法的使用；通过pandas创建数据透视表的方法；最后通过一个综合示例。巩固数据分析统计的使用。

5.1数据分组

5.1.1GroupBy简介

GroupBy技术用于数据分组运算，类似于Excel的分类汇总（对于不同分类进行运算），其运算的核心模式为split-apply-combine，如下图所示，首先，数据及按照key（分组键）的方式分成小的数据片（split）；然后对每一个数据片进行操作，如分类求和（apply）最后将结果再组合起来形成新的数据及（combine）

利用GroupBy方法可以轻松地完成分组统计的任务。以消费数据集为例，通过性别分别计算消费平均值，如下图

返回的grouped为GroupBy对象，是保存的中间数据，该对象调用mean（）方法即可返回数据。

mena方法完成了分组数据的聚合运算，返回列一个Series数据，更多聚合运算将在后面讲解。当然，也可以通过分组键进行计算，通过day和time，计算小费平均值。

通过pandas绘图分析可以分析出，晚餐（Dinner）比午餐（Lunch）的小费金额多，而且周六，周日的小费金额明显比周四、周五多，如下图

GroupBy对象是可迭代的，其构造为一组二元元祖，如下图

注：GroupBy由分组名和数据片构成。

size方法可以返回各分组的大小，如下图

5.1.2列名分组

在6.1节中，groupby方法使用的分组键为Series。当然，分组键也支持其他的格式，下面的内容中将一一介绍分组键格式和使用方法。DataFrame数据的列索引名称可以作为分组键，如下图

用列索引名称可以作为分组键时，用于分组的对象必须是DataFrame数据本身，否则搜索不到索引名会报错，绘制下图，可以看出吸烟对消费数据的影响不大。

上述方法返回的是多列DataFrame的数据，如果只需要获取tip（小费）列数据，通过索引选取即可。但GroupBy对象也可以通过索引获取tip列，然后再进行聚合运算，他其实相当于语法糖，更好用，如下图

作图可以看出，小费金额基本上与聚餐人数呈正相关，但人数为5时，有下降的趋势。

5.1.3按列表或元组分组

分组键也可以是长度适当的列表或元组，长度适当其实就是要与带分组的DataFrame的行数一样，简单地理解，就是把列表或者元组当成DataFarme的一列，然后按其分组

5.1.4按字典分组

如果按照原始的DataFrame中的分组信息很难确定或者不存在，可通过字典结构，定义分组的信息，如图

5.1.5按函数分组

函数作为分组键的原理类似于字典，通过映射关系进行分组，但是函数分组更加灵活，如下图，通过DataFrame最后一列的数值进行正负分组。

对于层次化索引，可通过级别进行分组，通过level参数，输入编号或名称即可，如下图

当然也可以在列上进行分组（axis=1）如下图

5.2聚合运算

聚合运算就是对分组后的数据进行计算，产生标量值的数据转换过程。本书将讲解常用的聚合函数和自定义聚合函数的用法。

5.2.1聚合函数

前面的例子中使用了部分聚合运算方法，如mean、count、sum函数，如下表所示，为常用的聚合运算方法。

参数	使用说明
count	计数
sum	求和
median	求算数中位数
mean	求平均值
std、var	无偏标准差和方差
min、max	最大值、最小值
prod	求积
first、last	第一个和最后一个值

注：空值不参与计算

然后通过性别分组，计算小费的最大值。

其实，除了上述聚合运算方法外，只要是Series或DataFrame支持的能用于分组的运算函数都可以拿来使用。

对于更加复杂的聚合运算，可以自定义聚合函数，通过aggregate或agg参数传入即可。例如，通过性别分类，计算小费最大值与最小值的差（极差），如下图

如下图，我们可以看出，男性（Male）的小费极差比女性（Female）大很多，说明在小费给予中，男性的差异较大，主观性更大。

5.2.2 多函数应用

1 一行多函数

如下图，对agg参数传入多函数列表，即可完成一列的多函数运算。

如果不想使用默认的运算函数列名，可以元组的形式传入，前面为名称，后面为聚合函数，如下图

2 多列多函数

对多列进行多聚合函数运算时，会产生层次化索引，如下图

3 不同列不同函数

如果需要对不同列使用不同的函数运算，可以通过字典来定义映射关系，如下图

如果希望返回的结果不以分组键为索引，通过as_index=False可以完成，如下图

5.3分组运算

分组运算包含了聚合运算，聚合运算是数据转换的特里。本节将讲解transform和apply方法，通过这两个方法，可以实现更多的分组预算。

5.3.1transform方法

首先对小费数据集新建一列用于存放男性和女性小费的平均值。常用的方法是，先聚合运算，然后再将其合并。大家注意观察下面的方法，注意理解。

上面的方法虽然也能实现，但过于繁琐，不灵活。通过transform方法可以使得运算分布到每一行。

5.3.2apply方法

apply方法的功能更加强大，例如可以计算根据性别分组后小费金额排在前5名的DataFrame数据，如下图

如果希望返回的结果不以分组键为索引，通过group_keys=False可以完成，如下图

例如，前面对缺失数据的处理可以通过数值填充来完成，图下图，也可以通过平均值对缺失值进行填充。

可以这样假设：男生和女生的数学成绩还是有去别的，希望通过分组后，在进行插值，如下图

5.4数据透视表

说到数据透视表，我们可能并不陌生，在Excel中，就有数据透视表的功能，通过行、列、值形成一个透视表。在pandas中，通过pivot_table函数也可以实现同样的功能。

5.4.1透视表

首先介绍pivot_table函数的常用参数，value代表的是值，index为行，columns为列，其他参数在实际案例中讲解。

这里的值计算为平均值（默认），也可以通过aggfunc参数来指定，如下图

通过margins参数可加入分项小计

注：更多参数的使用说明，可以查看帮助文档

5.4.2交叉表

交叉表是一种用于计算分组频率的特殊透视表，这里还以小费数据为例，其使用方法如下图

通过div，可以使得每行的和为1，如下图

这样可以看出聚餐人数的比例情况，在pandas绘图中，通过stacked=True可以绘制堆积图

5.5综合实例-巴尔的摩公务员工资数据集

5.5.1数据来源

该数据为美国政府公开的公职人员的薪资数据。其中，Name为姓名，JobTitle为职位名称；AgencyID和Agence为工号和单位，HireDate为入职日期，AnnualSalary为年薪，GrossPay为总薪资（税前）

5.5.2定义问题

本次分析中，围绕工资提出几个问题；年薪得分布情况、公务人员入职日期得情况、年薪最高得职务和人数最多得职位。

5.5.3数据清洗

首先对数据进行简单得描述，查看是否有缺失值，这里进行描述性统计得一般用得函数isnull().sum() 、 info() 、 describe() 、 .shape 居多如下图

可以看出，GrossPay列有272个缺失值，因为这里得样本量足够，直接删除这些样本即可。

注：我们也可以通过职位分组后插入均值

我们还发现，在工资数据中，年薪和薪资都是字符串结构得，有$符号，利用前面讲得字符串用法，将其去掉，并转换为浮点类型。如下图

对于入职日期，可以新建一列，用于存放入职得月份。

注：这里是把日期数据当作字符串来处理了，日期数据得处理会在后面讲解

5.5.4数据探索

我们首先对年薪工资进行直方图绘制，如下图。年薪基本呈正态分布，但向左略有倾斜，这也说明高工资得职务还是很少得。

然后对入职月份进行统计并绘制柱状图，如下图，入职得高峰期为9月、8月和6月。

接着通过聚合运算，计算各职位得年薪平均值和职位个数，如下图

然后再对年薪平均值进行降序，取前5名绘制柱状图，如图所示，从图中可以看出，STATE`S ATTORNEY（州检察官）得年薪最高

按同样得方法，再绘制职位人数排名柱状图，如图所示。可以看出，警察得职位人数远多于其他职位。

Python数据分析5-数据分组与聚合相关推荐

Python数据分析pandas之分组统计透视表
Python数据分析pandas之分组统计透视表数据聚合统计 Padans里的聚合统计即是应用分组的方法对数据框进行聚合统计,常见的有min(最小).max(最大).avg(平均值).sum(求和) ...
产品运营数据分析—SPSS数据分组案例
产品运营数据分析-SPSS数据分组案例当我们的样本量过大,譬如以前讲过的,EXCEL2010最大只支持1048576行.16384列,尤其是当行数大于30万,一般的办公电脑处理都比较吃力,所以推荐数 ...
Python数据分析中数据预处理：编码将文字型数据转换为数值型
[小白从小学Python.C.Java] [Python-计算机等级考试二级] [Python-数据分析] Python数据分析中数据预处理:编码将文字型数据转换为数值型选择题对于以下pyth ...
视频教程-数据挖掘基础：零基础学Python数据分析-大数据
数据挖掘基础:零基础学Python数据分析辽宁师范大学教师,特聘教授,硕士生导师.大数据与商务智能实验室主任. 李洪磊 ¥198.00 立即订阅扫码下载「CSDN程序员学院APP」,1000+技术 ...
Python数据分析—Pandas数据规整
数据规整一.索引二.分层索引三.数据合并 1.merge方法 2.join方法 3.concat方法四.数据分组与聚合一.索引 # 查看索引 df.index # 指定索引,但个数必须保持一 ...
python逐笔输入数据_知到智慧树Python数据分析与数据可视化结课测验
知到智慧树Python数据分析与数据可视化结课测验答案更多相关问题已知三角形三个顶点的坐标是A(-1,2,3),B(1,1,1),C(0,0,5),试证三角形ABC是直角三角形,并求角B-- Wh ...
python集合中的元素不允许重复_Python语言中同一个集合中的元素不会重复，每个元素都是唯一的。-智慧树Python数据分析与数据可视化章节答案...
Python数据分析与数据可视化:Python语言中同一个集合中的元素不会重复,每个元素都是唯一的.[?ж???] A:对 B:错 Python数据分析与数据可视化章节测试答案: 对更多相关问题智 ...
Python数据分析——Matplotlib数据可视化基础（二）
Python数据分析--Matplotlib数据可视化基础(二) 思维导图: 图形的绘制认识要绘制的图形基本绘图流程 pyplot基础图表函数 pyplot饼图的绘制 pie函数 matplotl ...
Python数据分析之数据聚合与分组运算（拆分、应用、合并）
笔记目录 1.分组与聚合的原理 1.2分组与聚合的过程分为三步 1.2.1拆分 1.2.2应用 1.2.3合并 2. 通过groupby()方法将数据拆分成组 2.1 groupby()方法 2.2 ...
python数据分析笔记——数据加载与整理
Python数据分析--数据加载与整理总第47篇 ▼ (本文框架) 数据加载导入文本数据 1.导入文本格式数据(CSV)的方法: 方法一:使用pd.read_csv(),默认打开csv文件. 9. ...

Python数据分析5-数据分组与聚合

5.1数据分组

5.1.1GroupBy简介

5.1.2列名分组

5.1.3按列表或元组分组

5.1.4按字典分组

5.1.5按函数分组

5.2聚合运算

5.2.1聚合函数

5.2.2 多函数应用

1 一行多函数

2 多列多函数

3 不同列不同函数

5.3分组运算

5.3.1transform方法

5.3.2apply方法

5.4数据透视表

5.4.1透视表

5.4.2交叉表

5.5综合实例-巴尔的摩公务员工资数据集

5.5.1数据来源

5.5.2定义问题

5.5.3数据清洗

5.5.4数据探索

Python数据分析5-数据分组与聚合相关推荐

最新文章

热门文章