Python数据分析5-数据分组与聚合
目录
5.1数据分组
5.1.1GroupBy简介
5.1.2列名分组
5.1.3按列表或元组分组
5.1.4按字典分组
5.1.5按函数分组
5.2聚合运算
5.2.1聚合函数
5.2.2 多函数应用
1 一行多函数
2 多列多函数
3 不同列不同函数
5.3分组运算
5.3.1transform方法
5.3.2apply方法
5.4数据透视表
5.4.1透视表
5.4.2交叉表
5.5综合实例-巴尔的摩公务员工资数据集
5.5.1数据来源
5.5.2定义问题
5.5.3数据清洗
5.5.4数据探索
数据的分组统计是数据分析工作中的重要环节。本节将讲解GroupBy的原理和使用方法;聚合函数的使用;富足运算中transform和apply方法的使用 ;通过pandas创建数据透视表的方法;最后通过一个综合示例。巩固数据分析统计的使用。
5.1数据分组
5.1.1GroupBy简介
GroupBy技术用于数据分组运算,类似于Excel的分类汇总(对于不同分类进行运算),其运算的核心模式为split-apply-combine,如下图所示,首先,数据及按照key(分组键)的方式分成小的数据片(split);然后对每一个数据片进行操作,如分类求和(apply)最后将结果再组合起来形成新的数据及(combine)
利用GroupBy方法可以轻松地完成分组统计的任务。以消费数据集为例,通过性别分别计算消费平均值,如下图
返回的grouped为GroupBy对象,是保存的中间数据,该对象调用mean()方法即可返回数据。
mena方法完成了分组数据的聚合运算,返回列一个Series数据,更多聚合运算将在后面讲解。当然,也可以通过分组键进行计算,通过day和time,计算小费平均值。
通过pandas绘图分析可以分析出,晚餐(Dinner)比午餐(Lunch)的小费金额多,而且周六,周日的小费金额明显比周四、周五多,如下图
GroupBy对象是可迭代的,其构造为一组二元元祖,如下图
注:GroupBy由分组名和数据片构成。
size方法可以返回各分组的大小,如下图
5.1.2列名分组
在6.1节中,groupby方法使用的分组键为Series。当然,分组键也支持其他的格式,下面的内容中将一一介绍分组键格式和使用方法。DataFrame数据的列索引名称可以作为分组键,如下图
用列索引名称可以作为分组键时,用于分组的对象必须是DataFrame数据本身,否则搜索不到索引名会报错,绘制下图,可以看出吸烟对消费数据的影响不大。
上述方法返回的是多列DataFrame的数据,如果只需要获取tip(小费)列数据,通过索引选取即可。但GroupBy对象也可以通过索引获取tip列,然后再进行聚合运算,他其实相当于语法糖,更好用,如下图
作图可以看出,小费金额基本上与聚餐人数呈正相关,但人数为5时,有下降的趋势。
5.1.3按列表或元组分组
分组键也可以是长度适当的列表或元组,长度适当其实就是要与带分组的DataFrame的行数一样,简单地理解,就是把列表或者元组当成DataFarme的一列,然后按其分组
5.1.4按字典分组
如果按照原始的DataFrame中的分组信息很难确定或者不存在 ,可通过字典结构,定义分组的信息,如图
5.1.5按函数分组
函数作为分组键的原理类似于字典,通过映射关系进行分组,但是函数分组更加灵活,如下图,通过DataFrame最后一列的数值进行正负分组。
对于层次化索引,可通过级别进行分组,通过level参数,输入编号或名称即可,如下图
当然也可以在列上进行分组(axis=1)如下图
5.2聚合运算
聚合运算就是对分组后的数据进行计算,产生标量值的数据转换过程。本书将讲解常用的聚合函数和自定义聚合函数的用法。
5.2.1聚合函数
前面的例子中使用了部分聚合运算方法,如mean、count、sum函数,如下表所示,为常用的聚合运算方法。
参数 |
使用说明 |
count | 计数 |
sum | 求和 |
median | 求算数中位数 |
mean | 求平均值 |
std、var | 无偏标准差和方差 |
min、max | 最大值、最小值 |
prod | 求积 |
first、last | 第一个和最后一个值 |
注:空值不参与计算
然后通过性别分组,计算小费的最大值。
其实,除了上述聚合运算方法外,只要是Series或DataFrame支持的能用于分组的运算函数都可以拿来使用。
对于更加复杂的聚合运算,可以自定义聚合函数,通过aggregate或agg参数传入即可。例如,通过性别分类,计算小费最大值与最小值的差(极差),如下图
如下图,我们可以看出,男性(Male)的小费极差比女性(Female)大很多,说明在小费给予中,男性的差异较大,主观性更大。
5.2.2 多函数应用
1 一行多函数
如下图,对agg参数传入多函数列表,即可完成一列的多函数运算。
如果不想使用默认的运算函数列名 ,可以元组的形式传入,前面为名称,后面为聚合函数,如下图
2 多列多函数
对多列进行多聚合函数运算时,会产生层次化索引,如下图
3 不同列不同函数
如果需要对不同列使用不同的函数运算,可以通过字典来定义映射关系,如下图
如果希望返回的结果不以分组键为索引,通过as_index=False可以完成,如下图
5.3分组运算
分组运算包含了聚合运算,聚合运算是数据转换的特里。本节将讲解transform和apply方法,通过这两个方法,可以实现更多的分组预算。
5.3.1transform方法
首先对小费数据集新建一列用于存放男性和女性小费的平均值。常用的方法是,先聚合运算,然后再将其合并。大家注意观察下面的方法,注意理解。
上面的方法虽然也能实现,但过于繁琐,不灵活。通过transform方法可以使得运算分布到每一行。
5.3.2apply方法
apply方法的功能更加强大,例如可以计算根据性别分组后小费金额排在前5名的DataFrame数据,如下图
如果希望返回的结果不以分组键为索引,通过group_keys=False可以完成,如下图
例如,前面对缺失数据的处理可以通过数值填充来完成,图下图,也可以通过平均值对缺失值进行填充。
可以这样假设:男生和女生的数学成绩还是有去别的,希望通过分组后,在进行插值,如下图
5.4数据透视表
说到数据透视表,我们可能并不陌生,在Excel中,就有数据透视表的功能,通过行、列、值形成一个透视表。在pandas中,通过pivot_table函数也可以实现同样的功能。
5.4.1透视表
首先介绍pivot_table函数的常用参数,value代表的是值,index为行,columns为列,其他参数在实际案例中讲解。
这里的值计算为平均值(默认),也可以通过aggfunc参数来指定,如下图
通过margins参数可加入分项小计
注:更多参数的使用说明,可以查看帮助文档
5.4.2交叉表
交叉表是一种用于计算分组频率的特殊透视表,这里还以小费数据为例,其使用方法如下图
通过div,可以使得每行的和为1,如下图
这样可以看出聚餐人数的比例情况,在pandas绘图中,通过stacked=True可以绘制堆积图
5.5综合实例-巴尔的摩公务员工资数据集
5.5.1数据来源
该数据为美国政府公开的公职人员的薪资数据。其中,Name为姓名,JobTitle为职位名称;AgencyID和Agence为工号和单位,HireDate为入职日期,AnnualSalary为年薪,GrossPay为总薪资(税前)
5.5.2定义问题
本次分析中,围绕工资提出几个问题;年薪得分布情况、公务人员入职日期得情况、年薪最高得职务和人数最多得职位。
5.5.3数据清洗
首先对数据进行简单得描述,查看是否有缺失值,这里进行描述性统计得一般用得函数isnull().sum() 、 info() 、 describe() 、 .shape 居多 如下图
可以看出,GrossPay列有272个缺失值,因为这里得样本量足够,直接删除这些样本即可。
注:我们也可以通过职位分组后插入均值
我们还发现,在工资数据中,年薪和薪资都是字符串结构得,有$符号,利用前面讲得字符串用法,将其去掉,并转换为浮点类型。如下图
对于入职日期,可以新建一列,用于存放入职得月份。
注:这里是把日期数据当作字符串来处理了,日期数据得处理会在后面讲解
5.5.4数据探索
我们首先对年薪工资进行直方图绘制,如下图。年薪基本呈正态分布,但向左略有倾斜,这也说明高工资得职务还是很少得。
然后对入职月份进行统计并绘制柱状图,如下图,入职得高峰期为9月、8月和6月。
接着通过聚合运算,计算各职位得年薪平均值和职位个数,如下图
然后再对年薪平均值进行降序,取前5名绘制柱状图,如图所示,从图中可以看出,STATE`S ATTORNEY(州检察官)得年薪最高
按同样得方法,再绘制职位人数排名柱状图,如图所示。可以看出,警察得职位人数远多于其他职位。
Python数据分析5-数据分组与聚合相关推荐
- Python数据分析pandas之分组统计透视表
Python数据分析pandas之分组统计透视表 数据聚合统计 Padans里的聚合统计即是应用分组的方法对数据框进行聚合统计,常见的有min(最小).max(最大).avg(平均值).sum(求和) ...
- 产品运营数据分析—SPSS数据分组案例
产品运营数据分析-SPSS数据分组案例 当我们的样本量过大,譬如以前讲过的,EXCEL2010最大只支持1048576行.16384列,尤其是当行数大于30万,一般的办公电脑处理都比较吃力,所以推荐数 ...
- Python数据分析中数据预处理:编码将文字型数据转换为数值型
[小白从小学Python.C.Java] [Python-计算机等级考试二级] [Python-数据分析] Python数据分析中 数据预处理:编码 将文字型数据转换为数值型 选择题 对于以下pyth ...
- 视频教程-数据挖掘基础:零基础学Python数据分析-大数据
数据挖掘基础:零基础学Python数据分析 辽宁师范大学教师,特聘教授,硕士生导师.大数据与商务智能实验室主任. 李洪磊 ¥198.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+技术 ...
- Python数据分析—Pandas数据规整
数据规整 一.索引 二.分层索引 三.数据合并 1.merge方法 2.join方法 3.concat方法 四.数据分组与聚合 一.索引 # 查看索引 df.index # 指定索引,但个数必须保持一 ...
- python逐笔输入数据_知到智慧树Python数据分析与数据可视化结课测验
知到智慧树Python数据分析与数据可视化结课测验答案 更多相关问题 已知三角形三个顶点的坐标是A(-1,2,3),B(1,1,1),C(0,0,5),试证三角形ABC是直角三角形,并求角B-- Wh ...
- python集合中的元素不允许重复_Python语言中同一个集合中的元素不会重复,每个元素都是唯一的。-智慧树Python数据分析与数据可视化章节答案...
Python数据分析与数据可视化:Python语言中同一个集合中的元素不会重复,每个元素都是唯一的.[?ж???] A:对 B:错 Python数据分析与数据可视化章节测试答案: 对 更多相关问题 智 ...
- Python数据分析——Matplotlib数据可视化基础(二)
Python数据分析--Matplotlib数据可视化基础(二) 思维导图: 图形的绘制 认识要绘制的图形 基本绘图流程 pyplot基础图表函数 pyplot饼图的绘制 pie函数 matplotl ...
- Python数据分析之数据聚合与分组运算(拆分、应用、合并)
笔记目录 1.分组与聚合的原理 1.2分组与聚合的过程分为三步 1.2.1拆分 1.2.2应用 1.2.3合并 2. 通过groupby()方法将数据拆分成组 2.1 groupby()方法 2.2 ...
- python数据分析笔记——数据加载与整理
Python数据分析--数据加载与整理 总第47篇 ▼ (本文框架) 数据加载 导入文本数据 1.导入文本格式数据(CSV)的方法: 方法一:使用pd.read_csv(),默认打开csv文件. 9. ...
最新文章
- pytorch VIF(VIT 改)快了两倍
- 如何用消息系统避免分布式事务?
- dsoframer控件注册,解注册和检查注册情况
- akka使用_使用Akka简化交易系统
- python能代替vba吗_VBA会被Python代替吗?
- 《非暴力沟通》读书笔记
- 洛谷——P2068 统计和
- bzoj1923 [Sdoi2010]外星千足虫 压位+高斯消元
- 杨森翔的书法:二月二;四条屏
- 让qt应用程序拥有管理员权限
- voyage-linux系统,从Live CD安装Voyage linux到硬盘
- DNS相关知识及其配置
- java 判断是否回文
- Unity实现镜面反射效果
- 设计模式—清晰头脑写代码赚金币
- Mysql中的常用类型 说明
- JS解构赋值:数组解构和对象解构
- 数据库删除字段指定字符前面或者后面的字符串
- IPad上windows远程桌面软件推荐
- python以下是变量合法命名的是_Python语言中以下哪个变量的命名是错误的
热门文章
- 中国远程医疗行业发展前景预测和投资规划分析报告2022-2027年
- mac mini u盘安装系统_系统安装丨如何制作U盘启动盘?
- 软件渗透测试:定义、需求、过程
- ggplot2绘制地图
- mysql堆溢出_MySQL错误1436:线程堆栈溢出,带有简单查询
- 阿里妈妈展示广告引擎新探索:迈向全局最优算力分配
- m3u8流媒体下载 swift
- hosts文件位置在哪里?(3种打开hosts文件的方法)
- 精准目标群体,精确博客选择——谈feedsky经典博客Market力作
- Java多线程系列--【JUC集合10】- ConcurrentLinkedQueue