回顾

在数据处理进阶pandas入门(十七)中,我们介绍了pandas中对groupby()方法的分组数据处理的两个方法:transform()和apply()。我们需要掌握好这两个方法,对分组数据进行灵活处理。今天我们讲一下pandas中生成数据透视表和交叉表的方法。

生成透视表方法pivot_table()

数据透视表就是将数据的每一列作为输入,输出将数据不断细分成多个维度累计信息的二维数据表。简单来说,数据透视表更像是一种多维的groupb累计操作。pandas中使用pivot_table()方法来生成透视表,基本用法如下。​

import numpy as npimport pandas as pddate_range = pd.to_datetime(['2019-5-29', '2019-5-30', '2019-5-31']*3)df = pd.DataFrame({'date':date_range, 'key': list('abcdabcdb'), 'values':np.random.rand(9)*10})print(df)print("---------------")print(pd.pivot_table(df, values='values', index='date', columns='key', aggfunc=np.sum))

pivot_table()方法接收一个DataFrame对象 ,values表示要聚合的列;index表示从原数据中筛选出列作为数据透视表中的index索引;columns表示从原数据中筛选出列作为数据透视表中的columns索引;aggfunc表示用于聚合的函数(支持Numpy计算函数),默认为np.mean,可以用字符串或“np.”两种形式表示。运行结果如下图所示。

pivot_table()方法基本用法

上述代码生成的数据透视表中有缺失值, pivot_table()方法对缺失值的处理默认以NaN填充。如果我们不想使用NaN,我们也可以通过设置fill_value来指定任意值作为缺失值的填充,基本用法如下。​

import numpy as npimport pandas as pddate_range = pd.to_datetime(['2019-5-29', '2019-5-30', '2019-5-31']*3)df = pd.DataFrame({'date':date_range, 'key': list('abcdabcdb'), 'values':np.random.rand(9)*10})print(df)print("---------------")print(pd.pivot_table(df, values='values', index='date', columns='key', aggfunc=np.sum, fill_value=0))

再次运行可以发现,缺失值的地方填充值由原来的NaN变成了0。运行结果如下图所示。

pivot_table()方法指定缺省值填充

pivot_table()方法支持对多列数据同时做数据透视,我们只需给index传入一个包含多列索引的列表即可。例如上述代码中,我们给index参数传入['date', 'key'],pivot_table()方法就会对date列和key列共同做数据透视。代码如下。 ​

import numpy as npimport pandas as pddate_range = pd.to_datetime(['2019-5-29', '2019-5-30', '2019-5-31']*3)df = pd.DataFrame({'date':date_range, 'key': list('abcdabcdb'), 'values':np.random.rand(9)*10})print(df)print("---------------")print(pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=len))

运行结果如下图所示。我们使用len作为聚合函数,由于原DataFrame中2019-5-31对应b有两组数据,所以返回长度为2。

pivot_table()方法多列数据透视

生成交叉表方法crosstab()

交叉表是一种常用的分类汇总表格,利用交叉表查询数据非常直观明了。pandas中使用crosstab()方法来生成交叉表,crosstab()方法一般用于计算因子的频率,可以对字符串类型的数据进行透视分析,基本用法如下。​

import numpy as npimport pandas as pddf = pd.DataFrame({'A':[1, 2, 2, 2, 2], 'B':['a', 'a', 'b', 'b', 'b'], 'C':[10, 10, np.nan, 10, 10]})print(df)print("---------------")print(pd.crosstab(df['A'], df['B']))

crosstab()方法如果只接收两个Series,那么会生成一个频率表。上述代码中传入了df['A']、df['B'],那么生成的频率表就是用A的唯一值去统计b的唯一值出现的次数。运行结果如下图所示,1对应‘a’出现的次数为1,2对应‘a’出现的次数为1,2对应‘b’出现的次数为3。

crosstab()方法基本用法

既然是频率表,我们往往希望看到的是占比情况,这时只需设置crosstab()方法中的normalize参数即可。基本用法如下。​

import numpy as npimport pandas as pddf = pd.DataFrame({'A':[1, 2, 2, 2, 2], 'B':['a', 'a', 'b', 'b', 'b'], 'C':[10, 10, np.nan, 10, 10]})print(df)print("---------------")print(pd.crosstab(df['A'], df['B'], normalize=True))

normalize参数默认为False,当我们设置normalize=True时,频率表中的所有值就会除以总和来进行归一化(计算占比)。运行结果如下图所示。

crosstab()方法频率数据归一化

crosstab()方法中有两个参数:values和aggfunc,这两个参数跟生成透视表方法pivot_table()中的参数一样。事实上,crosstab()方法配合values和aggfunc这两个参数也能生成透视表。基本用法如下。​

import numpy as npimport pandas as pddate_range = pd.to_datetime(['2019-5-29', '2019-5-30', '2019-5-31']*3)df = pd.DataFrame({'date':date_range, 'key': list('abcdabcdb'), 'values':np.random.rand(9)*10})print(df)print("---------------")print(pd.crosstab(df['date'], df['key'], values=df['values'], aggfunc=np.sum))

传入的前两个Series会分别作为透视表的index和columns索引,values为要聚合的列,运行结果如下图所示,可以看到,跟pivot_table()生成的透视表完全一样。

pivot_table()生成透视表

crosstab()方法可以通过设置margins参数给生成的表添加行/列边距,基本用法如下。​

import numpy as npimport pandas as pddate_range = pd.to_datetime(['2019-5-29', '2019-5-30', '2019-5-31']*3)df = pd.DataFrame({'date':date_range, 'key': list('abcdabcdb'), 'values':np.random.rand(9)*10})print(df)print("---------------")print(pd.crosstab(df['date'], df['key'], values=df['values'], aggfunc=np.sum, margins=True))

margins参数默认为False,当我们设置margins=True时,会在生成的表上添加行/列,用于计算各行各列的和。运行结果如下图所示。

crosstab()添加行/列

总结

以上内容介绍了pandas中生成数据透视表和交叉表的方法。透视表pivot_table()方法是一种进行分组统计的函数,参数aggfunc决定统计类型;而交叉表crosstab()方法是一种特殊的pivot_table()方法,虽然也可以生成透视表,但我们一般将它专用于计算分组频率。感谢大家的支持与关注,欢迎批评指正,欢迎一起交流~

pandas pivot 占比_数据处理进阶pandas入门(十八)相关推荐

  1. dataframe修改数据_数据处理进阶pandas入门(一)

    前言 NumPy作为数据处理的利器,在对数据进行科学计算.存储处理大型矩阵等方面为我们带来了极大的方便,但对于更进一步的数据分析任务,文件操作等方面显得有些吃力.于是,作为NumPy的进阶库panda ...

  2. Redis进阶实践之十八 使用管道模式提高Redis查询的速度

    Redis进阶实践之十八 使用管道模式提高Redis查询的速度 原文:Redis进阶实践之十八 使用管道模式提高Redis查询的速度 一.引言 学习redis 也有一段时间了,该接触的也差不多了.后来 ...

  3. 手机屏坏了怎么把里面存东西取出来_三年来,这十八个有关MT4的问题被问了三千遍...

    众所周知,MT4软件的功能非常强大,几乎可以满足各类人群的外汇交易需求.但是,功能强大也带来了负面影响,就是繁琐,导致很多功能找不到功能入口. 如果从头到尾学一遍MT4的使众所周知,MT4软件的功能非 ...

  4. pandas 画折线图_如何从Pandas数据帧绘制多个折线图

    我看不出旋转有什么帮助,因为最后你需要把你的数据分两次,一次是一周中的几天,它将被放入几个子区,而城市又将有自己的颜色线.在这一点上,我们已经到了熊猫用它的绘图包装所能做的极限了. Matplotli ...

  5. python pandas合并单元格_利用Python pandas对Excel进行合并的方法示例

    前言 在网上找了很多Python处理Excel的方法和代码,都不是很尽人意,所以自己综合网上各位大佬的方法,自己进行了优化,具体的代码如下. 博主也是新手一枚,代码肯定有很多需要优化的地方,欢迎各位大 ...

  6. pandas获得指定行_如何用pandas实现选取特定索引的行

    培训 的人在不断的增加, 今天小编就给大家分享一些关于 Python 开发的技能, 供喜欢 Python 开发的小伙伴学习, 下面就和小编一起来看一下如何用 pandas 实现选取特定索引的行吧. 如 ...

  7. python os.remove拒绝访问_「进阶Python」第八讲:代理模式

    本文完整代码请查看github项目:advance-python,或者直接访问链接: https://github.com/Jackpopc/advance-python/blob/master/6- ...

  8. python加减法视频教程免费_一起学opencv-python三十八(视频分析:背景减法)

    首先要纠正一下上一讲的一些地方. 这里的移动其实并不仅仅是一个点的移动,那个中心线其实是不动的,动的是那些亮度值. 左边图是在(x,y)附近的像素点亮度值分布和二次曲线拟合情况,这是一维情况,二维应该 ...

  9. ReactNative进阶(三十八):Android ndk abiFilters 详解

    一.前言 二.ABI 是什么 三.为何设置 ndk 的 abiFilters 四.如何配置 gardle 五.ABI支持详解 六.支持建议 七.拓展阅读 一.前言 Android 系统本质是一个经过改 ...

最新文章

  1. 存储过程中SELECT与SET对变量赋值
  2. IIS 之 失败请求跟踪规则
  3. 数据挖掘 —— 有监督学习(分类)
  4. reactjs基础知识:原生事件绑定
  5. 【移植Linux 3.4.2内核第一步】之简单修改
  6. php必须汉字,php怎么只保留汉字
  7. linux 设备数 of,linux下devicetree中惯用的of函数
  8. c++ set 删除子集_Python基础数据类型「set」
  9. virtualbox--在win7设置ubuntu虚拟机网络
  10. 更强大的技术团队和更雄厚的预算,海外高频巨头抢占中国市场,不少本土团队淘汰出局
  11. 使用adb命令启动模拟器
  12. keras深度学习之猫狗分类三(特征提取)
  13. 2021 | VMware ESX虚拟机
  14. 美国文件服务器,raksmart美国服务器_新闻中心
  15. linux僵尸程序,什么是僵尸进程(zombie)?
  16. Ubuntu下搭建R语言开发环境
  17. Windows10环境下自己配置Pytracking详细流程(有参考博客)
  18. AIX磁盘管理基础知识
  19. Win 10 卡在登陆界面转圈
  20. (转载)SAP第三方销售实现方法

热门文章

  1. IOS开发之下拉刷新和上拉加载更多
  2. 一个很好学习Mysql网站
  3. Oracle init.ora常用配置详解
  4. 以前,第二周周考总结
  5. Kong 发布 Kong Brain 和 Kong Immunity,可进行智能自动化和适应性监控
  6. [Android]乐Pad开发准备
  7. SET NOCOUNT的用法和注意事项
  8. 如何解决python3.5.2安装scrapy的无法查找到vsvarall的问题
  9. 数据库中间件MyCAT源码分析:调试环境搭建
  10. WIN7 WIN8 笔记本无线网卡MAC地址修改