python数据透视表计数去除重复_如何用Python实现数据透视表？解除你对透视表的疑惑！...

相信接触过Excel的小伙伴都知道，Excel有一个非常强大的功能数据透视表可以自由选择不同字段，用不同的聚合函数进行汇总，并建立交叉表格，用以从不同层面观察数据。这么强大的功能，在Python中怎么去实现呢？

不用担心，Python的"数据分析小能手"Pandas很贴心地为我们提供了一个快速实现数据透视表功能的方法——pivot_table()。事不宜迟，让我们赶紧看看如何在Python中实现数据透视表！

1. 数据

为帮助大家更好地理解，在讲解如何使用pivot_table( )实现透视表前，我们先导入示例数据，在接下来的讲解中都使用此数据作为例子。

# 导入示例数据

<<< data =pd.read_csv("data.csv")

<<< data.head()

月份项目部门金额剩余金额

0 1月水费市场部 1962.37 8210.58

1 2月水费市场部 690.69 9510.60

2 2月电费市场部 2310.12 5384.92

3 2月电费运营部 -1962.37 7973.10

4 2月电费开发部 1322.33 6572.16

下面我将带大家使用pivot_table( )一步一步实现数据透视表的操作。

2. 操作

首先，原数据有5个字段，我们在做数据透视表之前必须理解每个字段的意思，明确清楚自己需要得到什么信息。

假设我们想看看不同月份所花费的水电费金额是多少，这时我们需要把字段“月份”设置为索引，将字段“金额”设置为我们需要看的值，具体代码如下：

<<< data.pivot_table(index=['月份'],values=['金额'])

金额

月份

10月 3723.940000

11月 2900.151667

12月 10768.262857

1月 1962.370000

2月 1432.280000

3月 3212.106667

4月 4019.175000

5月 4051.480000

6月 6682.632500

7月 11336.463333

8月 17523.485000

9月 10431.960000

参数index为设置的索引列表，即分组依据，需要用中括号[ ]将索引字段括起来；参数values为分组后进行计算的字段列表，也需要用中括号[ ]括起来。这两个参数的值可以是一个或多个字段，即按照多个字段进行分组和对多个字段进行计算汇总。例如，设置index=['项目','部门']代表求不同项目不同部门下的金额。

<<< data.pivot_table(index=['项目','部门'],values=['金额'])

金额

项目部门

水费市场部 3614.318125

开发部 2358.205000

运营部 5896.213333

电费市场部 6094.748235

开发部 1322.330000

运营部 7288.615000

采暖费市场部 5068.380000

运营部 55978.000000

若设置values=['金额','剩余金额']，即求不同项目不同部门下金额和剩余金额的值。

<<< data.pivot_table(index=['项目','部门'],values=['金额','剩余金额'])

剩余金额金额

项目部门

水费市场部 7478.423125 3614.318125

开发部 6866.490000 2358.205000

运营部 7224.033333 5896.213333

电费市场部 7645.535882 6094.748235

开发部 6572.160000 1322.330000

运营部 8821.895000 7288.615000

采暖费市场部 6572.030000 5068.380000

运营部 7908.560000 55978.000000

同时，如果我们想以交叉表的形式查看不同项目和不同部门下的消费金额，这时就要将字段‘部门’设置为列名，进行交叉查看，具体代码如下：

<<< data.pivot_table(index=['项目'],columns=['部门'],values=['金额'])

金额

部门市场部开发部运营部

项目

水费 3614.318125 2358.205 5896.213333

电费 6094.748235 1322.330 7288.615000

采暖费 5068.380000 NaN 55978.000000

通过上面的示例，我们可以看到某个分组下不存在记录会被标记为NAN，例如上述中采暖部和开发部不存在金额这一字段的记录，则会标记为NAN。如果不希望被标记为NAN，我们可以通过设置参数fill_value=0来用数值0替代这部分的缺失值。

<<< data.pivot_table(index=['项目'],columns=['部门'],values=['金额'],fill_value=0)

金额

部门市场部开发部运营部

项目

水费 3614.318125 2358.205 5896.213333

电费 6094.748235 1322.330 7288.615000

采暖费 5068.380000 0.000 55978.000000

在上面的示例中，我们都是默认分组后对值进行求平均值计算，假如我们想查看不同项目不同部门下金额的总和该怎么实现呢？

通过设置参数aggfunc=np.sum即可对分组后的值进行求和操作，参数aggfunc代表分组后值的汇总方式，可传入numpy库中的聚合方法。

<<< data.pivot_table(index=['项目'],columns=['部门'],values=['金额'],fill_value=0,aggfunc=np.sum)

金额

部门市场部开发部运营部

项目

水费 57829.09 4716.41 17688.64

电费 103610.72 1322.33 29154.46

采暖费 5068.38 0.00 55978.00

除了常见的求和、求平均值这两种聚合方法，我们还可能接触到以下这几种：

描述方法标准差np.std()方差np.var()所有元素相乘np.prod()中数np.median()幂运算np.power()开方np.sqrt()最小值np.min()最大值np.max()以e为底的指数np.exp(10)对数np.log(10)

与前面介绍的参数index，columns，value一样，参数aggfunc传入的值也是一个列表，表示可传入一个或多个值。当传入多个值时，表示对该值进行多种汇总方式，例如同时求不同项目不同部门下金额的求和值和平均值：

<<< data.pivot_table(index=['项目'],columns=['部门'],values=['金额'],fill_value=0,aggfunc=[np.sum,np.max])

sum amax

金额金额

部门市场部开发部运营部市场部开发部运营部

项目

水费 57829.09 4716.41 17688.64 16807.58 2941.28 6273.56

电费 103610.72 1322.33 29154.46 18239.39 1322.33 26266.60

采暖费 5068.38 0.00 55978.00 5068.38 0.00 55978.00

同时，如果我们想对不同字段进行不同的汇总方式，可通过对参数aggfunc传入字典来实现，例如我们可以同时对不同项目不同部门下，对字段金额求总和值，对字段剩余金额求平均值：

<<< data.pivot_table(index=['项目'],columns=['部门'],values=['金额','剩余金额'],fill_value=0,aggfunc={'金额':np.sum,'剩余金额':np.max})

剩余金额金额

部门市场部开发部运营部市场部开发部运营部

项目

水费 9510.60 8719.34 7810.38 57829.09 4716.41 17688.64

电费 9625.27 6572.16 9938.82 103610.72 1322.33 29154.46

采暖费 6572.03 0.00 7908.56 5068.38 0.00 55978.00

另外，在进行以上功能的同时，pivot_table还为我们提供了一个求所有行及所有列对应合计值的参数margins，当设置参数margins=True时，会在输出结果的最后添加一行'All',表示根据columns进行分组后每一项的列总计值；以及在输出结果的最后添加一列'All',表示根据index进行分组后每一项的行总计值。

<<< pd.set_option('precision',0)

<<< data.pivot_table(index=['项目'],columns=['部门'],values=['金额','剩余金额'],fill_value=0,aggfunc={'金额':np.sum,'剩余金额':np.max},margins=True)

剩余金额金额

部门市场部开发部运营部 All 市场部开发部运营部 All

项目

水费 9511 8719 7810 9511 57829 4716 17689 80234

电费 9625 6572 9939 9939 103611 1322 29154 134088

采暖费 6572 0 7909 7909 5068 0 55978 61046

All 9625 8719 9939 9939 166508 6039 102821 275368

3. 番外

上面详细介绍了如何在python中通过pivot_table( )方法实现数据透视表的功能，那么，与数据透视表原理相同，显示方式不同的

实现方法非常简单，将上述进行pivot_table操作后的对象进行实例化，再对实例化后的对象进行plot绘图操作即可，具体代码如下：

<<< df=data.pivot_table(index=['项目'],columns=['部门'],values='金额',fill_value=0)

<<< df.plot(kind='bar')

完谢谢观看

python数据透视表计数去除重复_如何用Python实现数据透视表？解除你对透视表的疑惑！...相关推荐

python数据透视表计数去除重复_如何从pandas数据透视表中删除重复值？
因此,我试图将excel的一组指令复制到python中.问题是我对excel和正在发生的事情知之甚少.在我有一个数据帧:no. name corrected no. corrected name 0 ...
python写乘法口诀表好记方法_如何用python编写乘法口诀表
如何用python编写乘法口诀表?首先要明确一下思路,我们可以确定x,y两个变量,弄清楚其变化的规律,再使用循环嵌套实现.下面是如何用Python编写乘法口诀表的具体方法. 第一种:使用for遍历循环 ...
'python program'.count('p')的值是_如何用Python分析泰坦尼克号生还率？
原标题:如何用Python分析泰坦尼克号生还率? 1912年当时世界上最大的豪华客轮泰坦尼克号在处女航中撞上冰山沉没,船上船员及乘客共有2224人,只有710人生还.当灾难突然降临时,所有人的生死瞬间 ...
python如何绘制两点间连线_如何用 Python 绘制玫瑰图等常见疫情图
新冠疫情已经持续好几个月了,目前,我国疫情已经基本控制住了,我们会看到很多网站都提供了多种疫情统计图,今天我们使用 Python 的 pyecharts 框架来绘制一些比较常见的统计图. 1. 玫瑰图 ...
python制作微信个人二维码_如何用Python制作微信好友个性签名词云图
前言上次查看了微信好友的位置信息,想了想,还是不过瘾,于是就琢磨起了把微信好友的个性签名拿到,然后分词,接着分析词频,最后弄出词云图来. 1.环境说明 Win10 系统下 Python3,编译器是 ...
用python做股票智能投顾模型_如何用Python建模GGM模型并对股票估值？
内容首发乐学偶得(http://lexueoude.com) 公众号: 乐学Fintech 用代码理解分析解决金融问题首先我们快速了解一下什么是GGM模型. GGM模型又叫做"戈登增长模 ...
python缩进的用途和使用方法_如何用Python减少循环层次和缩进的技巧
本文实例分析了Python减少循环层次和缩进的技巧.分享给大家供大家参考,具体如下: 我们知道Python中冒号和缩进代表大括号,这样写已经可以节省很多代码行数,但是可以更优化,尽可能减少循环的层次和 ...
python数据透视表计数去除重复_excel透视表计数去重_Excel数据透视表中的唯一计数...
In a previous article, Roger Govier showed us a couple of different ways to get a Unique count with ...
python深度神经网络文本二分类代码_如何用Python和深度神经网络识别图像？
只需要10几行Python代码,你就能自己构建机器视觉模型,对图片做出准确辨识和分类.快来试试吧! 视觉进化的作用,让人类对图像的处理非常高效. 这里,我给你展示一张照片. 如果我这样问你: 你能否 ...

python数据透视表计数去除重复_如何用Python实现数据透视表？解除你对透视表的疑惑！...

python数据透视表计数去除重复_如何用Python实现数据透视表？解除你对透视表的疑惑！...相关推荐

最新文章

热门文章