系统重温Pandas笔记：（五）变形

文章目录

写在前面
一、长宽表的变形
- 1. pivot
- 2. pivot_table
- - 【练一练】
- 3. melt
- 4. wide_to_long
二、索引的变形
- 1. stack与unstack
- 2. 聚合与变形的关系
三、其他变形函数
- 1. crosstab
- - 【练一练】
- 2. explode
- 3. get_dummies
四、练习
- Ex1：美国非法药物数据集
- Ex2：特殊的wide_to_long方法

写在前面

本文内容源自Datawhale 组队学习教程，并结合了部分自己的笔记和感悟。对Datawhale感兴趣且想进一步了解：https://github.com/datawhalechina/joyful-pandas

一、长宽表的变形

以性别列为例：

长表：
宽表：

1. pivot

pivot是一种典型的长表变宽表的函数。

e.g.

对于一个基本的长变宽的操作而言，最重要的有三个要素：

变形后的行索引
需要转到列索引的列
这些列和行索引对应的数值

它们分别对应了pivot方法中的index, columns, values参数。

新生成表的列索引是columns对应列的unique值，而新表的行索引是index对应列的unique值，而values对应了想要展示的数值列。

df.pivot(index='Name', columns='Subject', values='Grade')

即：

利用pivot进行变形操作需要满足唯一性的要求，即由于在新表中的行列索引对应了唯一的value，因此原表中的index和columns对应两个列的行组合必须唯一。

pandas从1.1.0开始，pivot相关的三个参数允许被设置为列表，这也意味着会返回多级索引。

e.g.

现在想要把测试类型和科目联合组成的四个类别（期中语文、期末语文、期中数学、期末数学）转到列索引，并且同时统计成绩和排名：

pivot_multi = df.pivot(index = ['Class', 'Name'],columns = ['Subject','Examination'],values = ['Grade','rank'])
pivot_multi

根据唯一性原则，新表的行索引等价于对index中的多列使用drop_duplicates，而列索引的长度为values中的元素个数乘以columns的唯一组合数量（与index类似）。
即：

2. pivot_table

pivot的使用依赖于唯一性条件，那如果不满足唯一性条件，那么必须通过聚合操作使得相同行列组合对应的多个值变为一个值。

例如，张三和李四都参加了两次语文考试和数学考试，按照学院规定，最后的成绩是两次考试分数的平均值，此时就无法通过pivot函数来完成。

pandas中提供了pivot_table来实现，其中的aggfunc参数就是使用的聚合函数。上述场景可以如下写出：

df.pivot_table(index = 'Name',columns = 'Subject',values = 'Grade',aggfunc = 'mean')

这里传入aggfunc包含了上一章中介绍的所有合法聚合字符串，此外还可以传入以序列为输入，标量为输出的聚合函数来实现自定义操作，上述功能可以等价写出：

df.pivot_table(index = 'Name',columns = 'Subject',values = 'Grade',aggfunc = lambda x:x.mean())

此外，pivot_table具有边际汇总的功能，可以通过设置margins=True来实现，其中边际的聚合方式与aggfunc中给出的聚合方法一致。

下面就分别统计了语文均分和数学均分、张三均分和李四均分，以及总体所有分数的均分：

df.pivot_table(index = 'Name',columns = 'Subject',values = 'Grade',aggfunc='mean',margins=True)

【练一练】

在上面的边际汇总例子中，行或列的汇总为新表中行元素或者列元素的平均值，而总体的汇总为新表中四个元素的平均值。这种关系一定成立吗？若不成立，请给出一个例子来说明。
解：
不成立，因为这和每个成绩的权重有关系。在上面的例子中，每个成绩的权重是相同的，下面举一个反例：我增加一个San Zhang同学的Chinese成绩：

df = pd.DataFrame({'Name':['San Zhang', 'San Zhang', 'San Zhang', 'San Zhang', 'San Zhang','Si Li', 'Si Li', 'Si Li', 'Si Li'],'Subject':['Chinese', 'Chinese','Chinese', 'Math', 'Math','Chinese', 'Chinese', 'Math', 'Math'],'Grade':[80, 90,90, 100, 90, 70, 80, 85, 95]})
df

然后再进行相应的边际汇总：

df.pivot_table(index = 'Name',columns = 'Subject',values = 'Grade',aggfunc='mean',margins=True)

如上图中的结果所示：San Zhang同学的五个成绩平均分为90：

这与表中All列里San Zhang的90对应，但并不是86.666667和95.0的平均数。

综上所述，这种关系不成立。

3. melt

pivot的逆操作:把宽表转为长表。

e.g.

使用melt函数：

df_melted = df.melt(id_vars = ['Class', 'Name'],value_vars = ['Chinese', 'Math'],var_name = 'Subject',value_name = 'Grade')
df_melted

即：

通过pivot操作把df_melted转回df的形式：

df_unmelted = df_melted.pivot(index = ['Class', 'Name'],columns='Subject',values='Grade')
df_unmelted

恢复索引，并且重命名列索引名称:

df_unmelted = df_unmelted.reset_index().rename_axis(columns={'Subject':''})
df_unmelted

检验是否相同：

df_unmelted.equals(df)True

4. wide_to_long

melt方法中，在列索引中被压缩的一组值对应的列元素只能代表同一层次的含义，即values_name。
现在如果列中包含了交叉类别，比如期中期末的类别和语文数学的类别，那么想要把values_name对应的Grade扩充为两列分别对应语文分数和数学分数，只把期中期末的信息压缩，这种需求下就要使用wide_to_long函数来完成。

pd.wide_to_long(df,stubnames=['Chinese', 'Math'],i = ['Class', 'Name'],j='Examination',sep='_',suffix='.+')

即：

下面给出一个比较复杂的案例，把之前在pivot一节中多列操作的结果（产生了多级索引），利用wide_to_long函数，将其转为原来的形态。其中，使用了第八章的str.split函数，目前暂时只需将其理解为对序列按照某个分隔符进行拆分即可。
原表：

通过如下操作：

res = pivot_multi.copy()
res.columns = res.columns.map(lambda x:'_'.join(x))
res = res.reset_index()
res = pd.wide_to_long(res, stubnames=['Grade', 'rank'],i = ['Class', 'Name'],j = 'Subject_Examination',sep = '_',suffix = '.+')
res = res.reset_index()
res[['Subject', 'Examination']] = res['Subject_Examination'].str.split('_', expand=True)
res = res[['Class', 'Name', 'Examination', 'Subject', 'Grade', 'rank']].sort_values('Subject')
res = res.reset_index(drop=True)
res

变为：

二、索引的变形

1. stack与unstack

在第二章中提到了利用swaplevel或者reorder_levels进行索引内部的层交换，下面就要讨论行列索引之间\color{red}{行列索引之间}行列索引之间的交换，由于这种交换带来了DataFrame维度上的变化，因此属于变形操作。在第一节中提到的4种变形函数与其不同之处在于，它们都属于某一列或几列元素\color{red}{元素}元素和列索引\color{red}{列索引}列索引之间的转换，而不是索引之间的转换。

unstack函数的作用是把行索引转为列索引：

df.unstack()

unstack的主要参数是移动的层号，默认转化最内层，移动到列索引的最内层，同时支持同时转化多个层：

df.unstack(1)

df.unstack([0,2])

类似于pivot中的唯一性要求，在unstack中必须保证被转为列索引的行索引层\color{red}{被转为列索引的行索引层}被转为列索引的行索引层和被保留的行索引层\color{red}{被保留的行索引层}被保留的行索引层构成的组合是唯一的，否则会报错。

与unstack相反，stack的作用就是把列索引的层压入行索引，其用法完全类似。

df.stack()

df.stack([1, 2])

2. 聚合与变形的关系

在上面介绍的所有函数中，除了带有聚合效果的pivot_table以外，所有的函数在变形前后并不会带来values个数的改变，只是这些值在呈现的形式上发生了变化。

在上一章讨论的分组聚合操作，由于生成了新的行列索引，因此必然也属于某种特殊的变形操作，但由于聚合之后把原来的多个值变为了一个值，因此values的个数产生了变化，这也是分组聚合与变形函数的最大区别。

三、其他变形函数

1. crosstab

crosstab并不是一个值得推荐使用的函数，因为它能实现的所有功能pivot_table都能完成，并且速度更快。在默认状态下，crosstab可以统计元素组合出现的频数，即count操作。

例如统计learn_pandas数据集中学校和转系情况对应的频数：

df = pd.read_csv('data/learn_pandas.csv')
pd.crosstab(index = df.School, columns = df.Transfer)

这等价于如下crosstab的如下写法，这里的aggfunc即聚合参数：

pd.crosstab(index = df.School, columns = df.Transfer, values = [0]*df.shape[0], aggfunc = 'count')

同样，可以利用pivot_table进行等价操作，由于这里统计的是组合的频数，因此values参数无论传入哪一个列都不会影响最后的结果：

df.pivot_table(index = 'School',columns = 'Transfer',values = 'Name',aggfunc = 'count')

从上面可以看出这两个函数的区别在于，
crosstab的对应位置传入的是具体的序列，而pivot_table传入的是被调用表对应的名字，若传入序列对应的值则会报错。

除了默认状态下的count统计，所有的聚合字符串和返回标量的自定义函数都是可用的，例如统计对应组合的身高均值：

pd.crosstab(index = df.School, columns = df.Transfer, values = df.Height, aggfunc = 'mean')

【练一练】

前面提到了crosstab的性能劣于pivot_table，请选用多个聚合方法进行验证。
解：
1.比较count的性能：

%timeit -n 30 pd.crosstab(index = df.School, columns = df.Transfer, values = [0]*df.shape[0], aggfunc = 'count')
6.33 ms ± 277 µs per loop (mean ± std. dev. of 7 runs, 30 loops each)%timeit -n 30 df.pivot_table(index = 'School',columns = 'Transfer',values = 'Name',aggfunc = 'count')
5.74 ms ± 130 µs per loop (mean ± std. dev. of 7 runs, 30 loops each)

pivot_table胜出。

2.比较mean的性能：

%timeit -n 30 pd.crosstab(index = df.School, columns = df.Transfer, values = df.Height, aggfunc = 'mean')
6.25 ms ± 252 µs per loop (mean ± std. dev. of 7 runs, 30 loops each)%timeit -n 30 df.pivot_table(index = 'School',columns = 'Transfer',values = 'Height', aggfunc = 'mean')
5.77 ms ± 218 µs per loop (mean ± std. dev. of 7 runs, 30 loops each)

pivot_table胜出。
3.比较max的性能：

%timeit -n 30 pd.crosstab(index = df.School, columns = df.Transfer, values = df.Height, aggfunc = 'max')
6.96 ms ± 1.53 ms per loop (mean ± std. dev. of 7 runs, 30 loops each)%timeit -n 30 df.pivot_table(index = 'School',columns = 'Transfer',values = 'Height', aggfunc = 'max')
5.94 ms ± 193 µs per loop (mean ± std. dev. of 7 runs, 30 loops each)

pivot_table胜出。
4.比较min的性能：

%timeit -n 30 pd.crosstab(index = df.School, columns = df.Transfer, values = df.Height, aggfunc = 'min')
6.93 ms ± 588 µs per loop (mean ± std. dev. of 7 runs, 30 loops each)%timeit -n 30 df.pivot_table(index = 'School',columns = 'Transfer',values = 'Height', aggfunc = 'min')
6.19 ms ± 255 µs per loop (mean ± std. dev. of 7 runs, 30 loops each)

pivot_table胜出。

2. explode

explode参数能够对某一列的元素进行纵向的展开，被展开的单元格必须存储list, tuple, Series, np.ndarray中的一种类型。
e.g.

df_ex = pd.DataFrame({'A': [[1, 2], 'my_str', {1, 2}, pd.Series([3, 4])],'B': 1})
df_ex

df_ex.explode('A')

3. get_dummies

get_dummies是用于特征构建的重要函数之一，其作用是把类别特征转为指示变量。

例如，对年级一列转为指示变量，属于某一个年级的对应列标记为1，否则为0：

pd.get_dummies(df.Grade).head()

这在统计分析前处理数据设置哑变量可太好用了！！！！

四、练习

Ex1：美国非法药物数据集

现有一份关于美国非法药物的数据集，其中SubstanceName, DrugReports分别指药物名称和报告数量：

df = pd.read_csv('data/drugs.csv').sort_values(['State','COUNTY','SubstanceName'],ignore_index=True)
df.head(3)

将数据转为如下的形式：

解：

df1 = df.pivot(index=['State','COUNTY','SubstanceName'], columns='YYYY', values='DrugReports')
df1

df2 = df1.reset_index().rename_axis(columns={'YYYY':''})
df2

2. 将第1问中的结果恢复为原表。
解：

df2_melted = df2.melt(id_vars = ['State','COUNTY','SubstanceName'],value_vars = df2.columns[-8:],var_name = 'YYYY',value_name = 'DrugReports').dropna(subset=['DrugReports'])
df2_melted

df2_melted = df2_melted[df.columns].sort_values(['State','COUNTY','SubstanceName'],ignore_index=True).astype({'YYYY':'int64', 'DrugReports':'int64'})
df2_melted

df2_melted.equals(df)True

3.按State分别统计每年的报告数量总和，其中State, YYYY分别为列索引和行索引，要求分别使用pivot_table函数与groupby+unstack两种不同的策略实现，并体会它们之间的联系。
解：

使用pivot_table函数：

df3 = df.pivot_table(index='YYYY', columns='State', values='DrugReports', aggfunc='sum')
df3

使用groupby+unstack：

df4 = df.groupby(['State', 'YYYY'])['DrugReports'].sum().to_frame().unstack(0).droplevel(0,axis=1)
df4

Ex2：特殊的wide_to_long方法

从功能上看，melt方法应当属于wide_to_long的一种特殊情况，即stubnames只有一类。请使用wide_to_long生成melt一节中的df_melted。（提示：对列名增加适当的前缀）

df = pd.DataFrame({'Class':[1,2],'Name':['San Zhang', 'Si Li'],'Chinese':[80, 90],'Math':[80, 75]})
df

解：
目标变为：

具体操作：
先把索引变成多级索引压缩后的样式：

df = df.rename(columns={'Chinese':'qianzhui_Chinese', 'Math':'qianzhui_Math'})
df5 = pd.wide_to_long(df, stubnames=['qianzhui'],i = ['Class', 'Name'],j = 'Subject',sep = '_',suffix = '.+')
df5

df6 = df5.reset_index().rename(columns={'qianzhui':'Grade'})
df6

按照学科排序：

df6.sort_values(['Subject'])