Pandas的学习之——使用Pandas进行描述性统计

首先引入需要的库

import numpy as np
import pandas as pd
import matplotlib.pyplot as pyplot

读取数据

ratings_url = 'https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-ST0151EN-SkillsNetwork/labs/teachingratings.csv'
ratings_df=pd.read_csv(ratings_url)

查看数据表的前五行数据

ratings_df.head()

输出：

1 查看某个列的数据的统计特征值（eg:平均值、中位数、最小值、最大值）

下面分别查看‘students’列的统计特征值。

查看该列的平均值

ratings_df['students'].mean()

输出：
36.62419006479482

查看该列的中位数

ratings_df['students'].median()

输出：
23.0

查看该列的最小值

ratings_df['students'].min()

输出：
5

查看该列的最大值

ratings_df['students'].max()

输出：
380

2 绘制某列数据的分布直方图

使用matplotlib库，绘制‘beauty’列的直方图。

import matplotlib.pyplot as pyplot
pyplot.hist(ratings_df['beauty'])

输出：

3 将数据按列值分类进行统计分析

首先使用groupby()方法将数据按照某一列的值进行分类（就和sql语言中的group by子句的功能一样）
分组之后，可以对每一组中的数据进行agg聚合操作
最后可以运用reset_index()方法将原来标签变为新的一列数据

3.1 Pandas.groupby()方法

groupby()方法的参数是要进行分组的依据，即指定某一个列名，根据该列的不同取值进行分类
例如，下面左边的数据按照‘company’进行分类的过程如下：（groupby(‘company’)）
(图片来源：博客：[https://zhuanlan.zhihu.com/p/101284491?utm_source=wechat_session])

3.2 agg聚合操作

聚合操作是groupby之后非常常见的操作。也和sql语言的聚合操作类似。

下面的表格介绍了常见的聚合操作函数：

(图片来源：博客：[https://zhuanlan.zhihu.com/p/101284491?utm_source=wechat_session])

聚合函数的参数是字典形式的变量。key值为想要进行统计分析的列名，对应的values值为所要进行的聚合操作。
例如：
(数据来源：博客：[https://zhuanlan.zhihu.com/p/101284491?utm_source=wechat_session])

3.3 reset_index() 改变索引

下面的代码显示了reset_index()方法的用途：

没有使用reset_index（）方法：
下面的代码将数据根据性别gender分类：male & female。然后对分类后不同类的数据的‘beauty’值进行求平均值、标准差、方差的计算。

ratings_df.groupby('gender').agg({'beauty':['mean', 'std', 'var']})

输出：

使用reset_index（）方法的输出：

ratings_df.groupby('gender').agg({'beauty':['mean', 'std', 'var']}).reset_index()

输出：

可见，该方法把分类的素引变成了新的一列。索引变成了默认的，从0开始的顺序数列。

3.4 综合案例

针对上面的ratings_df数据框架进行的一系列操作:

（1）男、女教员的平均颜值评分有差异吗?给出男女教员的颜值评分平均值和标准差。

ratings_df.groupby('gender').agg({'beauty':['mean', 'std', 'var']}).reset_index()

输出：

（2）计算男性和女性终身教授的比例。观察终身职位的地位因性别而异吗?

tenure_count = ratings_df.groupby('gender').agg({'tenure': 'count'}).reset_index()
tenure_count

输出：

只看数量貌似结果不太权威，需要查看男性、女性终身教员在特定群体中的占比

tenure_count['percentage'] = 100 * tenure_count.tenure/tenure_count.tenure.sum()
tenure_count

输出：

可见，男性教员中，终身教员的占比更高一些。

（3）计算终身教授是少数族裔的比例。如果教师是一个明显的少数群体，你会说终身教职的地位是不同的吗?

minority_prof = ratings_df.groupby('minority').agg({'tenure': 'count'}).reset_index()
minority_prof['mino/prof'] = minority_prof.tenure / minority_prof.tenure.sum()
minority_prof

输出：

从上面的比例数据可见，确实少数族裔中终身教授的比例更低一些。

（4）平均年龄是否因任期而异?给出终身教授和非终身教授的年龄的平均值和标准差。

age_tenure = ratings_df.groupby('tenure').agg({'age': ['mean', 'std']}).reset_index()
age_tenure

输出：

从结果可见，虽然终身教授（tenure = yes）的平均年龄更低一些，但是终身教授年龄的分布更加离散。

（5）终身教授的评分中位数是多少

ratings_df[ratings_df['tenure'] == 'yes']['eval'].median()

输出：

4.0