第一周：数据的描述性统计

这里写自定义目录标题

1 数据的集中趋势描述
- 1.1 算数平均值
- 1.2 几何平均值
- 1.3 众数
- 1.4 中位数
2 数据的离散程度描述
- 2.1 极差
- 2.2 平均偏差
- 2.3 方差和标准差
- 2.4 四分位极差
- 2.5 异众比率
3 相对离散程度
- 离散系数（变异系数）
4 分布的状态

1 数据的集中趋势描述

数据的集中趋势描述：寻找反应事物特征的数据集合的代表值或中心值，这个代表值或中心值能很好反映事物目前所处的位置和发展水平。

1.1 算数平均值

算数平均值是常用的数据集中趋势指标，可以分为：

简单算数平均值
加权算数平均值

算数平均值主要用于定距数据，表示数据集合的集中趋势。例如一个家庭人均收入、一个国家人均收入等。
算数平均值也能用于定类数据和定序数据，决定算数平均值是否适用的前提条件是：求得的算数平均值是否具有现实意义。

简单算数平均值
简单算数平均值 = 数据集所有值的和 / 数据个数
假设有n个数值的数据集，他们的数值分别为x1x{_{1}}x1，x2x{_{2}}x2，…，xnx{_{n}}xn。该数据集简单算数平均值公式为：
xˉ=1+2+...+nn\bar{x} = \frac{_{1}+_{2}+...+_{n}}{n}xˉ=n1+2+...+n
加权算数平均数
因为简单算数平均值认为所有的数据值都具有同等的重要性，所以每个数据值都具有相同的权重。但是有些时候，每个数据值的权重是不一样的，需要用加权算数平均值来标识数据集的集中趋势。
假设有一个数据集，包括k个不同类别的数据组，各组的简单算数平均值表示为xˉ1\bar{x}{_{1}}xˉ1，xˉ2\bar{x}{_{2}}xˉ2，…，xˉk\bar{x}{_{k}}xˉk，每个数据组的数值个数分别为f1f{_{1}}f1，f2f{_{2}}f2，…，fkf{_{k}}fk，每组的数值个数就是每个数据组的权重，那么加权算数平均值的计算公式可以表示为：
m=f1xˉ1+f2xˉ2+...+fkxˉkf1+f2+...+fkm = \frac{f{_{1}\bar{x}{_{1}}} + f{_{2}\bar{x}{_{2}}} +...+ f{_{k}\bar{x}{_{k}}}}{f{_{1}}+f{_{2}}+...+f{_{k}} }m=f1+f2+...+fkf1xˉ1+f2xˉ2+...+fkxˉk

案例：
使用算数平均值了解公司的待遇水平。
某个互联网创业公司目前有30名员工，分成三个月薪收入等级，每个等级包括10名员工，且每个月薪等级内有一万元的波动区间。30名员工的月薪收入情况如下表所示，求该互联网创业公司员工的平均月薪

案例分析：本案例中，既可以用简单算术平均值的计算公式计算整个公司的平均月薪，也可以用加权算术平均值的计算公式计算，这两种计算方式的结果是相同的。
简单算术平均值计算过程如下：

加权算术平均值计算过程如下：

从两种计算结果可知，该互联网创业公司的员工平均月收入为15510 元。此外，从该案例还能知道简单算术平均值是加权算术平均值的特殊形式，简单算术平均值可以看作是所有数值的权重都为1的加权算术平均值，即所有数值的重要性相同。

使用算术平均值的注意事项
算术平均值虽然是应用最广泛的集中趋势指标，受样本数据波动的影响最小，具有一定的稳定性，但是也有明显的缺陷。当数据集合中有极大值或极小值存在时，会对算术平均值产生很大的影响，其计算结果会掩盖数据集合的真实特征，这时算术平均值就失去了代表性。例如，国家统计局每年都会公布国民的人均年收入数据，网友们经常调侃自己拖了国家的后腿，这是因为一些极端的高收入人群拉高了整个社会的人均年收入平。

1.2 几何平均值

有些数据之间的关系不是加减关系，而是乘除关系。此时，应该用几何平均值来表示由这样的数值组成的数据集合的集中趋势。
几何平均值被用于各种定比数据的平均值计算，假设有一个定比数据集合，集合中的数值分别为x1，x2，…，xn，且所有的数值均大于 0，那么该数据集合的几何平均值的计算公式为：

生活案例：
使用几何平均数识别生产线上的隐形损耗

制造企业的生产成本有很大一部分是损耗在不合格品上。因为生产线的每一个工序都有可能生产出不合格品，其中很大一部分不合格品可以通过返工和修复重新进入生产线，成为合格品，所以最终的产品合格率不能反映中间工序的返工和修复所造成的成本损失。因此，应该用整个生产过程的平均合格率来表示生产制造情况。南方某省的山区县有一家食品工厂，如图 2-7 所示，该工厂新引进的生产线由 4 道工序组成，经过一年的调试生产，每道工序的产品合格率分别是 85%、97%、94%和92%，求这条生产线的平均产品合格率。

案例分析：因为该食品工厂的生产工艺是连续性生产，只有上一道工序的合格品才能进入下一道工序中，所以每道工序的合格率之间是乘积关系。因此，该生产线的产品平均合格率应用几何平均值表示。

从计算结果可知，该食品工厂新引进生产线的平均产品合格率为91.9%，低于最后一道工序的产品合格率，也就是最终产品合格率92%。连续性生产线的平均产品合格率能够代表整条生产线的生产情况，特别是前段工序合格率较低时，平均产品合格率能够将这些情况真实地反映出来，不至于造成成本黑洞，让管理者忽视返工和返修产品所造成的成本。

1.3 众数

数据集中，出现次数最多的数值称为众数。
众数可以零个，一个，多个。
[1, 2, 5, 6, 6, 5, 7] --> 两个众数：5,6
[1,1,2,2,3,3,4,4] --> 没有众数

1.4 中位数

对于一个数据集，将数值按大小排列（高->低或者低->高）：

奇数个：中间的那个是中位数
偶数个：中间两个的平均值是中位数

中位数与算术平均值相比，中位数的优势在于不受数据集合中个别极端值的影响，表现出稳定的特点。这一特点使其在数据集合的数值分布有较大偏斜时，能够保持对数据集合特征的代表性。因此，中位数常被用来度量具有偏斜性质的数据集合的集中趋势。

2 数据的离散程度描述

2.1 极差

又称为全距，是值数据及最大值与最小值的差值。表示整个数据集能够覆盖的数值距离。现有数据集合（xmin，x2，…，xmax），全距的计算公式为：

2.2 平均偏差

离散程度是一个相对概念，需要通过与参考值的对比才能表示出离散程度。因为算术平均值是最重要也是最常用的集中趋势指标，所以均值也就自然能够成为参考值。对于任意一个数据集合，表示其离散程度的一种容易想到的度量方式就是与算术平均值的偏离，平均偏差就是这样一种度量指标。但是，这里有一个问题，那就是数据集合中的每个数值与算术平均值之间的偏差之和等于0。

为了解决这个问题，统计学家很聪明地使用了绝对值，然后再用平均的方法，消除了负号带来的影响，这就有了平均偏差的产生。平均偏差的数值代表了所有数值与平均值的平均偏差距离。平均偏差的计算公式为：

2.3 方差和标准差

平均偏差使用绝对值来消除负号的影响，另一种消除负号影响的方法是平方，对应的离散程度指标是方差和标准差。

总体的方差和标准差
如果数据集合（x1，x2，…，xn）就是数据总体，并且数据集合有N个数值（个案），假设数据总体的均值为μ，那么总体方差σ2σ^2σ2的计算公式为：

总体标准差是方差的正值平方根，其计算公式为：
样本的方差和标准差
一般情况下，能够作为数据总体的数据集合容量都是非常庞大的，基于成本的考虑，不可能采集数据总体的全部数值（个案）。通常的做法是从数据总体中随机抽取一定数量的样本数值，然后用样本数值的方差和标准差来估计总体的方差和标准差。为了区分，样本的均值用x-表示，样本方差用s2s^2s2表示，样本标准差用s表示。假设样本容量为n，那么样本方差的计算公式为：

对比总体与样本的方差计算公式，最让人疑惑的地方在分母。总体方差公式的分母就是总体容量N，而样本方差公式的分母却是n-1，即样本容量n减去1。
这个区别的原因在于，用样本方差估计总体方差总是有一定的偏差存在。
假设数据总体的容量为N，从数据总体中抽取容量为n的样本（总体容量N远大于样本容量n），那么分母为n的样本方差可以表示为：

假设样本均值为xˉ\bar{x}xˉ，总体均值为μ，将上式进行公式变换：

如果从总体中多次抽取容量为n的样本，并分别计算分母为n的样本方差 sn2s_{n}^{2}sn2，那么容易得到所有样本方差 sn2s_{n}^{2}sn2的均值为：

2.4 四分位极差

排在四分之一位置的数值即为第一四分位数Q1；排在四分之二位置的数值为第二四分位数Q2 ，也就是中位数；排在四分之三位置的数值为第三四分位数Q3。这三个四分位数将整个数据集合分成四等分。四分位极差等于第一四分位数与第三四分位数的差
值（Q3-Q1），这个差值区间包含了整个数据集合50%的数据值。

2.5 异众比率

是指非众数组的频数占总频数的比例。

其中∑fi\sum fi∑fi为变量值的总频数，fmfmfm为众数组的频数。
异种比率越大，说明非众数组的频数占总频数的比重越大，众数的代表性越差，即占比越小，异众比率越小，说明众数的代表性越好，即占比越大。异种比率主要适合度量分类数据的离散程度，当然连续数据可以计算异种比率。

3 相对离散程度

离散系数（变异系数）

方差和标准差虽然能够表示数据集合中每个数值（个案）距离算术均值的平均偏差距离，但是这个距离的大小程度却不能很好展现，特别是对于算术平均值不同的两个数据集合。如果两者的方差和标准差相等时，那么到底哪个数据集合的离散程度更高、更低或相同？对于这个问题，方差和标准差解决不了，变异系数却可以。
总体的变异系数计算公式为：

样本的变异系数计算公式为：

从公式可知，变异系数实质上是标准差相对于算术平均值的大小。因此，如果比较算术平均值不同的两个数据集合的相对离散程度时，使用变异系数要比使用标准差更具有说服力。此外，变异系数是无单位指标，这是它与其他离散程度指标最大的区别，前面介绍的极差、平均偏差、方差和标准差都是带有单位的数值。变异系数的这个特点使其不仅可以说明同类事物的相对离散程度，还可以说明不同类型事物的相对离散程度。例如，比较一群人的身高离散程度和体重离散程度，因为身高与体重的单位不一致，所以其他的离散程度指标都不适用，而变异系数能够用于两者的比较，因为它消除了单位的影响。

4 分布的状态

偏态与峰态测量的是数据的形状，如是否对称、偏斜的程度以及扁平的程度。

1.偏态
测度统计量是偏态系数
偏态系数=0为对称分布；>0为右偏分布；<0为左偏分布
偏态系数大于1或小于-1，为高度偏态分布
偏态系数在0.5～1或-1～-0.5之间，是中等偏态分布
偏态系数越接近0，偏斜程度就越低
2.峰态
测度统计量是峰态系数
峰态系数=0扁平峰度适中
峰态系数<0为扁平分布
峰态系数>0为尖峰分布

import numpy as np
import stats as sts
scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,32, 34, 43, 41, 21, 23, 26, 26, 34, 42,43, 25, 24, 23, 24, 44, 23, 14, 52,32,42, 44, 35, 28, 17, 21, 32, 42, 12, 34]
#集中趋势的度量
print('求和：',np.sum(scores))
print('个数：',len(scores))
print('平均值:',np.mean(scores))
print('中位数:',np.median(scores))
print('众数:',sts.mode(scores))
print('上四分位数',sts.quantile(scores,p=0.25))
print('下四分位数',sts.quantile(scores,p=0.75))
#离散趋势的度量
print('最大值:',np.max(scores))
print('最小值:',np.min(scores))
print('极差:',np.max(scores)-np.min(scores))
print('四分位差',sts.quantile(scores,p=0.75)-sts.quantile(scores,p=0.25))
print('标准差:',np.std(scores))
print('方差:',np.var(scores))
print('离散系数:',np.std(scores)/np.mean(scores))
#偏度与峰度的度量
print('偏度:',sts.skewness(scores))
print('峰度:',sts.kurtosis(scores))</span>