第4章数据的概括性度量

利用图表展示数据，可以让我们对数据分布的形状和特征有一个大致的了解。但是要全面把握数据分布的特征，还需要找到反映数据分布特征的各个代表值。数据分布的特征可以从三个方面进行测度和描述：

分布的集中趋势：反映各数据向其中心值靠拢或聚集的程度；
分布的离散程度：反映各数据远离其中心值的趋势；
分布的形状：反映数据分布的偏态和峰态

集中趋势的度量

集中趋势是指一组数据向某一中心值靠拢的程度，它反映了一组数据中心点的位置所在。

1. 分类数据：众数

众数是一组数据中能够出现最多的变量值。众数主要用于测度分类数据分类数据的集中趋势，也可作为顺序数据以及数值型数据集中趋势的测度值。一般情况下，只有在数据量较大的情况下众数才有意义。

2. 顺序数据：中位数和分位数

在一组数据中，可以找出处在某个位置上的数据，这些位置上的数据就是相应的分位数，其中包括中位数、四分位数、十分位数、百分位数等。

中位数（二分位数）：一组数据排序后处于中间位置上的变量值。中位数主要用于测度顺序数据的集中趋势，当然也适用于测度数值型数据的集中趋势，但不适用于分类数据。【中位数是一个位置代表值，其特点是不受极端值的影响，在研究收入分配时很有用】
四分位数：也称四分位点，它是一组数据排序后处于25%（上四分位数）和75%（下四分位数）上的值。

3. 数值型数据：平均数

平均数也称为均值，它是一组数据相加后除以数据的个数得到的结果。

平均数是集中趋势的最主要测度值，它主要适用于数值型数据，而不适用于分类数据和顺序数据。

根据所掌握数据的不同，平均数有不同的计算形式和计算公式：

简单平均数：根据未分组数据计算的平均数
加权平均数：根据分组数据计算的平均数（使用各组的组中值代表各组的实际数据）

一种特殊的平均数：几何平均数

几何平均数是n个变量值乘积的n次方根，用G表示。计算公式为：

几何平均数是适用于特殊数据的一种平均数，它主要用于计算平均比率。当所掌握的变量值本身是比率形式时，采用几何平均法计算比率更为合理。在实际应用中，几何平均数主要用于计算现象的平均增长率。

4. 众数、中位数和平均数的比较

众数、中位数和平均数的关系

对于具有单峰分布的大多数数据而言，众数、中位数和平均数之间具有以下关系：
1. 如果数据的分布是对称的，众数=中位数=平均数；
2. 如果数据是左偏分布，说明数据存在极小值，必定拉动平均数向极小值一方靠，而众数和中位数由于是未知代表值，不受极值的影响，因此平均数<中位数<众数；
3. 如果数据是右偏分布，说明数据存在极大值，必然拉动平均数向极大值一方靠，因此众数<中位数<平均数

众数、中位数和平均数的特点与应用场合

众数是一组数据分布的峰值，不受极端值的影响，其缺点是具有不唯一性，一组数据可能有一个众数，也可能有两个或多个众数，也可能没有众数。众数只有在数据量较多时才有意义，当数据量较少时，不宜使用众数。众数适合作为分类数据集中趋势测度值。

中位数是一组数据中间位置上的值，不受数据极端值的影响。当一组数据的分布偏斜程度较大时，使用中位数也许是一个好的选择。中位数适合作为顺序数据的集中趋势测度值。

平均数是针对数值型数据计算的，而且利用了全部数据信息，它是应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时，三个代表值相等或接近相等，这时则应选择平均数作为集中趋势的代表值。

但平均数的主要缺点是易受数据极端值的影响，对于偏态分布的数据，平均数的代表性较差。因此，当数据为偏态分布，特别是偏斜程度较大时，可以考虑选择中位数或众数，这时它们的代表性要比平均数好。

离散程度的度量

数据的离散程度是数据分布的另一个重要特征，它反映的是各变量值远离其中心值的程度。数据的离散程度越大，集中趋势的测度值对该组数据的代表性越差，反之，越好。描述数据离散程度采用的测度值，根据数据类型的不同主要有异众比率、四分位差、方差和标准差、此外，还有极差、平均差以及测度相对离散系数。

1. 分类数据：异众比率

异众比率是指非众数组的频数占中频数的比例，它主要用于衡量众数对一组数据的代表程度。异众比率越大，说明非众数组的频数占总频数的比重越大，众数的代表性越差。异众比率适合测度分类数据的离散程度，当然，对于顺序数据以及数值型数据也可以计算异众比率。

2. 顺序数据：四分位差

四分位差也称内距或四分间距，它是上四分位数与下四分位数之差

四分位差反映了中间50%的数据的离散程度，数值越小，说明中间的数据越集中，反之，则越分散。四分位差不受极值的影响。此外，由于中位数处于数据的中间位置，因此，四分位差的大小在一定程度上说明了中位数对一组数据的代表程度。**四分位差主要用于测度顺序数据的离散程度。**对于数值型数据也可以计算四分位差，但它不适合分类数据。

3. 数值型数据：方差和标准差

测度数值型数据离散程度的方法主要有极差、平均差、方差和标准差，其中最常用的是方差和标准差。

极差：一组数据的最大值与最小值之差，也称全距。极差是最简单的描述数据离散程度的测度值，计算简单，易于理解，但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息，不能反映出中间数据的离散状况，因而不能准确描述出数据的分散程度
平均差：也称平均绝对离差，它是各变量值与其平均数离差绝对值的平均数——“平均距离”。平均差以平均数为中心，反映了每个数据与平均数的平均差异程度，它能全面准确地反映一组数据的离散状况。平均差越大，说明数据的离散程度越大。为了避免离差之和等于零而无法计算平均差这一问题，平均差在计算时对离差取了绝对值，以离差的绝对值来表示总离差，这就给计算带来里的不便，因而在实际中应用较少。
方差和标准差：各变量值与其平均数离差平方的平均数。方差的平方根称为标准差。方差（或标准差）能较好地反映出数据的离散程度，是应用最广的离散程度的测度值

样本方差是用样本数据个数减1后去除离差平方和，其中样本数据个数减1即n-1称为自由度。方差开方后及得到标准差。与方差不同的是，标准差是有量纲的，它与变量值的计量单位相同，其实际意义要比方差清楚。因此，在对实际问题进行分析时更多地使用标准差。

更多解析见：
https://www.cnblogs.com/datamining-bio/p/9267759.html

4. 相对位置的度量

有了平均数和标准差之后，可以计算一组数据中各个数据的标准分数，以测度每个数据在该组数据中的相对位置，并可以用它来判断一组数据是否有离群数据

标准分数：也称标准化值或z分数，指的是变量值与其平均数的离差除以标准差后的值。

标准分数给出了一组数据中各数据的相对位置。比如，如果某个数据的标准分数为-1.5，就知道该数据比平均数低1.5个标准差。

经验法则

当一组数据对称分布时，经验法则表明：

至少有68%的数据在平均数±1个标准差的范围之内；

至少有95%的数据在平均数±2个标准差的范围之内；

至少有99%的数据在平均数±3个标准差的范围之内；
切比雪夫不等式

经验法则适合对称分布的数据。如果一组数据不是对称分布，经验法则就不再适用，这时可使用切比雪夫不等式，它对任何分布形态的数据都适用。切比雪夫不等式提供的是“下界”，也就是“所占比例至少是多少”，对于任意分布形态的数据，根据切比雪夫不等式，

至少有75%的数据在平均数±2个标准差的范围之内；

至少有89%的数据在平均数±3个标准差的范围之内；

至少有94%的数据在平均数±4个标准差的范围之内；

5. 相对离散程度：离散系数

方差和标准差是反映数据离散程度的绝对值，其数值的大小

一方面受原变量值自身水平高低的影响，也就是与变量的平均数大小有关，变量值绝对水平高的，离散程度的测度值自然也就越大，绝对水平地低的，离散程度的测度值自然也就小；

另一方面，它们与原变量值的计量单位相同，采用不同计量单位计量的变量值，其离散程度的测度值也就不同。

因此，对于平均水平不同或计量单位不同的不同组别的变量值，不能用标准差直接比较其离散程度。为消除变量值水平高低和计量单位不同对离散程度测度值的影响，需要计算离散系数。

离散系数也称变异系数，它是一组数据的标准差与其对应的平均数之比。其计算公式为：

离散系数是测度数据离散程度的统计量，主要用于比较不同样本数据的离散程度。 离散系数越大，说明数据的离散程度越大，反之，越小。

偏态与峰态的度量

集中趋势和离散程度是数据分布的两个重要特征，但要全面了解数据分布的特点，还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰态就是对分布形状的测度。

1. 偏态及其测度

从上式可以看到，它是离差三次方的平均数再除以标准差的三次方。

当分布对称时，离差三次方后正负离差可以相互抵消，因而SK的分子等于0，则SK=0；
当分布不对称时，正负离差不能抵消，就形成了正或负的偏态系数SK。当SK为正值时，表示正离差值较大，可以判断为正偏或右偏；反之，当SK为负值时，表示负离差值较大，可判断为负偏或左偏。在计算SK时，将离差三次方的平均数除以标准差的三次方是为了将偏态系数转化为相对数。SK的数值越大，表示偏斜的程度越大。

2. 峰态及其测度

总结