【指数编制系列二】数据标准化方法

在系统学习指数编制方法之前，先介绍一下几个指数编制过程中会经常使用的数据处理方法，如：数据标准化方法、权重设置方法、异常值处理方法。因为在后面指数编制过程中会经常用到这些方法。接下来我还是按照分类，分别介绍一下这些方法。这一篇，先介绍一下常用的几种数据标准化方法。
除简单的统计对比分析外, 统计分析更多的是针对较复杂的社会经济现象, 需要用比较广泛的统计指标, 即利用由众多指标构成的统计指标体系进行描述与分析。而利用多指标进行统计分析, 往往需要借助于各种各样的统计综合合成方法, 如多指标的综合评价、聚类分析、主成分分析、关联分析,等等。为此, 需要指标之间具有综合性。然而, 各指标由于性质不同、计量单位不同, 往往缺乏综合性。此外, 当各指标间的水平相差很大时, 如果直接用原始指标值进行分析, 就会突出数值较高的指标在综合分析中的作用, 相对削弱数值水平较低指标的作用, 从而使各指标以不等权参加运算分析。为避免这一点, 解决各指标数值可综合性的问题, 必要时需要对各指标数值进行标准化（无量纲化）处理。
无量纲化, 也叫数据的标准化、规格化, 它是通过简单的数学变换来消除各指标量纲影响的方法。无量纲化方法有多种，归结起来有以下几类。

一.直线型无量纲化方法

直线型无量纲化法是指在指标实际值转化成不受量纲影响的指标值时, 假定二者之间呈线性关系, 指标实际值的变化引起标淮化后数值一个相应的比例变化。线性无量纲化方法主要有：

离差标准化（极值法）
利用指标的极值(极大值或极小值)计算指标的无量纲值，计算公式主要有：
xi′=ximaxxix_i^{'} =\frac{x_i}{max_{x_i}} xi′=maxxixi
xi′=maxxi−ximaxxix_i^{'} =\frac{max_{x_i}-x_i}{max_{x_i}} xi′=maxximaxxi−xi
xi′=xi−minxixix_i^{'} =\frac{x_i-min_{x_i}}{{x_i}} xi′=xixi−minxi
xi′=xi−minximaxxi−minxix_i^{'} =\frac{x_i-min_{x_i}}{{max_{x_i}-min_{x_i}}} xi′=maxxi−minxixi−minxi
经过离差标准化后，各种变量的观察值的数值范围都将在某个区间之内，并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲（单位）影响和变异大小因素的影响的最简单的方法。有一些关系系数（例如绝对值指数尺度）在定义时就已经要求对数据进行离差标准化，但有些关系系数的计算公式却没有这样要求，当选用这类关系系数前，不妨先对数据进行标准化，看看分析的结果是否为有意义的变化。
一般情况下采用第四种方法较多，又称作最大最小法，在python中实现如下：

def MaxMinNormalization(x, min, max):"""[0,1] normaliaztion"""x = (x - min) / (max - min)return x

标准差标准化（z-score标准化）
标准差标准化是将某变量中的观察值（原数据）减去该变量的平均数，然后除以该变量的标准差。经过标准差标准化后，各变量将有约一半观察值的数值小于0，另一半观察值的数值大于0，变量的平均数为0，标准差为1。经标准化的数据都是没有单位的纯数量。对变量进行的标准差标准化可以消除量纲（单位）影响和变量自身变异的影响。但有人认为经过这种标准化后，原来数值较大的的观察值对分类结果的影响仍然占明显的优势，应该进一步消除大小因子的影响。尽管如此，它还是当前用得最多的数据标准化方法。
标准差标准化计算公式为：
xi′=xi−xi‾1n∑(xi−xi‾)22x_i^{'} =\frac{x_i-\overline{x_i}}{\sqrt [2] {\frac{1}{n}\sum { (x_i - \overline{x_i})^2}}} xi′=2n1∑(xi−xi)2xi−xi
z-score标准化方法在指数编制过程中也是较为常用的一种方法，python中实现方法如下：

def ZscoreNormalization(x, mean_, std_):"""Z-score normaliaztion"""x = (x - mean_) / std_return x

对数Logistic模式标准化
对数标准化主要是采用对数函数对数据进行标准化处理，其计算公式为：
xi′=11+e(−xi)x_i^{'} =\frac{1}{1+e^{(-x_i)}} xi′=1+e(−xi)1

二.折线型无量纲化方法

有时, 指标在不同水平、区域内的变化对综合分析结果的影响是不一样的。比如在多指标综合评价时, 若x 小于某个数值时, x 变化对综合水平影响较大, 评价值也有较大的变化; 而当x 大于该数值时, x 的变化对被评价对象综合水平的影响较小, 则评价值的变化也较小。在这种情况下, 应采用折线形无量纲化方法进行分段处理。以三折线无量纲化为例，其分段处理公式如下：

三.曲线形无量纲化方法

采用曲线型的无量纲化方法, 意味着指标实际值与无量纲值之间不是等比例的变动, 而是非线性关系。曲线型公式种类很多。

升半Γ型分布
半正态型分布

式中，k，a为曲线待定参数。
在进行统计分析时, 有时要用到一些主观指标、定性指标, 如对分析对象按其好坏进行排队所得到的名次, 或确定分析对象属于某评定等级等。在这种情况下, 也需要对其作出无量纲化处理, 如以百分制做其无量纲化处理的结果, 便于与其它指标进行综合。

四.数据标准化方法选择

数据标准化的方法可以有多种, 在对其进行选择时应该注意以下几个问题。

根据数据情况进行选择：无量纲化所选用的转化公式要根据客观事物的特征及所选用的统计分析方法确定。这一方面要求尽量能够客观地反映指标实际值与事物综合发展水平间的对应关系, 另一方面要符合统计分析的基本要求。如进行聚类分析和关联分析时, 往往需要用直线型转换公式。而在进行综合评价时, 则需要用折线型或曲线型转换公式。
遵循简易型原则：能够用直线型转换公式的就不用折线特别是曲线型公式因为, 曲线型公式并不是在任何情况下都比直线型公式精确, 同时曲线型公式中的参数选择又有定的难度, 因而在没有把握的情况下, 不如用直线的或折线的来替代。
利用转化公式自身特点：要注意转化自身的特点, 这样才能保证转化的可能性。比如在直线型的转换公式中, 常用的极值法和标准差标准化法就各有特点。一般来说, 极值法对指标数据的个数和分布状况没什么要求, 转化后的数据都在0 -1区间, 转化后的数据相对数性质较为明显, 便于做进一步的数学处理, 同时就每个指标数值的转化而言, 这种无量纲转化所依据的原始数据信息较少, 只是指标实际值中的几个值, 如MAXx、MINx和x 等。而标准差标准化法一般在原始数据呈正态分布的情况下应用, 其转化结果超出了0 -1 区间, 存在着负数, 有时会影响进一步的数据处理, 同时转化时与指标实际值中的所有数值都有关系(主要指公式中的S), 所依据的原始数据的信息多于极值法。
逆指标的数据标准化处理：逆指标、适度指标的无量纲化处理。统计指标可以分为正指标(即越大越好的指标)、逆指标(越小越好的指标)和适度指标(数值既不应过大、也不应过小的指标)。对于正指标, 我们可以按前面的转换公式进行无量纲化处理, 而对逆指标和适度指标进行无量纲转化时, 则应先将其转换成正指标, 然后在按上述方法进行无量纲化处理。逆指标转换成正指标较为容易, 只要取原数值的倒数就可以了, 适度指标应根据适度值(即最佳值k) 设计一个变量∣xt−k∣|x_t-k|∣xt−k∣, 即适度指标的实际值减去适度值的绝对值。这个新变量显然是一个逆指标, 再将这个逆指标取倒数, 计算1⁄∣xi−k∣1⁄|x_i-k|1⁄∣xi−k∣ 就得到相应的正指标值。

All things are difficult before they are easy.