在系统学习指数编制方法之前,先介绍一下几个指数编制过程中会经常使用的数据处理方法,如:数据标准化方法、权重设置方法、异常值处理方法。因为在后面指数编制过程中会经常用到这些方法。接下来我还是按照分类,分别介绍一下这些方法。这一篇,先介绍一下常用的几种数据标准化方法。
  除简单的统计对比分析外, 统计分析更多的是针对较复杂的社会经济现象, 需要用比较广泛的统计指标, 即利用由众多指标构成的统计指标体系进行描述与分析。而利用多指标进行统计分析, 往往需要借助于各种各样的统计综合合成方法, 如多指标的综合评价、聚类分析、主成分分析、关联分析,等等。为此, 需要指标之间具有综合性。然而, 各指标由于性质不同、计量单位不同, 往往缺乏综合性。此外, 当各指标间的水平相差很大时, 如果直接用原始指标值进行分析, 就会突出数值较高的指标在综合分析中的作用, 相对削弱数值水平较低指标的作用, 从而使各指标以不等权参加运算分析。为避免这一点, 解决各指标数值可综合性的问题, 必要时需要对各指标数值进行标准化(无量纲化)处理。
  无量纲化, 也叫数据的标准化、规格化, 它是通过简单的数学变换来消除各指标量纲影响的方法。无量纲化方法有多种,归结起来有以下几类。

一.直线型无量纲化方法

  直线型无量纲化法是指在指标实际值转化成不受量纲影响的指标值时, 假定二者之间呈线性关系, 指标实际值的变化引起标淮化后数值一个相应的比例变化。线性无量纲化方法主要有:

  • 离差标准化(极值法)
    利用指标的极值(极大值或极小值)计算指标的无量纲值,计算公式主要有:
    xi′=ximaxxix_i^{'} =\frac{x_i}{max_{x_i}} xi′​=maxxi​​xi​​
    xi′=maxxi−ximaxxix_i^{'} =\frac{max_{x_i}-x_i}{max_{x_i}} xi′​=maxxi​​maxxi​​−xi​​
    xi′=xi−minxixix_i^{'} =\frac{x_i-min_{x_i}}{{x_i}} xi′​=xi​xi​−minxi​​​
    xi′=xi−minximaxxi−minxix_i^{'} =\frac{x_i-min_{x_i}}{{max_{x_i}-min_{x_i}}} xi′​=maxxi​​−minxi​​xi​−minxi​​​
      经过离差标准化后,各种变量的观察值的数值范围都将在某个区间之内,并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲(单位)影响和变异大小因素的影响的最简单的方法。有一些关系系数(例如绝对值指数尺度)在定义时就已经要求对数据进行离差标准化,但有些关系系数的计算公式却没有这样要求,当选用这类关系系数前,不妨先对数据进行标准化,看看分析的结果是否为有意义的变化。
      一般情况下采用第四种方法较多,又称作最大最小法,在python中实现如下:
def MaxMinNormalization(x, min, max):"""[0,1] normaliaztion"""x = (x - min) / (max - min)return x
  • 标准差标准化(z-score标准化)
      标准差标准化是将某变量中的观察值(原数据)减去该变量的平均数,然后除以该变量的标准差。经过标准差标准化后,各变量将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的平均数为0,标准差为1。经标准化的数据都是没有单位的纯数量。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。但有人认为经过这种标准化后,原来数值较大的的观察值对分类结果的影响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法。
      标准差标准化计算公式为:
    xi′=xi−xi‾1n∑(xi−xi‾)22x_i^{'} =\frac{x_i-\overline{x_i}}{\sqrt [2] {\frac{1}{n}\sum { (x_i - \overline{x_i})^2}}} xi′​=2n1​∑(xi​−xi​​)2​xi​−xi​​​
    z-score标准化方法在指数编制过程中也是较为常用的一种方法,python中实现方法如下:
def ZscoreNormalization(x, mean_, std_):"""Z-score normaliaztion"""x = (x - mean_) / std_return x
  • 对数Logistic模式标准化
    对数标准化主要是采用对数函数对数据进行标准化处理,其计算公式为:
    xi′=11+e(−xi)x_i^{'} =\frac{1}{1+e^{(-x_i)}} xi′​=1+e(−xi​)1​

二.折线型无量纲化方法

  有时, 指标在不同水平、区域内的变化对综合分析结果的影响是不一样的。比如在多指标综合评价时, 若x 小于某个数值时, x 变化对综合水平影响较大, 评价值也有较大的变化; 而当x 大于该数值时, x 的变化对被评价对象综合水平的影响较小, 则评价值的变化也较小。在这种情况下, 应采用折线形无量纲化方法进行分段处理。以三折线无量纲化为例,其分段处理公式如下:

三.曲线形无量纲化方法

  采用曲线型的无量纲化方法, 意味着指标实际值与无量纲值之间不是等比例的变动, 而是非线性关系。曲线型公式种类很多。

  • 升半Γ型分布
  • 半正态型分布

    式中,k,a为曲线待定参数。
    在进行统计分析时, 有时要用到一些主观指标、定性指标, 如对分析对象按其好坏进行排队所得到的名次, 或确定分析对象属于某评定等级等。在这种情况下, 也需要对其作出无量纲化处理, 如以百分制做其无量纲化处理的结果, 便于与其它指标进行综合。

四.数据标准化方法选择

  数据标准化的方法可以有多种, 在对其进行选择时应该注意以下几个问题。

  • 根据数据情况进行选择:无量纲化所选用的转化公式要根据客观事物的特征及所选用的统计分析方法确定。这一方面要求尽量能够客观地反映指标实际值与事物综合发展水平间的对应关系, 另一方面要符合统计分析的基本要求。如进行聚类分析和关联分析时, 往往需要用直线型转换公式。而在进行综合评价时, 则需要用折线型或曲线型转换公式。
  • 遵循简易型原则:能够用直线型转换公式的就不用折线特别是曲线型公式因为, 曲线型公式并不是在任何情况下都比直线型公式精确, 同时曲线型公式中的参数选择又有定的难度, 因而在没有把握的情况下, 不如用直线的或折线的来替代。
  • 利用转化公式自身特点:要注意转化自身的特点, 这样才能保证转化的可能性。比如在直线型的转换公式中, 常用的极值法和标准差标准化法就各有特点。一般来说, 极值法对指标数据的个数和分布状况没什么要求, 转化后的数据都在0 -1区间, 转化后的数据相对数性质较为明显, 便于做进一步的数学处理, 同时就每个指标数值的转化而言, 这种无量纲转化所依据的原始数据信息较少, 只是指标实际值中的几个值, 如MAXx、MINx和x 等。而标准差标准化法一般在原始数据呈正态分布的情况下应用, 其转化结果超出了0 -1 区间, 存在着负数, 有时会影响进一步的数据处理, 同时转化时与指标实际值中的所有数值都有关系(主要指公式中的S), 所依据的原始数据的信息多于极值法。
  • 逆指标的数据标准化处理:逆指标、适度指标的无量纲化处理。统计指标可以分为正指标(即越大越好的指标)、逆指标(越小越好的指标)和适度指标(数值既不应过大、也不应过小的指标)。对于正指标, 我们可以按前面的转换公式进行无量纲化处理, 而对逆指标和适度指标进行无量纲转化时, 则应先将其转换成正指标, 然后在按上述方法进行无量纲化处理。逆指标转换成正指标较为容易, 只要取原数值的倒数就可以了, 适度指标应根据适度值(即最佳值k) 设计一个变量∣xt−k∣|x_t-k|∣xt​−k∣, 即适度指标的实际值减去适度值的绝对值。这个新变量显然是一个逆指标, 再将这个逆指标取倒数, 计算1⁄∣xi−k∣1⁄|x_i-k|1⁄∣xi​−k∣ 就得到相应的正指标值。

All things are difficult before they are easy.

【指数编制系列二】数据标准化方法相关推荐

  1. 【指数编制系列五】发展评价类指数编制方法

    前面已经介绍了指数编制中会经常用到的一些数据处理方法: [指数编制系列二]数据标准化方法 [指数编制系列三]权重设置方法 [指数编制系列四]异常值和缺失值处理   其实,在指数编制中还有一些其他的数据 ...

  2. python代码规范化_数据标准化方法及其Python代码实现

    数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间.目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法.标准差法).折线型方法(如三折线法).曲线型方法 ...

  3. 常用的数据标准化方法

    数据的标准化(normalization)是将数据按照一定规则缩放,使之落入一个小的特定区间.这样去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权.其中最典型的 ...

  4. 【指数编制系列三】权重设置方法

        在指数编制方法中,我们会经常提到加权平均法(这个在后面会介绍),这里面有一个重要的概念就是权重.权重的设定在指数编制过程中是非常重要的一步,适当的权重设定是指数客观准确反映目标变化趋势的一个关 ...

  5. 【指数编制系列七】价格指数编制方法

      关于价格指数的定义,<CPI手册>中指出价格指数用于衡量一组价格在某一时期的相应变化幅度或百分比变化,它可以衡量当特定商品或服务价格发生变化对该组相对价格变动的影响,但由于不同商品和服 ...

  6. 【指数编制系列一】指数分类、作用及基本编制流程

    最近在学习一些数据算法,看到很多不错的总结性文章,突然想起自己这几年的工作主要集中在指数编制方面,也算是比较系统全面的研究并编制了一些指数,所以想把自己对指数编制的一些理解记录下来,做一个总结,方便查 ...

  7. 国家生物信息中心开发DNA甲基化芯片数据标准化方法—GMQN

    过去十年来,由于DNA甲基化芯片技术的不断发展以及测序成本的快速下降,DNA甲基化芯片数据呈现爆发式增长.这些数据是表观基因组关联研究(Epigenome-Wide Association Studi ...

  8. 常用两种数据标准化方法

    学习率 Learning Rate 本文从梯度学习算法的角度中看学习率对于学习算法性能的影响,以及介绍如何调整学习率的一般经验和技巧. 在机器学习中,监督式学习(Supervised Learning ...

  9. 数据标准化方法z-score讲解(matlab)

    在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析. z-score 标准化(正太标准化)是基于原始数据的均值(mean)和标准差(standar ...

最新文章

  1. Spring Boot——2分钟构建springweb mvc REST风格HelloWorld
  2. 万字长文,说透了 Openshift4 的安装过程!
  3. ASP网站程序自动升级实现的方法
  4. 循序渐进Java Socket网络编程(多客户端、信息共享、文件传输)
  5. 基于IPSec的×××配置实验
  6. 请教大家:如何把.DCU文件反编译回源代码?谢谢。
  7. 保存多序列tiff文件_干货技巧!如何使你保存的Phtoshop文件容量更小?
  8. iOS 开发之玩转专场动画
  9. 【深入理解JVM笔记】什么是元数据?
  10. 机器学习之MCMC算法
  11. 红外图像特点及识别方法
  12. 如何设置.net控件SplitContainer平均分配
  13. 这游戏到底怎么了? 一年后,再看《刺客信条奥德赛》
  14. 【利用编程来解决问题】——解数学题
  15. Redis使用说明书(Windows)
  16. 媒体报道 | 《数据安全治理自动化技术框架(DSAG)》白皮书诞生,探索数据安全治理技术“最优解”
  17. 视频监控存储特点分析
  18. AndroidQ SettingsProvider和Settings原理
  19. 放假安排 自己MARK
  20. 面向集团客户云计算运营平台的市场情况及产品发展——之云计算运营平台方案(二)

热门文章

  1. JavaCV-学习笔记一
  2. 高新技术企业认定之材料错误篇!
  3. WorkLess可量化的团队协作软件源码下载
  4. 中国家庭的七大饮食问题
  5. matlab中矩阵取值的方法
  6. 谷歌浏览器提示密码泄露弹窗关闭
  7. python三种注释方法
  8. 磨刀不误砍柴工-----为提升自己找到一个平衡点
  9. 用python写一个ip查询工具库
  10. micro、M3O微服务系列(三)