一、为何要将数据标准化?

由于不同变量常常具有不同的单位和不同的变异程度。  不同的单位常使系数的实践解释发生困难。例如:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值(单位是kg)与第2个变量观察值之差的绝对值(单位是cm)相加的情况。使用者会说5kg的差异怎么可以与3cm的差异相加?  不同变量自身具有相差较大的变异时,会使在计算出的关系系数中,不同变量所占的比重大不相同。例如如果第1个变量(两水稻品种米粒中的脂肪含量)的数值在2%到4%之间,而第2个变量(两水稻品种的亩产量)的数值范围都在1000与5000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。

   二、数据标准化的方法: 

1、对变量的离差标准化

   离差标准化是将某变量中的观察值减去该变量的最小值,然后除以该变量的极差。即

      xik=[xikMin (xk)]/Rk

   经过离差标准化后,各种变量的观察值的数值范围都将在〔0,1〕之间,并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲(单位)影响和变异大小因素的影响的最简单的方法。  有一些关系系数(例如绝对值指数尺度)在定义时就已经要求对数据进行离差标准化,但有些关系系数的计算公式却没有这样要求,当选用这类关系系数前,不妨先对数据进行标准化,看看分析的结果是否为有意义的变化。

2,对变量的标准差标准化

   标准差标准化是将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即

      x’ik = (xik -)/sk

   经过标准差标准化后,各变量将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的平均数为0,标准差为1。经标准化的数据都是没有单位的纯数量。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。但有人认为经过这种标准化后,原来数值较大的的观察值对分类结果的影响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法。

3,先对事例进行标准差标准化,再对变量进行标准差标准化

   第一步,先对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即

      x’ik = (xik -)/si

   第二步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即

      x’’ik =(x’ikk)/s’k

   使用这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。

4,先对变量、后对事例、再对变量的标准差标准化

   这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。具体做法是:

   第一步,先对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即

      x’ik = (xik -)/sk

   第二步,后对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即

      x’’ik = (x’iki)/s’i

   第三步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即

      x’’’ik = (x’’ik’’k)/s’’k

   进行了前两步之后,还要进行第三步的原因,主要是为了计算的方便。

数据标准化的原因及方法相关推荐

  1. 数据标准化的原因和方法

    数据标准化的原因和方法 原因 由于不同变量常常具有不同的单位和不同的变异程度.   不同的单位常使系数的实践解释发生困难.例如:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出 ...

  2. python预处理标准化_tensorflow预处理:数据标准化的几种方法

    tensorflow预处理:数据标准化的几种方法 发布时间:2018-08-09 19:39, 浏览次数:1774 , 标签: tensorflow 数据归一化问题是数据挖掘中特征向量表达时的重要问题 ...

  3. 使用matlab进行数据标准化的两种方法

    数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间.在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能 ...

  4. tensorflow预处理:数据标准化的几种方法

    数据归一化问题是数据挖掘中特征向量表达时的重要问题,当不同的特征成列在一起的时候,由于特征本身表达方式的原因而导致在绝对数值上的小数据被大数据"吃掉"的情况,这个时候我们需要做的就 ...

  5. 数据标准化处理方法_机器学习系列-数据预处理-数据标准化(归一化)-理论

    在做一个具体的机器学习项目中,拿到收集到的数据后,一般都是需要做数据预处理,而标准化(暂时不考虑标准化和归一化的主要区别)是数据预处理中一个比较重要的环节,那么为什么需要对数据进行标准化处理呢? 数据 ...

  6. 数据预处理的步骤和方法

    一.概述 在工程实践中,我们得到的数据会存在有缺失值.重复值等,在使用之前需要进行数据预处理.数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同.数据预处理的常用流程为:去除唯一属性 ...

  7. 数据缺失,数据异常,数据标准化的处理方法

    数据缺失 一.缺失值产生的原因 缺失值的产生的原因多种多样,主要分为机械原因和人为原因.机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段 ...

  8. python代码规范化_数据标准化方法及其Python代码实现

    数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间.目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法.标准差法).折线型方法(如三折线法).曲线型方法 ...

  9. python实现数据恢复_使用sklearn进行对数据标准化、归一化以及将数据还原的方法...

    在对模型训练时,为了让模型尽快收敛,一件常做的事情就是对数据进行预处理. 这里通过使用sklearn.preprocess模块进行处理. 一.标准化和归一化的区别 归一化其实就是标准化的一种方式,只不 ...

最新文章

  1. transparentblt函数实现透明贴图 (上)
  2. solr/solrj原子更新
  3. vue 3.4x以上如何改变项目运行端口号
  4. leetcode 剑指 Offer 03. 数组中重复的数字
  5. c++画多边形_如何画出超漂亮的极光绘画教程
  6. 什么原因导致百度搜索比Google要少很多?
  7. bzoj1051: [HAOI2006]受欢迎的牛(tarjan强连通分量)
  8. 【NOI2015】【codevs4600】【BZOJ4195】自动程序分析,我太弱了
  9. linux - mysql 异常:Ignoring query to other database
  10. 基于Java visualvm的可视化监控的使用
  11. @value取不到值_Bamboo window上环境变量 HOMEDRIVE 及 HOMEPATH 获取不到的问题
  12. Windows下SQLMAP的安装图解
  13. python如何输出整数_如何根据Python中的输入输出整数和浮点值?
  14. 树莓派安装中文输入法(谷歌拼音)
  15. sql 按照天环比_同比环比sql实例
  16. linux pvs命令安装,Linux中的ldd命令和pvs命令
  17. 和席慕容《一颗开花的树》
  18. java pdfbox2 中文乱码_使用PdfBox实现pdf转图片,解决中文方块乱码等问题
  19. 极尚“在一起”高层Q2定向会,共谋契机 擎画未来
  20. 还原SQL Server数据库

热门文章

  1. 开源STM32主控遥控器XBOX外形PCB
  2. Python如何删除多余的空格与空行(有代码)
  3. 跨平台手动迁移虚拟机
  4. 网站ftp服务器密码修改,ftp服务器忘记密码修改
  5. Linux内存管理(二十六):slub 分配器初始化
  6. 《惢客创业日记》2021.08.06-09(周五)惢客与征信的区别(下)
  7. eclipse 3.7(indigo)在线安装中文语言包
  8. 使用rdbtools工具分析redis备份RDB文件
  9. 小说形象特征包括哪些方面_小说的基本特征是塑造人物形象
  10. STM32F103RBT6 mcu芯片