数据预处理 - 归一化与Z-Score标准化

归一化

归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量，在多种计算中都经常用到这种方法。归一化方法有两种形式，一种是把数变为（0，1）之间的小数，一种是把有量纲表达式变为无量纲表达式。主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速，应该归到数字信号处理范畴之内。

最大最小标准化

x*=(x-min)/(max−min)

Z-Score标准化

是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。

可以简洁地用一句话来说明：Z-Score通过（x-μ）/σ将两组或多组数据转化为无单位的Z-Score分值，使得数据标准统一化，提高了数据可比性，削弱了数据解释性。

Z-Score标准化是数据处理的方法之一。在数据标准化中，常见的方法有如下三种：

1.Score 标准化

2.最小标准化

3.定标法

下图说明了标准化在整个工程应用中的位置：

Z-Score的定义

Z-Score处理方法处于整个框架中的数据准备阶段。也就是说，在源数据通过网络爬虫、接口或其他方式进入数据库中后，下一步就要进行的数据预处理阶段中的重要步骤。

数据分析与挖掘中，很多方法需要样本符合一定的标准，如果需要分析的诸多自变量不是同一个量级，就会给分析工作造成困难，甚至影响后期建模的精准度。

举例来说，假设我们要比较A与B的考试成绩，A的考卷满分是100分（及格60分），B的考卷满分是700分（及格420分）。很显然，A考出的70分与B考出的70分代表着完全不同的意义。但是从数值来讲，A与B在数据表中都是用数字70代表各自的成绩。

下图描述了Z-Score的定义以及各种特征。

Z-Score的目的

如上图所示，Z-Score的主要目的就是将不同量级的数据统一转化为同一个量级，统一用计算出的Z-Score值衡量，以保证数据之间的可比性。

Z-Score的理解与计算（在对数据进行Z-Score标准化之前，我们需要得到如下信息）

1）总体数据的均值（μ）

在上面的例子中，总体可以是整个班级的平均分，也可以是全市、全国的平均分。

2）总体数据的标准差（σ）

这个总体要与1）中的总体在同一个量级。

3）个体的观测值（x）

在上面的例子中，即A与B各自的成绩。

通过将以上三个值代入Z-Score的公式，即：x*=(x−μ)/σ

我们就能够将不同的数据转换到相同的量级上，实现标准化。

重新回到前面的例子，假设：A班级的平均分是80，标准差是10，A考了90分；B班的平均分是400，标准差是100，B考了600分。

通过上面的公式，我们可以计算得出，A的Z-Score是1（（90-80）/10），B的Z-Socre是2（（600-400）/100）。因此B的成绩更为优异。

反之，若A考了60分，B考了300分，A的Z-Score是-2，B的Z-Score是-1。因此A的成绩更差。

因此，可以看出来，通过Z-Score可以有效的把数据转换为统一的标准，但是需要注意，并进行比较。Z-Score本身没有实际意义，它的现实意义需要在比较中得以实现，这也是Z-Score的缺点之一。

Z-Score的优缺点
Z-Score最大的优点就是简单，容易计算，Z-Score能够应用于数值型的数据，并且不受数据量级的影响，因为它本身的作用就是消除量级给分析带来的不便。

但是Z-Score应用也有风险。首先，估算Z-Score需要总体的平均值与方差，但是这一值在真实的分析与挖掘中很难得到，大多数情况下是用样本的均值与标准差替代。其次，Z-Score对于数据的分布有一定的要求，正态分布是最有利于Z-Score计算的。最后，Z-Score消除了数据具有的实际意义，A的Z-Score与B的Z-Score与他们各自的分数不再有关系，因此Z-Score的结果只能用于比较数据间的结果，数据的真实意义还需要还原原值。

Z-scores 简单化

x∗=1/(1+x)

对于x越大，标准化之后的x*就会越小，这样就可以将数据标准化到[0-1]区间了。

数据预处理 - 归一化与Z-Score标准化相关推荐

机器学习之数据预处理——归一化，标准化
机器学习之数据预处理--归一化,标准化基础知识 1.什么是特征预处理 2.预处理方法 : 3.预处理API: 数据的标准化(normalization)和归一化数据的标准化数据归一化 1 把数变 ...
数据预处理——归一化标准化
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间. 去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权最典型的就是数据的归 ...
使用sklearn进行数据预处理 —— 归一化/标准化/正则化
本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法,主要包括标准化.数据最大最小缩放处理.正则化.特征二值化和数据缺失值处理.内容比较简单, ...
对数坐标归一化_数据预处理-归一化/数据转换
有时候我们在拿到原始数据的时候,我们不能直接使用.大概场景有下面这些,我遇到的 1. 数字比较大,容易爆计算量,更不容易收敛 2. 比如房子价格这种变量,并不是正态分布,有时候不利于我们做一些和正态分 ...
一文速学-数据预处理归一化详细解释
目录一.为何要进行数据预处理? 二.数据标准化 1.归一化的目标 2.归一化的优点
数据预处理归一化Z-score归一化Min-Max归一化程序
在训练神经网络模型的时候,对数据进行预处理是必不可少的操作,而对数据进行归一化是预处理最常用的操作. 最常用的归一化方法有两种,Min-Max归一化和Z-score归一化. Min-Max归一化原理 ...
matlab数据无量纲化_MATLAB数据预处理——归一化和标准化
输入/输出数据的预处理尺度变换尺度变换也称归一化或标准化,是指通过变换处理将网络的输入/输出数据限制在[0,1]或[-1,1]区间内.进行尺度变换的原因有: (1)网络的各个输入数据常常具有不同的 ...
数据预处理-归一化与z-score标准化
归一化: 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量. 在多种计算中都经常用到这种方法. 线性函数转换: y=(x-MinValue)/(MaxValue- ...
关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化
20220121 z-score标准化模型存储和load再调用其实没有关系再load计算的时候,也是以实际的数据重新计算并不是以save模型的边界来计算的 20211227 onehot训练集保 ...

数据预处理 - 归一化与Z-Score标准化

数据预处理 - 归一化与Z-Score标准化相关推荐

最新文章

热门文章