使用sklearn库进行数据标准化处理

通常在进行机器学习的实践时，往往需要预先处理数据。数据处理时常常需要将数据转换为某种符合要求的形式或者转化为某个特定分布的形式。这种操作通常称为数据的无量纲化。

无量纲化的处理可以在以梯度和矩阵为核心的算法应用中提高算法的求解速度，尤其是在使用了梯度下降的方法时。在距离类模型（例如k近邻算法）中可以帮助我们提高模型的精度。

数据的无量纲化可以是线性的也可以是非线性的。

线性的无量纲化包括中心化处理和缩放处理

中心化的本质是让所有记录减去一个固定值，即让样本数据平移到某个位置。缩放的本质是通过除以一个固定值，将数据固定在某个范围内，取对数也算一种缩放处理。

preprocessing.StandardScaler方法
当数据(x)按均值(μ)中心化后，再按标准差(σ)缩放，数据就会服从均值为0，方差为1的正态分布（即标准正态分布），这个过程叫做数据标准化。

from sklearn.prepocessing import StandardScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = StandardScaler().fit_transform(data)

其他数据标准化方法

Zero-mean normalization
公式：
X = ( x − μ ) / σ

这就是均值方差归一化，这样处理后的数据将符合标准正态分布，常用在一些通过距离得出相似度的聚类算法中，比如 K-means。

Min-max normalization
公式： X = ( x − X m i n ) / ( x − X m a x )

min-max 归一化的手段是一种线性的归一化方法，它的特点是不会对数据分布产生影响。不过如果你的数据的最大最小值不是稳定的话，你的结果可能因此变得不稳定。min-max 归一化在图像处理上非常常用，因为大部分的像素值范围是 [0, 255]。

Non-linear normaliztions
非线性的归一化函数包含 log，exp，arctan, sigmoid等等。用非线性归一化的函数取决于你的输入数据范围以及你期望的输出范围。比如 log() 函数在 [0, 1] 区间上有很强的区分度，arctan() 可以接收任意实数病转化到区间，sigmoid 接收任意实数并映射到 (0, 1)。

使用sklearn库进行数据标准化处理相关推荐

python归一化sklearn_用sklearn进行对数据标准化、归一化以及将数据还原详解
如何用sklearn进行对数据标准化.归一化以及将数据还原在对模型训练时,为了让模型尽快收敛,一件常做的事情就是对数据进行预处理. 这里通过使用sklearn.preprocess模块进行处理. 一 ...
python实现数据恢复_使用sklearn进行对数据标准化、归一化以及将数据还原的方法...
在对模型训练时,为了让模型尽快收敛,一件常做的事情就是对数据进行预处理. 这里通过使用sklearn.preprocess模块进行处理. 一.标准化和归一化的区别归一化其实就是标准化的一种方式,只不 ...
使用Sklearn库学习数据预处理和特征工程
目录 1,概述 1.1,数据预处理和特征工程 1.2,sklearn中的数据预处理和特征工程 2,数据预处理 Preprocessing & Impute 2.1,数据无量纲化 2.2,缺失值 ...
sklearn库三种标准化与反标准化方法介绍
在数学建模时将数据标准化往往是不可避免的一个步骤,本文将介绍sklearn库自带的三种最常见的标准化方法:Z-score标准化.0-1归一化.RobustScaler鲁棒化,以及他们的反归一化.话不多 ...
Python初探——sklearn库中数据预处理函数fit_transform()和transform()的区别
敲<Python机器学习及实践>上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下: ...
使用sklearn进行对数据标准化、归一化以及将数据还原
在对模型训练时,为了让模型尽快收敛,一件常做的事情就是对数据进行预处理. 这里通过使用sklearn.preprocess模块进行处理. 一.标准化和归一化的区别归一化其实就是标准化的一种方式,只不 ...
运用最小二乘法和sklearn库分析身高体重数据
文章目录一.使用Excel分析身高体重二.用Jupyter Notebook编程使用最小二乘法分析身高体重三.运用Sklearn库,导入数据模拟. 四.参考一.使用Excel分析身高体重 (这 ...
Python: sklearn库——数据预处理
Python: sklearn库 -- 数据预处理数据集转换之预处理数据: 将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化. 原因:数据集的标准化(服从均 ...
sklearn.preprocessing下的数据标准化（scale、MinMaxScaler）
文章目录 scale MinMaxScaler scale from sklearn.preprocessing import scale Center to the mean and compone ...

使用sklearn库进行数据标准化处理

使用sklearn库进行数据标准化处理相关推荐

最新文章

热门文章