sklearn数据预处理

对数据按列属性进行scale处理后，每列的数据均值变成0，标准差变为1。可通过下面的例子加深理解：

from sklearn import preprocessing
import numpy as np

测试数据：

X = np.array([[1., -1., 2.], [2., 0., 0.], [0., 1., -1.]])

使用sklearn进行scale处理时，有两种方式可供选择。

方式1:直接使用preprocessing.scale()方法：

X_scaled = preprocessing.scale(X)

得到的X_scaled中每列的均值为0，方差为1

方式2：使用StandardScaler类来处理

scaler = preprocessing.StandardScaler().fit(X)

得到的scaler会计算得出每个属性列的均值、方差，但并没有得出最终的数据处理结果。要得到X的scale结果，可以继续执行transform方法：

X_scaled = scaler.transform(X)

这里刚开始学习时，会有疑问：为什么transform还需要传一个X参数？

StandardScaler将数据处理分为fit、transform两步。在fit中，仅仅计算出数据预处理算法的一些参数。比如这里主要计算出来每个列属性的均值、方差。但并没有通过算法：（x-mean)/std 对每个数据进行处理，真正的数据处理，放到了transform步骤中。

transform的参数可以是X，这样得到的效果跟直接使用preprocessing.scale(X)相同。也可以不同，当传入的参数不同时，scale会仍然使用计算好的均值、方差，按照算法：（x-mean)/std 来对每个数据处理。

分为fit、transform两个步骤后，那么处理训练集X时，可以fit(X),transform(X)。后面处理测试集时，直接使用transform即可。

这可能就是sklearn.preprocessing的fit、transform两个接口的设计思路吧。

转载于:https://www.cnblogs.com/zc9527/p/6288155.html

sklearn数据预处理－scale相关推荐

Scikit-learn学习系列 | 2. sklearn数据预处理的相关方法
如有错误,恳请指出. 以下内容整理自专栏:博主"文火冰糖的硅基工坊"的专栏--机器学习与scikit-learn,对部分的文章的简化与整理. 文章目录 1. 数据预处理介绍 2. ...
sklearn数据预处理
@Author : By Runsen 文章目录预处理数据映射到统一分布标准化,或平均删除和方差缩放数据的正则化(正则化有时也叫归一化) 特征的二值化怎么设置阈值分类特征编码有丢失的分类 ...
Sklearn 数据预处理与特征工程 preprocessingimpute
数据预处理:目的是为了提高数据质量,使数据挖掘的过程更加有效,更加容易,同时也提高挖掘结果的质量.数据预处理的对象主要是清理其中的噪声数据.空缺数据和不一致数据. 特征工程:降低计算成本.提升模型上限 ...
[机器学习-sklearn]数据预处理要点总结
数据预处理要点总结 1. 为什么要数据预处理 2. 数据中存在缺失值 2.1 查看数据的完整性(missingno) 2.2 简单删除法 2.3 人工填写(filling manually) 2.4 ...
python机器学习库sklearn——数据预处理
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程主要操作内容标准化,也称去均值和方差按比例缩放将特征缩放至特定范围内缩放稀疏(矩阵)数据缩放有离群值的数据核矩阵的中心化非 ...
sklearn数据预处理（二）非线性转换
@R星校长第2关:非线性转换为什么要非线性转换. 映射到均匀分布. 映射到高斯分布. 为什么要非线性转换在上一关中已经提到,对于大多数数据挖掘算法来说,如果特征不服从或者近似服从标准正态分布(即 ...
sklearn 数据预处理1: StandardScaler
转载自:https://blog.csdn.net/u012609509/article/details/78554709 StandardScaler 作用:去均值和方差归一化.且是针对每一个特征维 ...
sklearn学习笔记（一）——数据预处理 sklearn.preprocessing
python sklearn 更多个人分类: Python 数据处理 sklearn 数据预处理 sklearn.preprocessing 查看全文 http://www.taodudu.cc/n ...
Python: sklearn库——数据预处理
Python: sklearn库 -- 数据预处理数据集转换之预处理数据: 将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化. 原因:数据集的标准化(服从均 ...

sklearn数据预处理－scale

sklearn数据预处理－scale相关推荐

最新文章

热门文章