论文合作、课题指导请联系QQ2279055353

数据预处理，是指在使用学习算法分析数据之前，对原始数据集作适当的变换，使得变换后的数据更适合学习算法。一般的机器学习算法要求对数据集做标准化的预处理。在实际处理时，我们经常忽略数据的分布形状，而只是对数据作中心化变换，即，每个变量的值减去其均值。这样，中心化之后的数据，变量的均值是0。

sklearn.preprocessing 包

Python的sklearn.preprocessing包提供了标准化的通用函数和变换类。

scale()函数

sklearn.preprocessing包的scale()函数提供了一个快速简单的标准化操作。

from sklearn import preprocessing
import numpy as np
X_train = np.array([[ 1., -1.,  2.],[ 2.,  0.,  0.],[ 0.,  1., -1.]])
X_scaled = preprocessing.scale(X_train)
X_scaled

缩放数据成零均值、单位方差。

X_scaled.mean(axis=0)
X_scaled.std(axis=0)

StandardScaler类执行Transformer API, 在训练集上计算均值与标准差，可以在后面的检验集上进行相同的变换，因此，该类适合用于管道函数。

scaler = preprocessing.StandardScaler().fit(X_train)
scaler.mean_
scaler.scale_
scaler.transform(X_train)
X_test = [[-1., 1., 0.]]
scaler.transform(X_test)

缩放特征

另外一种标准化方法，是把特征缩放到一个指定的范围内，通常在[0, 1]之内。

 X_train = np.array([[ 1., -1.,  2.],[ 2.,  0.,  0.],[ 0.,  1., -1.]])
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
min_max_scaler.scale_
min_max_scaler.min_
X_test = np.array([[-3., -1.,  4.]])
X_test_minmax = min_max_scaler.transform(X_test)

缩放稀疏数据

如果数据是稀疏的，即，有很多零值，那么中心化会破坏数据的稀疏结构。MaxAbsScaler(), maxabs_scale()函数特别被设计用来缩放稀疏数据。

缩放带有离群点的数据

如果数据里包括离群点(outliers), 通用方法效果不好，这是因为离群点的影响。robust_scale(), RobustScaler()函数使用更稳健的估计量。

数据预处理第1讲：标准化相关推荐

【机器学习基础】Python数据预处理：彻底理解标准化和归一化
数据预处理数据中不同特征的量纲可能不一致,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,因此,需要对数据按照一定比例进行缩放,使之落在一个特定的区域,便于进行综合分析. 常用的方法有两 ...
数据归一化处理方法_数据预处理：归一化和标准化
1. 概述数据的归一化和标准化是特征缩放(feature scaling)的方法,是数据预处理的关键步骤.不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间 ...
数据预处理 - 归一化与Z-Score标准化
归一化归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量, 在多种计算中都经常用到这种方法.归一化方法有两种形式,一种是把数变为(0,1)之间的小数,一种是把有量 ...
mapstd matlab详解,Matlab中的数据预处理-归一化(mapminmax)与标准化(mapstd)
一.mapminmax Process matrices by mapping row minimum and maximum values to [-1 1] 意思是将矩阵的每一行处理成[-1,1] ...
c 语言min max 归一化,数据预处理之归一化和标准化
对于数据的预处理分在思想上称之为归一化以及标准化(normalization). 首先将归一化/ 标准化,就是将数据缩放(映射)到一个范围内,比如[0,1],[-1,1],还有在图形处理中将颜色处理为 ...
数据预处理第6讲：正态变换
论文合作.课题指导请联系QQ2279055353 Box-Cox and Yeo-Johnson变换可以将来自不同分布的数据映射到正态分布.下面的例子将这两种变换应用到6种不同的概率分布数据:Logn ...
数据预处理-归一化与z-score标准化
归一化: 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量. 在多种计算中都经常用到这种方法. 线性函数转换: y=(x-MinValue)/(MaxValue- ...
深度之眼Pytorch打卡（九）：Pytorch数据预处理——预处理过程与数据标准化（transforms过程、Normalize原理、常用数据集均值标准差与数据集均值标准差计算）
前言前段时间因为一些事情没有时间或者心情学习,现在两个多月过去了,事情结束了,心态也调整好了,所以又来接着学习Pytorch.这篇笔记主要是关于数据预处理过程.数据集标准化与数据集均值标准差计算 ...
数据挖掘分析之数据预处理
目录为什么要进行数据预处理什么是数据预处理如何进行数据预处理 min-max规范化 Z-score标准化小数定标规范化正态变换分类-标志变量分类-数值变量连续数值分段删除无用变量删 ...
数据预处理之归一化/标准化/正则化/零均值化
数据预处理之归一化/标准化/正则化/零均值化一.标准化(Standardization) 二.归一化(Normalization) 三,中心化/零均值化 (Zero-centered) 四.正则化 ...

数据预处理第1讲：标准化