论文合作、课题指导请联系QQ2279055353

数据预处理,是指在使用学习算法分析数据之前,对原始数据集作适当的变换,使得变换后的数据更适合学习算法。一般的机器学习算法要求对数据集做标准化的预处理。在实际处理时,我们经常忽略数据的分布形状,而只是对数据作中心化变换,即,每个变量的值减去其均值。这样,中心化之后的数据,变量的均值是0。

sklearn.preprocessing 包

Python的sklearn.preprocessing包提供了标准化的通用函数和变换类。

scale()函数

sklearn.preprocessing包的scale()函数提供了一个快速简单的标准化操作。

from sklearn import preprocessing
import numpy as np
X_train = np.array([[ 1., -1.,  2.],[ 2.,  0.,  0.],[ 0.,  1., -1.]])
X_scaled = preprocessing.scale(X_train)
X_scaled


缩放数据成零均值、单位方差。

X_scaled.mean(axis=0)
X_scaled.std(axis=0)

StandardScaler类执行Transformer API, 在训练集上计算均值与标准差,可以在后面的检验集上进行相同的变换,因此,该类适合用于管道函数。

scaler = preprocessing.StandardScaler().fit(X_train)
scaler.mean_
scaler.scale_
scaler.transform(X_train)
X_test = [[-1., 1., 0.]]
scaler.transform(X_test)

缩放特征

另外一种标准化方法,是把特征缩放到一个指定的范围内,通常在[0, 1]之内。

 X_train = np.array([[ 1., -1.,  2.],[ 2.,  0.,  0.],[ 0.,  1., -1.]])
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
min_max_scaler.scale_
min_max_scaler.min_
X_test = np.array([[-3., -1.,  4.]])
X_test_minmax = min_max_scaler.transform(X_test)

缩放稀疏数据

如果数据是稀疏的,即,有很多零值,那么中心化会破坏数据的稀疏结构。MaxAbsScaler(), maxabs_scale()函数特别被设计用来缩放稀疏数据。

缩放带有离群点的数据

如果数据里包括离群点(outliers), 通用方法效果不好,这是因为离群点的影响。robust_scale(), RobustScaler()函数使用更稳健的估计量。

数据预处理第1讲:标准化相关推荐

  1. 【机器学习基础】Python数据预处理:彻底理解标准化和归一化

    数据预处理 数据中不同特征的量纲可能不一致,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,因此,需要对数据按照一定比例进行缩放,使之落在一个特定的区域,便于进行综合分析. 常用的方法有两 ...

  2. 数据归一化处理方法_数据预处理:归一化和标准化

    1. 概述 数据的归一化和标准化是特征缩放(feature scaling)的方法,是数据预处理的关键步骤.不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间 ...

  3. 数据预处理 - 归一化与Z-Score标准化

    归一化 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量, 在多种计算中都经常用到这种方法.归一化方法有两种形式,一种是把数变为(0,1)之间的小数,一种是把有量 ...

  4. mapstd matlab详解,Matlab中的数据预处理-归一化(mapminmax)与标准化(mapstd)

    一.mapminmax Process matrices by mapping row minimum and maximum values to [-1 1] 意思是将矩阵的每一行处理成[-1,1] ...

  5. c 语言min max 归一化,数据预处理之归一化和标准化

    对于数据的预处理分在思想上称之为归一化以及标准化(normalization). 首先将归一化/ 标准化,就是将数据缩放(映射)到一个范围内,比如[0,1],[-1,1],还有在图形处理中将颜色处理为 ...

  6. 数据预处理第6讲:正态变换

    论文合作.课题指导请联系QQ2279055353 Box-Cox and Yeo-Johnson变换可以将来自不同分布的数据映射到正态分布.下面的例子将这两种变换应用到6种不同的概率分布数据:Logn ...

  7. 数据预处理-归一化与z-score标准化

    归一化: 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量. 在多种计算中都经常用到这种方法. 线性函数转换: y=(x-MinValue)/(MaxValue- ...

  8. 深度之眼Pytorch打卡(九):Pytorch数据预处理——预处理过程与数据标准化(transforms过程、Normalize原理、常用数据集均值标准差与数据集均值标准差计算)

    前言   前段时间因为一些事情没有时间或者心情学习,现在两个多月过去了,事情结束了,心态也调整好了,所以又来接着学习Pytorch.这篇笔记主要是关于数据预处理过程.数据集标准化与数据集均值标准差计算 ...

  9. 数据挖掘分析之数据预处理

    目录 为什么要进行数据预处理 什么是数据预处理 如何进行数据预处理 min-max规范化 Z-score标准化 小数定标规范化 正态变换 分类-标志变量 分类-数值变量 连续数值分段 删除无用变量 删 ...

  10. 数据预处理之归一化/标准化/正则化/零均值化

    数据预处理之归一化/标准化/正则化/零均值化 一.标准化(Standardization) 二.归一化(Normalization) 三,中心化/零均值化 (Zero-centered) 四.正则化 ...

最新文章

  1. Revit二次开发之“PromptForFamilyInstancePlacement()函数动态拖动/鼠标跟随”效果
  2. Java8 - 自定义实现体会Future的原理
  3. 三十一、R语言基本语法(上篇)
  4. 科学数字_七年级数学上册:科学记数法、有效数字记住这点中考分可定拿得到...
  5. 时间复杂度为m+n,的一种模式匹配,适合子串不是很长的匹配
  6. TCP/IP 详解 卷一 协议 (第二版)翻译问题(第一周)2018
  7. 动态规划法求最大字段和时间复杂度_面试必备——手撕代码(1)“最大子序列和”...
  8. 卡尔曼滤波,互补滤波,“Tsinghua”滤波
  9. 小爱同学指令大全_小爱同学有趣的命令分享给大家
  10. 墨墨背单词mysql_GitHub - flymysql/WeChat-applets: 微信小程序小鸡单词
  11. 计算机组成原理MIPS
  12. 私活利器:Java企业级快速开发框架——若依 前后端分离版本编译
  13. 字节跳动开源隐私合规检测工具appshark
  14. 小孩上了半年小学,针对老师的评语总结,如何对症优化教育培养策略?chatGPT搜了一下,AI震惊了我
  15. 苹果和android充电线一根,非常实用!一根充电线,同时搞定苹果、安卓、Type-c,出门带它就够了...
  16. Python图像识别-Opencv05 色彩
  17. ringbuffer的特别之处
  18. 特征选择的几种常见方法
  19. (翻译)2016美国数学建模MCM D题 翻译:测量协会信息网络的演变和影响
  20. Maki微积分习题集理解摘记

热门文章

  1. USACO 4.3.1 Buy Low, Buy Lower
  2. mybatis 3.2.3 maven dependency pom.xml 配置
  3. .net学习笔记之协变和抗变(原创)
  4. pku2060 Taxi Cab Scheme
  5. 马化腾:互联网企业竞争要注重什么
  6. H3C ospf与nat转换
  7. deepin linux 安装packet tracer 7.0
  8. Redhat6.5中搭建Postfix邮件系统
  9. python 2 版本中的input() 和 raw_input() 函数的比较
  10. ubuntu安装配置ssmtp