对数据按列属性进行scale处理后,每列的数据均值变成0,标准差变为1。可通过下面的例子加深理解:

from sklearn import preprocessing
import numpy as np

测试数据:

X = np.array([[1., -1., 2.], [2., 0., 0.], [0., 1., -1.]])

使用sklearn进行scale处理时,有两种方式可供选择。

方式1:直接使用preprocessing.scale()方法:

X_scaled = preprocessing.scale(X)

得到的X_scaled中每列的均值为0,方差为1

方式2:使用StandardScaler类来处理

scaler = preprocessing.StandardScaler().fit(X)

得到的scaler会计算得出每个属性列的均值、方差,但并没有得出最终的数据处理结果。要得到X的scale结果,可以继续执行transform方法:

X_scaled = scaler.transform(X)

这里刚开始学习时,会有疑问:为什么transform还需要传一个X参数?

StandardScaler将数据处理分为fit、transform两步。在fit中,仅仅计算出数据预处理算法的一些参数。比如这里主要计算出来每个列属性的均值、方差。但并没有通过算法:(x-mean)/std 对每个数据进行处理,真正的数据处理,放到了transform步骤中。

transform的参数可以是X,这样得到的效果跟直接使用preprocessing.scale(X)相同。也可以不同,当传入的参数不同时,scale会仍然使用计算好的均值、方差,按照算法:(x-mean)/std 来对每个数据处理。

分为fit、transform两个步骤后,那么处理训练集X时,可以fit(X),transform(X)。后面处理测试集时,直接使用transform即可。

这可能就是sklearn.preprocessing的fit、transform两个接口的设计思路吧。

转载于:https://www.cnblogs.com/zc9527/p/6288155.html

sklearn数据预处理-scale相关推荐

  1. Scikit-learn学习系列 | 2. sklearn数据预处理的相关方法

    如有错误,恳请指出. 以下内容整理自专栏:博主"文火冰糖的硅基工坊"的专栏--机器学习与scikit-learn,对部分的文章的简化与整理. 文章目录 1. 数据预处理介绍 2. ...

  2. sklearn数据预处理

    @Author : By Runsen 文章目录 预处理数据 映射到统一分布 标准化,或平均删除和方差缩放 数据的正则化(正则化有时也叫归一化) 特征的二值化 怎么设置阈值 分类特征编码 有丢失的分类 ...

  3. Sklearn 数据预处理与特征工程 preprocessingimpute

    数据预处理:目的是为了提高数据质量,使数据挖掘的过程更加有效,更加容易,同时也提高挖掘结果的质量.数据预处理的对象主要是清理其中的噪声数据.空缺数据和不一致数据. 特征工程:降低计算成本.提升模型上限 ...

  4. [机器学习-sklearn]数据预处理要点总结

    数据预处理要点总结 1. 为什么要数据预处理 2. 数据中存在缺失值 2.1 查看数据的完整性(missingno) 2.2 简单删除法 2.3 人工填写(filling manually) 2.4 ...

  5. python机器学习库sklearn——数据预处理

    全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 主要操作内容 标准化,也称去均值和方差按比例缩放 将特征缩放至特定范围内 缩放稀疏(矩阵)数据 缩放有离群值的数据 核矩阵的中心化 非 ...

  6. sklearn数据预处理(二)非线性转换

    @R星校长 第2关:非线性转换 为什么要非线性转换. 映射到均匀分布. 映射到高斯分布. 为什么要非线性转换 在上一关中已经提到,对于大多数数据挖掘算法来说,如果特征不服从或者近似服从标准正态分布(即 ...

  7. sklearn 数据预处理1: StandardScaler

    转载自:https://blog.csdn.net/u012609509/article/details/78554709 StandardScaler 作用:去均值和方差归一化.且是针对每一个特征维 ...

  8. sklearn学习笔记(一)——数据预处理 sklearn.preprocessing

    python sklearn 更多 个人分类: Python 数据处理 sklearn 数据预处理 sklearn.preprocessing 查看全文 http://www.taodudu.cc/n ...

  9. Python: sklearn库——数据预处理

    Python: sklearn库 -- 数据预处理 数据集转换之预处理数据:       将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化.       原因:数据集的标准化(服从均 ...

最新文章

  1. 【CVPR 2020】CVPR2020 最新论文下载!看计算机视觉2020在研究什么?
  2. tensorflow 最小二乘拟合详细代码注释
  3. 字典数组根据某key排序
  4. 【总结】 Lucas定理
  5. C++之命名空间探究
  6. 使用ajaxfileupload.js上传文件成功之后,没有执行success方法
  7. 上班族中流行以貌取人 汉王人脸通变普及
  8. C# Color颜色RGB对照表
  9. 基于YOLO3的人数统计程序
  10. 大三了,我真的好迷茫
  11. 狂神ajax,Ajax---狂神说
  12. Java 多线程学习(4)浅析 LongAdder、LongAccumulator 和 Striped64 的底层实现原理
  13. 阿里云-邮件推送 配置 购买域名 配置域名
  14. python 类 实例_Python类的实例详解
  15. cdh3.6.2集成zeppelin0.10.1及简单使用
  16. mysql java驱动源码Connector/J编译
  17. PC机之间串口通信传输文件
  18. 随笔小记-12.31
  19. 经典文献阅读之--Cam2BEV
  20. ghost里html文件怎么打开,Ghost配置5——添加归档页面

热门文章

  1. pcb成型板aoi检测_一种PCB板的AOI检测控制系统的制作方法
  2. java中strictfp关键字,java strictfp关键字用法大全详解
  3. php根据键值去除数组中的某个元素_php删除数组中指定值的元素的几种方法
  4. 一招彻底帮你搞定HashMap源码,成长路线图
  5. div中有元素刷新不出来_DNF:神话罐子来了!500个不渝材料就能换,但你刷新不出来...
  6. 华科与浙大计算机学院,计算机最强14所高校排名,清华第2,浙大第4,南大第6,华科第10...
  7. linux查看hdfs副本数量,文件副本数量问题,设置的dfs.replication没有生效
  8. mysql 1280_mysql基础
  9. 如何做好网络推广“放大招”,教你如何更快速的给新上线网站关键词排名?...
  10. 网络营销越来越“内卷”,SEO优化时需注意什么细节?