通常在进行机器学习的实践时,往往需要预先处理数据。数据处理时常常需要将数据转换为某种符合要求的形式或者转化为某个特定分布的形式。这种操作通常称为数据的无量纲化

无量纲化的处理可以在以梯度和矩阵为核心的算法应用中提高算法的求解速度,尤其是在使用了梯度下降的方法时。在距离类模型(例如k近邻算法)中可以帮助我们提高模型的精度。

数据的无量纲化可以是线性的也可以是非线性的。

线性的无量纲化包括中心化处理和缩放处理

中心化的本质是让所有记录减去一个固定值,即让样本数据平移到某个位置。缩放的本质是通过除以一个固定值,将数据固定在某个范围内,取对数也算一种缩放处理。

preprocessing.StandardScaler方法
当数据(x)按均值(μ)中心化后,再按标准差(σ)缩放,数据就会服从均值为0,方差为1的正态分布(即标准正态分布),这个过程叫做数据标准化 。

from sklearn.prepocessing import StandardScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = StandardScaler().fit_transform(data)

其他数据标准化方法

Zero-mean normalization
公式:
X = ( x − μ ) / σ

这就是均值方差归一化,这样处理后的数据将符合标准正态分布,常用在一些通过距离得出相似度的聚类算法中,比如 K-means。

Min-max normalization
公式: X = ( x − X m i n ) / ( x − X m a x )

min-max 归一化的手段是一种线性的归一化方法,它的特点是不会对数据分布产生影响。不过如果你的数据的最大最小值不是稳定的话,你的结果可能因此变得不稳定。min-max 归一化在图像处理上非常常用,因为大部分的像素值范围是 [0, 255]。

Non-linear normaliztions
非线性的归一化函数包含 log,exp,arctan, sigmoid等等。用非线性归一化的函数取决于你的输入数据范围以及你期望的输出范围。比如 log() 函数在 [0, 1] 区间上有很强的区分度,arctan() 可以接收任意实数病转化到区间,sigmoid 接收任意实数并映射到 (0, 1)。

使用sklearn库进行数据标准化处理相关推荐

  1. python归一化sklearn_用sklearn进行对数据标准化、归一化以及将数据还原详解

    如何用sklearn进行对数据标准化.归一化以及将数据还原 在对模型训练时,为了让模型尽快收敛,一件常做的事情就是对数据进行预处理. 这里通过使用sklearn.preprocess模块进行处理. 一 ...

  2. python实现数据恢复_使用sklearn进行对数据标准化、归一化以及将数据还原的方法...

    在对模型训练时,为了让模型尽快收敛,一件常做的事情就是对数据进行预处理. 这里通过使用sklearn.preprocess模块进行处理. 一.标准化和归一化的区别 归一化其实就是标准化的一种方式,只不 ...

  3. 使用Sklearn库学习数据预处理和特征工程

    目录 1,概述 1.1,数据预处理和特征工程 1.2,sklearn中的数据预处理和特征工程 2,数据预处理 Preprocessing & Impute 2.1,数据无量纲化 2.2,缺失值 ...

  4. sklearn库三种标准化与反标准化方法介绍

    在数学建模时将数据标准化往往是不可避免的一个步骤,本文将介绍sklearn库自带的三种最常见的标准化方法:Z-score标准化.0-1归一化.RobustScaler鲁棒化,以及他们的反归一化.话不多 ...

  5. Python初探——sklearn库中数据预处理函数fit_transform()和transform()的区别

    敲<Python机器学习及实践>上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下: ...

  6. 使用sklearn进行对数据标准化、归一化以及将数据还原

    在对模型训练时,为了让模型尽快收敛,一件常做的事情就是对数据进行预处理. 这里通过使用sklearn.preprocess模块进行处理. 一.标准化和归一化的区别 归一化其实就是标准化的一种方式,只不 ...

  7. 运用最小二乘法和sklearn库分析身高体重数据

    文章目录 一.使用Excel分析身高体重 二.用Jupyter Notebook编程使用最小二乘法分析身高体重 三.运用Sklearn库,导入数据模拟. 四.参考 一.使用Excel分析身高体重 (这 ...

  8. Python: sklearn库——数据预处理

    Python: sklearn库 -- 数据预处理 数据集转换之预处理数据:       将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化.       原因:数据集的标准化(服从均 ...

  9. sklearn.preprocessing下的数据标准化(scale、MinMaxScaler)

    文章目录 scale MinMaxScaler scale from sklearn.preprocessing import scale Center to the mean and compone ...

最新文章

  1. Windows 10 技术预览
  2. android恶意代码检测报告,用机器学习检测Android恶意代码
  3. django view
  4. apriori算法c++_关联分析——基于Apriori算法实现
  5. JavaMail发送邮件的笔记及Demo
  6. Emlog插件:右下角添加不同时段问候语1.2
  7. 自己开发的一款基于PagedDataSource的datalist repeater控件,只需要在源程序中添加三行代码,即可实现通用分页
  8. DSP TMS320C6657中FFT函数的调用与具体使用方法
  9. STM32CUBEIDE使用说明
  10. QT实现图片的滚轮缩放、框选放大、拖拽移动
  11. UnityWebPlayer使用(3) WinForm中屏蔽右键菜单
  12. 在家想远程公司电脑?Python+微信一键连接!
  13. FPGA并行计算可编程芯片
  14. DBC文件创建环境变量,细节拉满
  15. Spring+Hibernate双数据源测试Mysql集群读写分离(转自http://blog.csdn.net/hzw2312/article/details/9083519)
  16. python找出素数_python找素数
  17. Word2013写CSDN博客
  18. Ubuntu是现代(堂)吉诃德的痴想吗?
  19. oracle和toad,oracle和toad
  20. Sovit3D智慧园区:数字孪生园区大屏一体化管理平台

热门文章

  1. Ext4 vs XFS——你应该使用哪个文件系统
  2. Java简单题-----计算一元二次方程的根
  3. Go-数字签名详解与Rsa数字签名代码
  4. Excel一键将批注内容显示,替换单元格内容
  5. 2016年川师大软件工程本科生博客地址列表
  6. 国家气象局天气预报城市及城市代码
  7. 机器学习 --- PCA
  8. PCA,LDA的C++实现(内附代码~)
  9. c语言中char16_t是什么类型,错误[Pe167]:类型为“uint16_t *”的参数与类型为“unsigned char *”的参数不兼容...
  10. 百田游戏策划面试经验