数据预处理之中心化(零均值化)与标准化(归一化)
数据预处理之中心化(零均值化)与标准化(归一化)
目的:
通过中心化和标准化处理,最终得到均值为0,标准差为1的服从标准正态分布的数据。可以取消由于量纲不同、自身变异或者数值相差较大所引起的误差。
原理:
中心化(又叫零均值化):是指变量减去它的均值。其实就是一个平移的过程,平移后所有数据的中心是(0,0)。
标准化(又叫归一化): 是指数值减去均值,再除以标准差。
标准化(归一化)优点及其方法
标准化(归一化)两个优点:
1)归一化后加快了梯度下降求最优解的速度;
2)归一化有可能提高精度。
标准化(归一化)两种方法:
1)min-max标准化(Min-MaxNormalization)
也称为离差标准化,是对原始数据的线性变换,使结果值映射到 [0 - 1] 之间。转换函数如下:
X*=(X-Xmin)/(Xmax-Xmin);
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
2)Z-score标准化(0-1标准化)方法
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。
转化函数为:X*=(X-mean)/std;
数据预处理之中心化(零均值化)与标准化(归一化)相关推荐
- 数据预处理之标准化(Standardization)、归一化(Normalization)、中心化/零均值化(Zero-centered)
一.数据标准化的意义: 1.数据的量纲不同:数量级差别很大 经过标准化处理后,原始数据转化为无量纲化指标测评值,各指标值处于同一数量级别,可进行综合测评分析. 如果直接用原始指标值进行分析,就会突出数 ...
- 矩阵归一化、标准化、中心化/零均值化
import numpy as npX = np.random.randint(0,5,[4,4]).astype(float)print(X)X-=np.mean(X,axis=0)X/=np.st ...
- 归一化 (Normalization)、标准化 (Standardization)和中心化/零均值化 (Zero-centered)...
博主学习的源头,感谢!https://www.jianshu.com/p/95a8f035c86c 归一化 (Normalization).标准化 (Standardization)和中心化/零均值化 ...
- matlab 均值中心化,数据预处理之中心化(零均值化)与标准化(归一化)
在机器学习回归问题,以及训练神经网络过程中,通常需要对原始数据进行中心化(零均值化)与标准化(归一化)处理. 背景 在数据挖掘数据处理过程中,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响 ...
- 数据预处理之归一化/标准化/正则化/零均值化
数据预处理之归一化/标准化/正则化/零均值化 一.标准化(Standardization) 二.归一化(Normalization) 三,中心化/零均值化 (Zero-centered) 四.正则化 ...
- 归一化 (Normalization)、标准化 (Standardization)和中心/零均值化 (Zero-centered)
目录 一.概念 1.归一化(Normalization): 2.标准化(Standardization): 3.中心化/零均值化(zero-centered): 二.联系和差异: 三.标准化和归一化的 ...
- 数据预处理(上)之离群值处理、标准化
https://www.ricequant.com/community/topic/4271/ 一般的数据预处理中常提及到三类处理:去极值.标准化.中性化.这几个词想必大家都不陌生,也许存在疑问或有自 ...
- 中心化(又叫零均值化)和标准化(又叫归一化)
https://blog.csdn.net/GoodShot/article/details/80373372
- 数据预处理(part3)--缺失值处理和区间化
学习笔记,仅供参考,有错必纠 文章目录 处理缺失值 移除预测变量 预测变量间的相关性 区间化预测变量 处理缺失值 在很多时候,某些预测变虽会在一些样本上缺少观测.这些缺失值可能是结构性缺失,如一个男子 ...
最新文章
- 零基础参加java培训如何学习
- IE8 CSS HACK 兼容集合
- 2017,SAP向云看齐
- linux 环境变量 export PATH和PATH有什么区别?
- J2EE进阶(十五)MyEclipse反向工程实现从数据库反向生成实体类之Hibernate方式[申明:来源于网络]...
- Linux高性能网络:协程系列08-协程实现之调度器
- 关于利用IBERT核对GTX收发器板级测试的原理与过程详解
- 4.2.#{}和${}的用法
- secureCRT及secureFX安装注册和secureFX中出现中文乱码的处理方式
- kali linux切换更新源_KALI更新源2020版(永久实用)
- apollo权限管理
- hive if语句_Hive实践(高阶篇)
- J2EE (十) Java中多种方式实现单例模式
- [AppScan深入浅出]修复漏洞:会话标识未更新
- python库参考_Python库参考手册(Python Library Reference)
- mysql 题库_题库Mysql表设计案例
- Python名词解释
- pmp项目管理的优先级解决方法
- wps教鞭功能_三个PPT2010新增实用功能
- 什么是互联网运营?运营小白应该了解的理论基础