数据预处理之中心化(零均值化)与标准化(归一化)

目的:
通过中心化和标准化处理,最终得到均值为0,标准差为1的服从标准正态分布的数据。可以取消由于量纲不同、自身变异或者数值相差较大所引起的误差。

原理:
中心化(又叫零均值化):是指变量减去它的均值。其实就是一个平移的过程,平移后所有数据的中心是(0,0)。
标准化(又叫归一化): 是指数值减去均值,再除以标准差。

标准化(归一化)优点及其方法

标准化(归一化)两个优点:
1)归一化后加快了梯度下降求最优解的速度;
2)归一化有可能提高精度。

标准化(归一化)两种方法:
1)min-max标准化(Min-MaxNormalization)
也称为离差标准化,是对原始数据的线性变换,使结果值映射到 [0 - 1] 之间。转换函数如下:
X*=(X-Xmin)/(Xmax-Xmin);
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
2)Z-score标准化(0-1标准化)方法
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。
转化函数为:X*=(X-mean)/std;

数据预处理之中心化(零均值化)与标准化(归一化)相关推荐

  1. 数据预处理之标准化(Standardization)、归一化(Normalization)、中心化/零均值化(Zero-centered)

    一.数据标准化的意义: 1.数据的量纲不同:数量级差别很大 经过标准化处理后,原始数据转化为无量纲化指标测评值,各指标值处于同一数量级别,可进行综合测评分析. 如果直接用原始指标值进行分析,就会突出数 ...

  2. 矩阵归一化、标准化、中心化/零均值化

    import numpy as npX = np.random.randint(0,5,[4,4]).astype(float)print(X)X-=np.mean(X,axis=0)X/=np.st ...

  3. 归一化 (Normalization)、标准化 (Standardization)和中心化/零均值化 (Zero-centered)...

    博主学习的源头,感谢!https://www.jianshu.com/p/95a8f035c86c 归一化 (Normalization).标准化 (Standardization)和中心化/零均值化 ...

  4. matlab 均值中心化,数据预处理之中心化(零均值化)与标准化(归一化)

    在机器学习回归问题,以及训练神经网络过程中,通常需要对原始数据进行中心化(零均值化)与标准化(归一化)处理. 背景 在数据挖掘数据处理过程中,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响 ...

  5. 数据预处理之归一化/标准化/正则化/零均值化

    数据预处理之归一化/标准化/正则化/零均值化 一.标准化(Standardization) 二.归一化(Normalization) 三,中心化/零均值化 (Zero-centered) 四.正则化 ...

  6. 归一化 (Normalization)、标准化 (Standardization)和中心/零均值化 (Zero-centered)

    目录 一.概念 1.归一化(Normalization): 2.标准化(Standardization): 3.中心化/零均值化(zero-centered): 二.联系和差异: 三.标准化和归一化的 ...

  7. 数据预处理(上)之离群值处理、标准化

    https://www.ricequant.com/community/topic/4271/ 一般的数据预处理中常提及到三类处理:去极值.标准化.中性化.这几个词想必大家都不陌生,也许存在疑问或有自 ...

  8. 中心化(又叫零均值化)和标准化(又叫归一化)

    https://blog.csdn.net/GoodShot/article/details/80373372

  9. 数据预处理(part3)--缺失值处理和区间化

    学习笔记,仅供参考,有错必纠 文章目录 处理缺失值 移除预测变量 预测变量间的相关性 区间化预测变量 处理缺失值 在很多时候,某些预测变虽会在一些样本上缺少观测.这些缺失值可能是结构性缺失,如一个男子 ...

最新文章

  1. 零基础参加java培训如何学习
  2. IE8 CSS HACK 兼容集合
  3. 2017,SAP向云看齐
  4. linux 环境变量 export PATH和PATH有什么区别?
  5. J2EE进阶(十五)MyEclipse反向工程实现从数据库反向生成实体类之Hibernate方式[申明:来源于网络]...
  6. Linux高性能网络:协程系列08-协程实现之调度器
  7. 关于利用IBERT核对GTX收发器板级测试的原理与过程详解
  8. 4.2.#{}和${}的用法
  9. secureCRT及secureFX安装注册和secureFX中出现中文乱码的处理方式
  10. kali linux切换更新源_KALI更新源2020版(永久实用)
  11. apollo权限管理
  12. hive if语句_Hive实践(高阶篇)
  13. J2EE (十) Java中多种方式实现单例模式
  14. [AppScan深入浅出]修复漏洞:会话标识未更新
  15. python库参考_Python库参考手册(Python Library Reference)
  16. mysql 题库_题库Mysql表设计案例
  17. Python名词解释
  18. pmp项目管理的优先级解决方法
  19. wps教鞭功能_三个PPT2010新增实用功能
  20. 什么是互联网运营?运营小白应该了解的理论基础

热门文章

  1. grequests并发之小试牛刀
  2. c#利用log4记录日志
  3. 白盒与黑盒测试什么区分
  4. python的seaborn用于可视化分析_Python数据分析-可视化“大佬”之Seaborn
  5. 安卓 获取屏幕坐标(点击屏幕获取坐标)
  6. 轻松学Pytorch – 人脸五点landmark提取网络训练与使用
  7. Word 2016中给公式自动编号
  8. 堆排序、归并排序、快速排序
  9. 利用Office,将多个doc文档合并为一个文件,文档合并
  10. Mysql迁移到GaussDb_GaussDB T 使用DUMP/LOAD导出导入迁移备份数据