简介:
意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。
原理:数据标准化:是指数值减去均值,再除以标准差;
数据中心化:是指变量减去它的均值。
目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。

在回归问题和一些机器学习算法中,以及训练神经网络的过程中,还有PCA等通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction)处理和标准化(Standardization或Normalization)处理。

  • 目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。计算过程由下式表示:x′=x−μσx^{'}=\frac{x-\mu }{\sigma }
  • 原因:在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。很显然,这些特征的量纲和数值得量级都是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。这样,在学习参数的时候,不同特征对参数的影响程度就一样了。简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。

下图是二维的示例:

  • 左图表示的是原始数据
  • 中间的是中心化后的数据,可以看出就是一个平移的过程,平移后中心点是(0,0)。同时中心化后的数据对向量也容易描述,因为是以原点为基准的。
  • 右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度),而没有处理之前的数据是不同的尺度标准。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

参考:https://www.zhihu.com/question/37069477

数据的中心化和标准化相关推荐

  1. 数据的中心化和标准化处理

    1.意义:数据中心化和标准化在回归分析中是取消由于量纲不同.自身变异或者数值相差较大所引起的误差. 注解: 单位具有实际的物理意义,而量纲则不一定.比如说焦耳,表示能量,具有实际物理意义就是单位(同时 ...

  2. R语言入门(22)-数据的中心化与标准化

    数据中心化是指数据集中的各项数据减去数据集的均值. > x <- c(2,3,4,4,4,5,34) > mean(x) [1] 8 > x-mean(x) [1] -6 -5 ...

  3. 主成分分析——数据中心化与标准化处理

    在主成分分析法中,一般来说,我们进行的第一步应该是对所有样本数据进行中心化,甚至是标准化处理.那么我们为什么要对样本数据进行中心化和标准化处理呢? 在一般的实际问题当中,我们要分析的数据一般是多个维度 ...

  4. [机器学习]-[数据预处理]-中心化 缩放 KNN(二)

    上次我们使用精度评估得到的成绩是 61%,成绩并不理想,再使 recall 和 f1 看下成绩如何? 首先我们先了解一下 召回率和 f1. 真实结果 预测结果 预测结果   正例 反例 正例 TP 真 ...

  5. 机器学习中之规范化,中心化,标准化,归一化,正则化,正规化

    一.归一化,标准化和中心化 广义的标准化: (1)离差标准化(最大最小值标准化) (2)标准差标准化 (3)归一化标准化 (4)二值化标准化 (5)独热编码标准化 归一化 (Normalization ...

  6. 数据去中心化的场景与流程

    规范化数据模型是传统关系型数据库设计的核心,它为如何管理关系型数据提供了最佳设计理念,但同时也限制了数据查询的灵活性和高效率. 在云计算.大数据等新技术的带动下,越来越多的企业需要对结构化的数据进行查 ...

  7. 归一化,去中心化,标准化和欧拉变换

    1.Normalization 归一化和标准化没有特别的分界 在图像里的归一化一般是将图像的灰度值归一化到0-1或者0-255. 在机器学习中一般对数据标准化为正态分布,均值为0,方差为1. 去中心化 ...

  8. 机器学习:样本去中心化目的

    作者:Spark 链接:https://www.zhihu.com/question/37069477/answer/132387124 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商 ...

  9. 用spss进行数据的标准化处理_什么是数据标准化、中心化、归一化?SPSS又如何实现?...

    在统计分析.数据挖掘过程中,经常性的接触到数据的标准化处理.数据中心化处理,还有数据归一化处理,那么它们各自是什么意思?如何通过SPSS软件实现呢? 大型数据分析项目中,数据来源不同,量纲及量纲单位不 ...

最新文章

  1. 修行的心态,积极的态度
  2. 将HTML导出生成word文档
  3. CountDownLatch实时通信
  4. CTF盲水印工具安装(排雷)
  5. 编写程序计算交错序列_外文翻译 | FlyMC:高度可扩展地测试分布式系统中的复杂交错...
  6. 并联系统的失效率公式推导_电容的串并联计算方法
  7. 再见,Postman...
  8. 电脑开机3秒就重启循环_U盘如何变成万能维修工具?分享3款PE制作软件,小白秒变电脑高手...
  9. 使用工作单元UnitOfWork实现事务
  10. 7天学会python_7天学会Python最佳可视化工具Seaborn(五):结构化展示多维数据
  11. 数学知识点大集合!有了它学数学真的很简单!
  12. 在电脑搭建oracle服务器端,oracle 服务器端搭建(C#开发环境)
  13. Mac配置腾讯云服务器SSH秘钥免登陆
  14. 不出门也能拍好证件照
  15. 修复Lvgl的roller控件点击位置向上偏移的问题
  16. 网刻工具大全:四款软件优缺评析(转)
  17. 各抢票软件的优势,抢火车票成功率高的APP
  18. 常用Intent合集 Android
  19. IEEE格式如何使用在线参考文献生成器
  20. mac重启php-fpm

热门文章

  1. VTK:Disk用法实战
  2. OpenCV信息流Alpha遮罩
  3. OpenGL 延迟着色法Deferred Shading
  4. C++拷贝构造函数调用时机
  5. C++字符串类型转化
  6. 图文了解 Kafka 的副本复制机制
  7. ibatis中多表联接查询
  8. Virtaulbox虚拟机添加磁盘
  9. python给变量赋值范围_关于lambda:在Python中将变量赋值给本地函数范围
  10. python求斐波那契数列第n个数及前n项和_使用python求斐波那契数列中第n个数的值示例代码...