本文介绍统计学中标准化与归一化方法,包括计算公式和应用场景,以及两者的差异。

两者计算公式

标准化(Standardization) 和 归一化(normalization) 是数据缩放的两种方法.

标准化缩放数据集为均值为0,标准化差为1,使用下面的公式:

xnew_{new}new​ = (xi_{i}i​ – μ) / σ

  • xi_{i}i​ 是数据集中第i个值
  • μ 为样本均值
  • σ 样本标准差

归一化缩放数据集,让每个元素落在0~1之间,使用下面公式:

xnew_{new}new​ = (xi_{i}i​ – xmin_{min}min​) / (xmax_{max}max​ – xmin_{min}min​)

  • xi_{i}i​ 是数据集中第i个值
  • xmin_{min}min​ 为数据集最小值
  • xmin_{min}min​ 为数据集最大值

R 计算示例

首先定义数据集data, 然后利用内置的scale函数进行标准化,并通过mean 和 sd 函数进行验证。
scale返回矩阵,通过as.vector转为向量。并自定义norm函数进行归一化计算。

data <- c(13, 16, 19, 22, 23, 38, 47, 56, 58, 63, 65, 70, 71)sd_data <- as.vector(scale(data))
sd_datamean(sd_data)
# 0
sd(sd_data)
# 1norm <- function(data){mi <- min(data)ma <- max(data)(data - mi) / (ma - mi)
}data_norm <- norm(data)
data_norm

两者的应用场景

当我们进行数据分析时,可能会涉及多个变量,它们采用不同的单位进行表示,我们希望每个变量都有相同的范围,此时可以使用归一化方法。这样可以避免某个变量产生过度影响,特别它们使用不同的单位进行衡量(如一个变量使用厘米,另一个变量使用毫米)。

而标准化数据是为了知道每个值偏离均值多少个标准差。举例,有500个学生成绩,如果希望了解每个成绩偏离均值程度,我们使用标准化方法处理原始数据;假设某个标准分数为1.26,表示该学生的考试成绩比平均考试成绩高出1.26个标准差。

两者如何选择,除了应用场景,我们也要了解两者差异:

  • 归一化后数据的值在0~1之间
  • 标准化数据集后,均值为0,标准差为1,但最大值和最小值没有特定上下限

标准化与归一化的差异相关推荐

  1. 标准化和归一化,请勿混为一谈,透彻理解数据变换

    标准化与归一化 1.标准化(Standardization)和归一化(Normalization)概念 1.1.定义 1.2.联系和差异 一.联系 二.差异 1.3.标准化和归一化的多种方式 2.标准 ...

  2. 分清规范化(标准化、归一化)、离散化、正则化、

    在机器学习中,特征与模型都很重要,因此在数据集中寻找本质特征有利于后面的工作,借鉴了以前上课的课件,今天总结一下机器学习的几种数据预处理方法. 1. 规范化(包括标准化和归一化) 将特征值按比例缩放映 ...

  3. 标准化,归一化与训练-测试集数据处理

    标准化,归一化与训练-测试集数据处理 1. 标准化,归一化的区别 数据预处理的归一化手段应该如何应用到训练集,测试集和验证集中? 问题: 回答1: 回答2 问题3 回答1 回答2 问题4 回答1 1. ...

  4. python归一化 增大差异_特征选择和特征生成问题初探

    1. 为什么要进行特征选择? 0x1:好的模型 = 好的数据 + 好的特征 + 好的算法 以文字图像识别为例,运行机器学习算法的结果可以被表示为一个函数 y(x),它以一个新的数字的图像 x 为输入, ...

  5. 一篇文章告诉你标准化和归一化的区别?

    一篇文章告诉你标准化和归一化的区别? 2019-02-28 17:12:39 融融网融融网阅读量:484 进一步推进企业的标准化工作,使之发展水平适应经济全球化下市场竞争的要求,促进企业综合实力的提升 ...

  6. 影像组学视频学习笔记(19)-数据标准化、归一化极简概述、Li‘s have a solution and plan.

    本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(19)主要介绍: 数据的标准化.归一化 为什么要进行标准化.归一化? 机器学习算法的要求 便于横向比较 # 标准化 (影像组学中最常用) ...

  7. 独家 | 数据转换:标准化vs 归一化(附代码链接)

    作者:Clare Liu, 英国金融科技数据科学家 翻译:林鹤冲 校对:王紫岳 本文约2300字,建议阅读10分钟 本文将解释数据转换中常见的特征缩放方法:"标准化"和" ...

  8. 数据标准化(归一化)

    数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可 ...

  9. mxnet基础到提高(6)--梯度,反馈与标准化(归一化)

    1.attach_grad(grad_req='write', stype=None) 附加一个梯度缓存在NDArray上,这样,回退(反馈)能计算相应的梯度 参数: grad_req ({'writ ...

最新文章

  1. ffmpeg + x264+ x265 + libde265 + opengl es display
  2. 哲理故事与管理之道(3)-不要吝惜赞美
  3. 被5月GitHub Top20榜单惊呆了 原来区块链大佬都在做这个
  4. 客户合作伙伴关系研究
  5. FindBugs插件
  6. zigbee物联网模块市场:LTE标准Cat.1和nbiot无线通信模块差异
  7. C++中使用cin读取一组词存入vector后将其大写打印
  8. android 滚动画画,Android利用ViewPager实现可滑动放大缩小画廊效果
  9. 你真的了解JAVA的形参和实参吗?
  10. SpringBoot项目在Gitee的控管步骤
  11. windows server 2003双网卡的问题
  12. 【Flume】举例分析如何配置Flume
  13. LTI系统对WSS Processes的作用
  14. CURL模拟访问网页
  15. 【HTML】【简易电子相册】overflow:hidden;
  16. 机械能计算机实验教案,学生实验:用DIS研究机械能守恒教案3
  17. 大淘客cms源码三合一导航,自定义底部导航腰部导航
  18. 缺失值的处理方法大总结
  19. 逆水寒服务器什么时候能维护好,逆水寒11月22日更新维护公告 逆水寒更新到什么时候...
  20. 笔记本 WIFI 热点批处理文件

热门文章

  1. [附源码]Python计算机毕业设计办公用品管理系统
  2. 如何不问冒昧的问妹子年龄又能清楚的知道她多大呢?Python来告诉你。
  3. 使用PyQt5界面设计
  4. 基于SSM框架的大学生自主学习网站的设计与开发/在线学习系统
  5. jquery日历控件
  6. dns docker_使用DNS缓存修复Docker中的DNS超时[教程]
  7. Hough transform
  8. 使用java语言pom依赖实现中文汉字转换拼音
  9. 市政下水道疏通机器人_市政下水道疏通机器人 3D模型(SolidWorks设计,提供Sldprt/Sldasm/SLDDRW/dwg文件)...
  10. SpringBoot jap使用原生Sql的几种姿势