• 归一化

归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量, 在多种计算中都经常用到这种方法。归一化方法有两种形式,一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。

最大最小标准化

x*=(x-min)/(max−min)

  • Z-Score标准化

是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。

可以简洁地用一句话来说明:Z-Score通过(x-μ)/σ将两组或多组数据转化为无单位的Z-Score分值,使得数据标准统一化,提高了数据可比性,削弱了数据解释性。

Z-Score标准化是数据处理的方法之一。在数据标准化中,常见的方法有如下三种:

1.Score 标准化

2.最小标准化

3.定标法

下图说明了标准化在整个工程应用中的位置:

Z-Score的定义

Z-Score处理方法处于整个框架中的数据准备阶段。也就是说,在源数据通过网络爬虫、接口或其他方式进入数据库中后,下一步就要进行的数据预处理阶段中的重要步骤。

数据分析与挖掘中,很多方法需要样本符合一定的标准,如果需要分析的诸多自变量不是同一个量级,就会给分析工作造成困难,甚至影响后期建模的精准度。

举例来说,假设我们要比较A与B的考试成绩,A的考卷满分是100分(及格60分),B的考卷满分是700分(及格420分)。很显然,A考出的70分与B考出的70分代表着完全不同的意义。但是从数值来讲,A与B在数据表中都是用数字70代表各自的成绩。

下图描述了Z-Score的定义以及各种特征。

Z-Score的目的

如上图所示,Z-Score的主要目的就是将不同量级的数据统一转化为同一个量级,统一用计算出的Z-Score值衡量,以保证数据之间的可比性。

Z-Score的理解与计算(在对数据进行Z-Score标准化之前,我们需要得到如下信息)

1)总体数据的均值(μ)

在上面的例子中,总体可以是整个班级的平均分,也可以是全市、全国的平均分。

2)总体数据的标准差(σ)

这个总体要与1)中的总体在同一个量级。

3)个体的观测值(x)

在上面的例子中,即A与B各自的成绩。

通过将以上三个值代入Z-Score的公式,即:x*=(x−μ)/σ

我们就能够将不同的数据转换到相同的量级上,实现标准化。

重新回到前面的例子,假设:A班级的平均分是80,标准差是10,A考了90分;B班的平均分是400,标准差是100,B考了600分。

通过上面的公式,我们可以计算得出,A的Z-Score是1((90-80)/10),B的Z-Socre是2((600-400)/100)。因此B的成绩更为优异。

反之,若A考了60分,B考了300分,A的Z-Score是-2,B的Z-Score是-1。因此A的成绩更差。

因此,可以看出来,通过Z-Score可以有效的把数据转换为统一的标准,但是需要注意,并进行比较。Z-Score本身没有实际意义,它的现实意义需要在比较中得以实现,这也是Z-Score的缺点之一。

Z-Score的优缺点
Z-Score最大的优点就是简单,容易计算,Z-Score能够应用于数值型的数据,并且不受数据量级的影响,因为它本身的作用就是消除量级给分析带来的不便。

但是Z-Score应用也有风险。首先,估算Z-Score需要总体的平均值与方差,但是这一值在真实的分析与挖掘中很难得到,大多数情况下是用样本的均值与标准差替代。其次,Z-Score对于数据的分布有一定的要求,正态分布是最有利于Z-Score计算的。最后,Z-Score消除了数据具有的实际意义,A的Z-Score与B的Z-Score与他们各自的分数不再有关系,因此Z-Score的结果只能用于比较数据间的结果,数据的真实意义还需要还原原值。

  •  Z-scores 简单化

x∗=1/(1+x)

对于x越大,标准化之后的x*就会越小,这样就可以将数据标准化到[0-1]区间了。

数据预处理 - 归一化与Z-Score标准化相关推荐

  1. 机器学习之数据预处理——归一化,标准化

    机器学习之数据预处理--归一化,标准化 基础知识 1.什么是特征预处理 2.预处理方法 : 3.预处理API: 数据的标准化(normalization)和归一化 数据的标准化 数据归一化 1 把数变 ...

  2. 数据预处理——归一化标准化

    数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间. 去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权 最典型的就是数据的归 ...

  3. 使用sklearn进行数据预处理 —— 归一化/标准化/正则化

    本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法,主要包括标准化.数据最大最小缩放处理.正则化.特征二值化和数据缺失值处理.内容比较简单, ...

  4. 对数坐标归一化_数据预处理-归一化/数据转换

    有时候我们在拿到原始数据的时候,我们不能直接使用.大概场景有下面这些,我遇到的 1. 数字比较大,容易爆计算量,更不容易收敛 2. 比如房子价格这种变量,并不是正态分布,有时候不利于我们做一些和正态分 ...

  5. 一文速学-数据预处理归一化详细解释

    目录 一.为何要进行数据预处理? 二.数据标准化 1.归一化的目标 2.归一化的优点

  6. 数据预处理归一化Z-score归一化Min-Max归一化程序

    在训练神经网络模型的时候,对数据进行预处理是必不可少的操作,而对数据进行归一化是预处理最常用的操作. 最常用的归一化方法有两种,Min-Max归一化和Z-score归一化. Min-Max归一化 原理 ...

  7. matlab数据无量纲化_MATLAB数据预处理——归一化和标准化

    输入/输出数据的预处理 尺度变换 尺度变换也称归一化或标准化,是指通过变换处理将网络的输入/输出数据限制在[0,1]或[-1,1]区间内.进行尺度变换的原因有: (1)网络的各个输入数据常常具有不同的 ...

  8. 数据预处理-归一化与z-score标准化

    归一化: 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量. 在多种计算中都经常用到这种方法. 线性函数转换: y=(x-MinValue)/(MaxValue- ...

  9. 关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

    20220121 z-score标准化 模型存储和load再调用其实没有关系 再load计算的时候,也是以实际的数据重新计算 并不是以save模型的边界来计算的 20211227 onehot训练集保 ...

最新文章

  1. 同一套代码,复制出来,变成另外一个项目
  2. SGS 0.9.7 协议解析
  3. 说说我心中的Linux系统
  4. linux mysql 6.0.4 启动_CentOS 6.0之MySQL+FreeRadiu实现帐号统一认证
  5. Rust 多久更新一次?
  6. NFS, web,负载均衡,Nginx yum 源码安装
  7. NHibernate Issues之1898:命名查询
  8. 二进制空间权重矩阵_空间权重矩阵的生成方法分析与实验
  9. python数据可视化安装软件_《Python数据可视化编程实战》——1.5 在Windows上安装matplotlib-阿里云开发者社区...
  10. 解决安装软件权限不够的问题
  11. 分治法求解序列最大最小元素【算法设计与分析】
  12. 用 Unity 编写象棋游戏
  13. 语法分析——自顶向下分析方法
  14. 一句理解到底什么是雷达中的波位
  15. 色散原理中涉及到的物理概念 折射率 波数 相速度 传播常数
  16. 配置ACL隔离交换机的VLAN
  17. Android跑马灯进度条,table数据跑马灯效果
  18. YouTube和Twitch上的流媒体之间有何区别?
  19. 【转】WPF自定义控件与样式(13)-自定义窗体Window 自适应内容大小消息框MessageBox...
  20. FFmpeg自学入门笔记

热门文章

  1. matsuri.icu 筛选单场直播中 指定用户的弹幕
  2. java clh_CLH lock 原理及JAVA实现
  3. webpack bable
  4. php ppt如何转换成pdf,PHP将Word,Wps,Excel,PPT转成PDF
  5. 云原生之 Ansible 篇(一)
  6. idea 2020,2021,2022石皮-解到2099年怎么搞
  7. zotero配合坚果云和papership进行文献管理
  8. IT职场人生系列之二十四:程序员如何增加收入
  9. 什么是欧代?什么是欧盟代理人?
  10. springboot中的spring-test的作用