数据的标准化

数据的标准化(

normalization

)是将数据按比例缩放,使之落入一个小的特定区

间。

在某些比较和评价的指标处理中经常会用到,

去除数据的单位限制,

将其转化为无量纲

的纯数值,便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是数据的归

一化处理,即将数据统一映射到

[0,1]

区间上,常见的数据归一化的方法有:

min-max

标准

(Min-max

normalization)

也叫离差标准化,是对原始数据的线性变换,使结果落到

[0,1]

间,转换函数如下:

其中

max

为样本数据的最大值,

min

为样本数据的最小值。这种方法

有一个缺陷就是当有新数据加入时,可能导致

max

min

的变化,需要重新定义。

log

数转换通过以

10

为底的

log

函数转换的方法同样可以实现归一下,

具体方法如下:

看了下

网上很多介绍都是

x*=log10(x)

,其实是有问题的,这个结果并非一定落到

[0,1]

区间上,应

该还要除以

log10(max)

max

为样本数据最大值,并且所有的数据都要大于等于

1

atan

函数转换用反正切函数也可以实现数据的归一化:

使用这个方法需要注意的是如果想映射

的区间为

[0,1]

,则数据都应该大于等于

0

,小于

0

的数据将被映射到

[-1,0]

区间上。

而并非

所有数据标准化的结果都映射到

[0,1]

区间上,

其中最常见的标准化方法就是

Z

标准化,

也是

SPSS

中最为常用的标准化方法:

z-score

标准化

(zero-mean

normalization)

也叫标准差标准

化,经过处理的数据符合标准正态分布,即均值为

0

,标准差为

1

,其转化函数为:

其中

μ

为所有样本数据的均值,

σ

为所有样本数据的标准差。

z-score

标准化

zscore

,标准化的目的是:使得平均值为

0

,标准差为

1

,这样可以使不同量纲的数据放

在一个矩阵

.

>> A=magic(4)

A =

16

2

3

13

5

11

10

8

9

7

6

12

4

14

15

1

>> [Z,MU,SIGMA] = zscore(A)

Z =

1.3770

-1.2509

-1.0585

0.8262

-0.6426

0.4811

0.2887

-0.0918

zscore标准化步骤_数据的标准化相关推荐

  1. dataframe数据标准化处理_数据预处理——标准化/归一化(实例)

    这次我们来说说关于数据预处理中的数据标准化及归一化的问题.主要以理论+实例的方式为大家展示. 本次实验也将会展示部分数据以及代码,有兴趣的小伙伴可以自己动手试试~ 在本次实例过程中,我们使用的数据是: ...

  2. zscore标准化步骤_归一化z-score标准化

    z-score标准化 z-score标准化是将数据按比例缩放,使之落入一个特定区间. 要求:均值 μ = 0 ,σ = 1 标准差公式: image z-score标准化转换公式: image 归一化 ...

  3. python 归一化_数据的标准化和归一化

    数据的标准化 归一化 归一化的目标 归一化的好处 归一化的方法 无量纲表达式 为什么要对数据进行归一化处理 常见的数据归一化方法 Python归一化处理方法 数据的标准化 数据的标准化(normali ...

  4. python代码实现中心化_数据预处理——标准化(附python代码)

    数据标准化,是数据清洗的重要环节之一.主要目的是消除"量纲"和"不同规模"的影响,使其所放到相同的数据区间和范围,以减少规模.特征.分布差异等对数据模型的影响. ...

  5. dataframe数据标准化处理_数据标准化处理

    一.标准分数 标准分数(Standard Score,又称z-score.z分数或标准化值),是将集合中的单个数与集合的均值相减的结果除以集合的标准差得到标准化的结果,该方法类似于正态分布的标准化转换 ...

  6. 对数坐标归一化_数据归一化,标准化的几种方法

    归一化方法(Normalization Method) 1. 把数变为(0,1)之间的小数 主要是为了数据处理方便提出来的,把数据映射到0-1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内. ...

  7. python scale标准化函数_归一化与标准化

    (一) 特征缩放定义特征缩放是用来统一资料中的自变项或特征范围的方法,在资料处理中,通常会被使用在资料前处理这个步骤.因为在原始的资料中,各变数的范围大不相同. (二) 特征缩放的目的对于大多数的机器 ...

  8. moead算法流程步骤_数据聚类(一)常见聚类算法的基本原理[图解]

    文章整理了五种常见聚类算法的基本原理,通过简易图解的形式对算法原理进行形象化的描述,同时给出了算法的实现流程和数学表达.全文约4192字. 相关名词的英文翻译 监督学习Supervised Learn ...

  9. 制度化规范化标准化精细化_制度化、标准化、流程化,走向精细化管理的蜕变...

    制度化 标准化 流程化 走向精细化管理的蜕变 2020年,注定是极不平凡的一年,一场由新冠病毒引起的肺炎疫情肆虐着全世界. 在这突如其来的灾难面前,各行各业也面临着多种挑战.如何在危机与挑战中脱颖而出 ...

  10. 机器学习中数据预处理——标准化/归一化方法(scaler)

    由于工作问题比较忙,有两周没有总结一下工作学习中遇到的问题. 这篇主要是关于机器学习中的数据预处理的scaler变化. 工作中遇到的问题是:流量预测问题,拿到的数据差距非常大,凌晨的通话流量很少几乎为 ...

最新文章

  1. 【linux】Matchbox(一):启动脚本
  2. Windows 7下Eclipse搭建Android开发环境
  3. golang刷Leetcode系列 --- 加1
  4. 二叉树题目---3 另一个树的子树 AND 二叉树最大深度
  5. 869. 重新排序得到 2 的幂
  6. 七、操作系统——动态分区分配算法(详解)
  7. 【恋上数据结构】跳表(Skip List)原理及实现
  8. Python 数据结构与算法 —— 插入排序
  9. Tomcat报错 严重: A child container failed during start
  10. mysql乘法函数_数据库入门(MySQL):mySQL运算符与mySQL常用函数
  11. imageAI基本使用
  12. codeforces 696C C. PLEASE(概率+快速幂)
  13. 大数据热词科普(三)
  14. matlab如何计算矩阵的幂,MATLAB矩阵幂算法
  15. 百分点大数据技术团队:低代码平台实践
  16. 华为HGU改成SFU的方法
  17. 2018/3/6-2018/3/10
  18. 【分享】新浪微博、QQ分享、微信分享的申请过程
  19. Python学习指南:介绍
  20. POWERBI 使用高级编辑器更换数据源

热门文章

  1. 计算机共享怎么ip设置,如何设置网络打印机共享
  2. HC-05嵌入式蓝牙串口通讯
  3. 手把手教你注册谷歌账号 亲测有效 快来学
  4. 计算机及软件工程专业基础综合,2019年东华大学854计算机及软件工程专业基础综合考研初试大纲...
  5. ParkingEE智能化停车服务平台
  6. 201671030118 词频统计软件项目报告
  7. java加锁_JAVA最好的加锁方法是什么
  8. 光大银行笔试真题解析,答题技巧
  9. opencv cv2 python RGB BGR 颜色表 配色
  10. 【按键精灵】N秒内找图函数封装