数据规范化处理

在拿到数据进行建模之前,我们需要将数据进行初步处理,例如通过据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。本文只介绍min-max标准化、Z-score标准化方法。

1. Min-max 规范化

定义:

Min-max 也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间。
用公式表示就是:

1、其中max为样本数据的最大值,min为样本数据的最小值。
2、这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

代码:

Python中在 SciKit-Learn 里有个函数 MinMaxScaler 是专门做这个的

#引入库
from sklearn import preprocessing
import numpy as np
# 初始化数据,每一行表示一个样本,每一列表示一个特征
x = np.array([[ 0., -3.,  1.],[ 3.,  1.,  2.],[ 0.,  1., -1.]])
# 将数据进行[0,1]规范化
min_max_scaler = preprocessing.MinMaxScaler()
minmax_x = min_max_scaler.fit_transform(x)
print minmax_x

2、Z-Score 规范化

定义:

最常见的标准化方法就是Z标准化;也是SPSS中最为常用的标准化方法,也叫标准差标准化。
Z-Score 的优点是算法简单,不受数据量级影响,结果易于比较。不足在于,它需要数据整体的平均值和方差,而且结果没有实际意义,只是用于比较。

步骤如下:
1、求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
2、进行标准化处理:
zij=(xij-xi)/si
其中:zij为标准化后的变量值;xij为实际变量值。
3.将逆指标前的正负号对调。准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
如何改变文本的样式

代码:

在 SciKit-Learn 库中使用 preprocessing.scale() 函数,可以直接将给定数据进行 Z-Score 规范化。

from sklearn import preprocessing
import numpy as np
# 初始化数据
x = np.array([[ 0., -3.,  1.],[ 3.,  1.,  2.],[ 0.,  1., -1.]])
# 将数据进行Z-Score规范化
scaled_x = preprocessing.scale(x)
print scaled_x

数据规范化处理方法-Min-max 规范化和 Z-Score 规范化相关推荐

  1. python中常用的内置方法(min,max,sum,梅举,zip)

  2. 数据变换,数据规范化的方法之归一化(Min-max规范化)、标准化(Z-score规范化)、小数定标规范化

    这篇总结了哪些东西: 1. 数据变换 2. 数据规范化方法 归一化(Min-max规范化) 标准化(Z-score标准化) 小数定标规范化 4. 规范化的作用 3. 数据挖掘算法中是否都需要进行规范化 ...

  3. 对于噪声数据理解以及Min-Max 规范化和 Score规范化(零-均值规范化)的实例【数据预处理】

    文章目录 一.噪声数据 1.1分箱 1.2分箱法光滑数据 1.3噪声数据 1.4回归Regression 1.5聚类Cluster Analysis 1.6 数据清理作为一个过程 1.6.1 偏差检测 ...

  4. 【机器学习】数据归一化全方法总结:Max-Min归一化、Z-score归一化、数据类型归一化、标准差归一化等

    数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可 ...

  5. python 数据逐个验证_在python中验证数据的最佳方法是什么?

    我是Python的新手,我试图找到验证数据的最佳方法.在 我有一个"well"类型的对象,它具有其他对象的属性.也可以通过XML文件来获取数据.下面是一个例子.在class Wel ...

  6. LINQ to SQL语句之Select/Distinct和Count/Sum/Min/Max/Avg - YJingLee's Blog - 博客园(转)

    Select/Distinct操作符 适用场景:o(∩_∩)o- 查询呗. 说明:和SQL命令中的select作用相似但位置不同,查询表达式中的select及所接子句是放在表达式最后并把子句中的变量也 ...

  7. python实现数据恢复_使用sklearn进行对数据标准化、归一化以及将数据还原的方法...

    在对模型训练时,为了让模型尽快收敛,一件常做的事情就是对数据进行预处理. 这里通过使用sklearn.preprocess模块进行处理. 一.标准化和归一化的区别 归一化其实就是标准化的一种方式,只不 ...

  8. Linq-语句之Select/Distinct和Count/Sum/Min/Max/Avg

    上一篇讲述了LINQ,顺便说了一下Where操作,这篇开始我们继续说LINQ to SQL语句,目的让大家从语句的角度了解LINQ,LINQ包括LINQ to Objects.LINQ to Data ...

  9. pyecharts对于经纬度_一文带你掌握Pyecharts地理数据可视化的方法

    本文主要介绍了Pyecharts地理数据可视化,分享给大家,具体如下: 一.Pyecharts简介和安装 1. 简介 Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计, ...

  10. 2021.08.25学习内容torch.clamp(input, min, max, out=None) → Tensor,torch.mm(matrix multiply)

    学习pytorch时,看到了mm和clamp,不甚理解,其他地方也看到过,所以具体了解一下 前向传递:计算预测yh = x.mm(w1)h_relu = h.clamp(min=0) 把 h 张量的最 ...

最新文章

  1. 3dmax导出fbx时如何带贴图_houdini | 第一章 第三节 贴图与顶点动画
  2. 2015 NOIP day2 t2 信息传递 tarjan
  3. Github 项目推荐 | 用手势输入表情符号 —— Emojinator
  4. php循环checkbox,php循环删除checkbox | 学步园
  5. linux下VI模式中上下左右键和回退键出现字母
  6. 区块链网络安全平台HAPI获Genesis Block Ventures投资
  7. Android图片,PNG还是JPG?用哪种?
  8. bmi计算器公式_bmi计算器免费版客户端
  9. 2021新标发布:《实验室安全管理规范》 全文观读
  10. Cts框架解析(19)-设备状态的分类以及恢复模式的分类
  11. 51系列单片机IO模试设置
  12. OKRA-ERP简单实用产能分析
  13. webp文件如何进行格式转换
  14. 输入关键字生成对联_对联生成器
  15. OpenSSL SM4加密 CMake工程链接失败
  16. java毕业设计大学生心理健康系统Mybatis+系统+数据库+调试部署
  17. T检验中有哪些指标?
  18. 金山词霸 v10.4.5 for Android
  19. 阅读vue3官方文档之摘录
  20. 如何获得U盘的详细信息

热门文章

  1. 2020第二届金融科技大会在沪成功召开, “大数据百强榜”重磅出炉!
  2. 13.0_[Java 面向接口]-类和接口
  3. Templates基础
  4. python助教酱酱是谁_papi酱个人资料
  5. python3.9.0a3详细安装教程_Python 3.9.1图文安装教程(附安装包) | 我爱分享网
  6. 国家开放大学2021春1194建设监理题目
  7. 机器学习 2014斯坦福大学课程: 4-1 神经网络
  8. Python爬虫新手教程:微医挂号网医生数据抓取!
  9. java 字符串 数组 索引_如何在Java中找到数组中元素的索引?
  10. “离婚”华为后,荣耀第一胎满身伤痕