主要内容:
数据预处理的必要性
数据清洗
数据集成
数据标准化
数据规约
数据变换与离散化
利用sklearn进行数据预处理
小结

四、数据标准化

不同特征之间往往具有不同的量纲,由此造成数值间的差异很大。因此为了消除特征之间量纲和取值范围的差异可能会造成的影响,需要对数据进行标准化处理。

1.离差标准化数据

离差标准化是对原始数据所做的一种线性变换,将原始数据的数值映射到[0,1]区间。


数据的离差标准化。

import numpy as np
def MinMaxScale(data):data = (data-data.min())/(data.max()-data.min())return data
x = np.array([[1.,-1.,2.],[2.,0.,0.],[0.,1.,-1.]])
print('原始数据为:\n',x)
x_scaled = MinMaxScale(x)
print('标准化后矩阵为:\n',x_scaled,end = '\n ')# 原始数据为:
#  [[ 1. -1.  2.]
#  [ 2.  0.  0.]
#  [ 0.  1. -1.]]
# 标准化后矩阵为:
#  [[0.66666667 0.         1.        ]
#  [1.         0.33333333 0.33333333]
#  [0.33333333 0.66666667 0.        ]]

2.标准差标准化数据

标准差标准化又称零均值标准化或z分数标准化,是当前使用最广泛的数据标准化方法。经过该方法处理的数据均值为0,标准化为1。


数据的标准差标准化。

def StandardScale(data):data = (data-data.mean())/data.std()return data
x = np.array([[1.,-1.,2.],[2.,0.,0.],[0.,1.,-1.]])
print('原始数据为:\n',x)
x_scaled = StandardScale(x)
print('标准化后矩阵为:\n',x_scaled,end = '\n')# 原始数据为:
#  [[ 1. -1.  2.]
#  [ 2.  0.  0.]
#  [ 0.  1. -1.]]
# 标准化后矩阵为:
#  [[ 0.52128604 -1.35534369  1.4596009 ]
#  [ 1.4596009  -0.41702883 -0.41702883]
#  [-0.41702883  0.52128604 -1.35534369]]

数据预处理(四)——数据标准化相关推荐

  1. 第七篇:数据预处理(四) - 数据归约(PCA/EFA为例)

    前言 这部分也许是数据预处理最为关键的一个阶段. 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析. 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给 ...

  2. 数据预处理之归一化/标准化/正则化/零均值化

    数据预处理之归一化/标准化/正则化/零均值化 一.标准化(Standardization) 二.归一化(Normalization) 三,中心化/零均值化 (Zero-centered) 四.正则化 ...

  3. 机器学习之数据预处理——归一化,标准化

    机器学习之数据预处理--归一化,标准化 基础知识 1.什么是特征预处理 2.预处理方法 : 3.预处理API: 数据的标准化(normalization)和归一化 数据的标准化 数据归一化 1 把数变 ...

  4. Python数据分析中的数据预处理:数据标准化

    [小白从小学Python.C.Java] [Python全国计算机等级考试] [Python数据分析考试必会题] ● 标题与摘要 Python数据分析中的 数据预处理:数据标准化 ● 选择题 以下关于 ...

  5. 数据预处理Part2——数据标准化

    文章目录 数据标准化 1. 实现归一化的Max-Min 2. 实现中心化和正态分布的Z-Score 3. 用于稀疏数据的MaxAbs 4. 针对离群点的RobustScaler 5. 标准化后数据可视 ...

  6. 【Python实战】数据预处理(数据清理、集成、变换、归约)

    [Python实战]数据预处理 前言 数据预处理概述 数据清理 异常数据处理 1.异常数据分析 2.异常数据处理方法 缺失值处理 噪声数据处理 数据集成 1.实体识别 2.冗余属性 3.数据不一致 数 ...

  7. 竞赛专题 | 数据预处理-如何处理数据中的坑?

    点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.Data ...

  8. 机器学习项目中的数据预处理与数据整理之比较

    要点 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%. 市场上有各种用于数据清洗和特征工程的编程语言.框架和工具.它们之间的功能有重叠,也各有权衡. 数据整理是数据预处理的 ...

  9. 数据预处理Part4——数据离散化

    文章目录 离散化,对数据做逻辑分层 1. 什么是数据离散化? 2. 为什么要将数据离散化 3. 如何将数据离散化? 3.1 时间数据离散化 3.2 多值离散数据离散化 3.3 连续数据离散化 3.4 ...

最新文章

  1. Please use HDF reader for matlab v7.3 files
  2. python抢票代码_教你用Python动刷新抢12306火车票,附源码!
  3. struts2重定向
  4. keepalived+nginx实现高可用
  5. jpa获取session_JPA 2 | 获取联接以及我们是否应该使用它们
  6. LDAP命令介绍---import-ldif
  7. 基于qtc++设计文本编辑器的代码_文本编辑器Vim/Neovim被曝任意代码执行漏洞,Notepad:兄弟等你好久了...
  8. 值得收藏的8个Web端组件库
  9. 堡垒机应用发布服务器是干嘛的_支持Web UI数据库审计和敏感数据国密算法加密,JumpServer堡垒机v2.5.0发布丨Release Notes...
  10. Vue 生命周期学习心得(上)
  11. python - class类 (七) 三大特性 - 封装 结尾
  12. 上海图书馆e卡通阅读器差强人意
  13. 一个命令,删除电脑上顽固的文件和文件夹|干货
  14. LS-DYNA系列_Mie-Gruneisen状态方程
  15. PHP 实现防抖功能(防重复请求)
  16. 【C++】面向对象之多态篇
  17. Android App 图表制作之--ichartJs
  18. Debian系下载deb安装包及依赖包
  19. yocto(二)——bitbake工作流程
  20. Android 学习笔记-时间_日期_记时器_倒计时器

热门文章

  1. oracle设置session空闲时间超时断开
  2. Java中Native的作用
  3. 记一次失败的《将视频中的音频转换成文字》的经历
  4. IC卡·一卡一密加密 动态数据防伪方案实现
  5. mysql 视图的作用
  6. 2022-2028全球轴承润滑油行业调研及趋势分析报告
  7. 在建工程直接费用化_​在建工程资本化费用化区别
  8. maple linux 远程,Maplesoft Maple Linux版下载
  9. maple化简_在线测试(Maple TA)使用须知yx - 课程中心.PDF
  10. 2.H.265/HEVC —— 帧内预测