数据预处理(四)——数据标准化
主要内容:
数据预处理的必要性
数据清洗
数据集成
数据标准化
数据规约
数据变换与离散化
利用sklearn进行数据预处理
小结
四、数据标准化
不同特征之间往往具有不同的量纲,由此造成数值间的差异很大。因此为了消除特征之间量纲和取值范围的差异可能会造成的影响,需要对数据进行标准化处理。
1.离差标准化数据
离差标准化是对原始数据所做的一种线性变换,将原始数据的数值映射到[0,1]区间。
数据的离差标准化。
import numpy as np
def MinMaxScale(data):data = (data-data.min())/(data.max()-data.min())return data
x = np.array([[1.,-1.,2.],[2.,0.,0.],[0.,1.,-1.]])
print('原始数据为:\n',x)
x_scaled = MinMaxScale(x)
print('标准化后矩阵为:\n',x_scaled,end = '\n ')# 原始数据为:
# [[ 1. -1. 2.]
# [ 2. 0. 0.]
# [ 0. 1. -1.]]
# 标准化后矩阵为:
# [[0.66666667 0. 1. ]
# [1. 0.33333333 0.33333333]
# [0.33333333 0.66666667 0. ]]
2.标准差标准化数据
标准差标准化又称零均值标准化或z分数标准化,是当前使用最广泛的数据标准化方法。经过该方法处理的数据均值为0,标准化为1。
数据的标准差标准化。
def StandardScale(data):data = (data-data.mean())/data.std()return data
x = np.array([[1.,-1.,2.],[2.,0.,0.],[0.,1.,-1.]])
print('原始数据为:\n',x)
x_scaled = StandardScale(x)
print('标准化后矩阵为:\n',x_scaled,end = '\n')# 原始数据为:
# [[ 1. -1. 2.]
# [ 2. 0. 0.]
# [ 0. 1. -1.]]
# 标准化后矩阵为:
# [[ 0.52128604 -1.35534369 1.4596009 ]
# [ 1.4596009 -0.41702883 -0.41702883]
# [-0.41702883 0.52128604 -1.35534369]]
数据预处理(四)——数据标准化相关推荐
- 第七篇:数据预处理(四) - 数据归约(PCA/EFA为例)
前言 这部分也许是数据预处理最为关键的一个阶段. 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析. 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给 ...
- 数据预处理之归一化/标准化/正则化/零均值化
数据预处理之归一化/标准化/正则化/零均值化 一.标准化(Standardization) 二.归一化(Normalization) 三,中心化/零均值化 (Zero-centered) 四.正则化 ...
- 机器学习之数据预处理——归一化,标准化
机器学习之数据预处理--归一化,标准化 基础知识 1.什么是特征预处理 2.预处理方法 : 3.预处理API: 数据的标准化(normalization)和归一化 数据的标准化 数据归一化 1 把数变 ...
- Python数据分析中的数据预处理:数据标准化
[小白从小学Python.C.Java] [Python全国计算机等级考试] [Python数据分析考试必会题] ● 标题与摘要 Python数据分析中的 数据预处理:数据标准化 ● 选择题 以下关于 ...
- 数据预处理Part2——数据标准化
文章目录 数据标准化 1. 实现归一化的Max-Min 2. 实现中心化和正态分布的Z-Score 3. 用于稀疏数据的MaxAbs 4. 针对离群点的RobustScaler 5. 标准化后数据可视 ...
- 【Python实战】数据预处理(数据清理、集成、变换、归约)
[Python实战]数据预处理 前言 数据预处理概述 数据清理 异常数据处理 1.异常数据分析 2.异常数据处理方法 缺失值处理 噪声数据处理 数据集成 1.实体识别 2.冗余属性 3.数据不一致 数 ...
- 竞赛专题 | 数据预处理-如何处理数据中的坑?
点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.Data ...
- 机器学习项目中的数据预处理与数据整理之比较
要点 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%. 市场上有各种用于数据清洗和特征工程的编程语言.框架和工具.它们之间的功能有重叠,也各有权衡. 数据整理是数据预处理的 ...
- 数据预处理Part4——数据离散化
文章目录 离散化,对数据做逻辑分层 1. 什么是数据离散化? 2. 为什么要将数据离散化 3. 如何将数据离散化? 3.1 时间数据离散化 3.2 多值离散数据离散化 3.3 连续数据离散化 3.4 ...
最新文章
- Please use HDF reader for matlab v7.3 files
- python抢票代码_教你用Python动刷新抢12306火车票,附源码!
- struts2重定向
- keepalived+nginx实现高可用
- jpa获取session_JPA 2 | 获取联接以及我们是否应该使用它们
- LDAP命令介绍---import-ldif
- 基于qtc++设计文本编辑器的代码_文本编辑器Vim/Neovim被曝任意代码执行漏洞,Notepad:兄弟等你好久了...
- 值得收藏的8个Web端组件库
- 堡垒机应用发布服务器是干嘛的_支持Web UI数据库审计和敏感数据国密算法加密,JumpServer堡垒机v2.5.0发布丨Release Notes...
- Vue 生命周期学习心得(上)
- python - class类 (七) 三大特性 - 封装 结尾
- 上海图书馆e卡通阅读器差强人意
- 一个命令,删除电脑上顽固的文件和文件夹|干货
- LS-DYNA系列_Mie-Gruneisen状态方程
- PHP 实现防抖功能(防重复请求)
- 【C++】面向对象之多态篇
- Android App 图表制作之--ichartJs
- Debian系下载deb安装包及依赖包
- yocto(二)——bitbake工作流程
- Android 学习笔记-时间_日期_记时器_倒计时器
热门文章
- oracle设置session空闲时间超时断开
- Java中Native的作用
- 记一次失败的《将视频中的音频转换成文字》的经历
- IC卡·一卡一密加密 动态数据防伪方案实现
- mysql 视图的作用
- 2022-2028全球轴承润滑油行业调研及趋势分析报告
- 在建工程直接费用化_​在建工程资本化费用化区别
- maple linux 远程,Maplesoft Maple Linux版下载
- maple化简_在线测试(Maple TA)使用须知yx - 课程中心.PDF
- 2.H.265/HEVC —— 帧内预测