Scikit-learn 数据预处理之标准化StandardScaler
Scikit-learn 数据预处理之标准化StandardScaler
1 声明
本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。
2 StandardScaler简介
StandardScaler当数据(x)按均值(μ)中心化后,再按标准差(σ)缩放,数据就会服从为均值为0,方差为1的标准正态分布,该过程叫数据标准化(Standardization,又称Z-score normalization)。
应用场景:在分类、聚类、通过距离计算相似性时、使用PCA技术进行降维时。
3 StandardScaler
计算方法:
import pandas as pd
from sklearn.preprocessing import StandardScaler
data = pd.DataFrame({'a':[1,2,3],'b':[5,6,6],'c':[9,100,2]}
)#标准化(StandardScaler),对列进行特征转换。
scale_x = StandardScaler()
scale_data = scale_x.fit_transform(data)
print(scale_data)
print("均值:",round(scale_data.mean()))
print("标准差:",round(scale_data.std()))
注:数据的矩阵形式如下:
计算过程示例版:
多种标准化的对比(图片来自网络)
Scikit-learn 数据预处理之标准化StandardScaler相关推荐
- 使用sklearn进行数据预处理 —— 归一化/标准化/正则化
本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法,主要包括标准化.数据最大最小缩放处理.正则化.特征二值化和数据缺失值处理.内容比较简单, ...
- 使用 Python 进行数据预处理的标准化
机器学习和深度学习算法中的缩放方法 标准化和规范化是机器学习和深度学习项目中大量使用的数据预处理技术之一. 这些技术的主要作用 以类似的格式缩放所有数据,使模型的学习过程变得容易. 数据中的奇数值被缩 ...
- 均值归一化_数据预处理:标准化和归一化
网上很多关于标准化和归一化的文章,不少是误人子弟的存在.这篇文字希望给大家讲清讲透这两个概念. 一.标准化(standardization) 公式一般为:(X-mean)/std,其中mean是平均值 ...
- 关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化
20220121 z-score标准化 模型存储和load再调用其实没有关系 再load计算的时候,也是以实际的数据重新计算 并不是以save模型的边界来计算的 20211227 onehot训练集保 ...
- 深入浅出python机器学习_9.1_数据预处理_sklearn.preprocessing.StandardScaler MinMaxScaler RobustScaler Normalizer
# 使用StandardScaler进行数据预处理import numpyimport matplotlib.pyplot as pltfrom sklearn.datasets import mak ...
- 数据预处理|关于标准化和归一化的一切
数据预处理是最令数据科学家头秃的工作 之前在知乎看过一个问题你为什么离开数据科学行业?一位知友est答曰:数据清洗10小时,拟合2分钟,如此重复996. 这条回答下面的评论更是精彩,居然真的会眼瞎.. ...
- 深度学习数据预处理——批标准化(Batch Normalization)
数据预处理最常见的方法就是中心化和标准化,中心化相当于修正数据的中心位置,实现方法非常简单,就是在每个特征维度上减去对应的均值,最后得到 0 均值的特征.标准化也非常简单,在数据变成 0 均值之后,为 ...
- 数据预处理之标准化方法
评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据.随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题 ...
- 【Deep Learning】数据预处理(z-score标准化)
z-score 标准化 z-score 标准化(zero-mean normalization):将数据按期属性(按列进行)减去其均值,并除以其标准差.得到的结果是,对于每个属性/每列来说所有 ...
最新文章
- 强势推荐8个顶级好用的软件,堪称神器
- 怎么查看jre版本_javac和java版本不一致问题
- 他是我们内心世界的一员 (见信息时报2011年7月10日)
- mac按文件名查找文件_如何在Mac上查找和删除大文件
- jQuery验证表单插件——jquery-validation
- selenium动态网页爬虫复习
- 边栏实现过程中,导入style.css没用
- 根据表格长度使td里的内容换行
- 怎么制作app?0编程外卖平台系统开发
- 论学好数学对机器学习的重要性
- 个人--2015 关于管理的书
- 【前端】弹出框提交表单
- 年度双十佳广告爆笑金庸版
- 3D线激光成像数学模型简析与实现
- ASP多媒体视频教程
- [转帖]Photoshop鼻青脸肿效果的照片恶搞教程
- 阿里聚石塔限制IP 过部署服务器详细流程
- JAVA 删除File文件中的内容。
- 利用stm32高级定时器的重复计数实现输出精确个数的pwm波
- Python 使用Pandas在原有Excel文件中创建子表格
热门文章
- boost::type_erasure::subscriptable相关的测试程序
- boost::mpl::sign相关的测试程序
- boost::pfr::tuple_element_t相关的测试程序
- boost::mp11::mp_invoke_q相关用法的测试程序
- boost::distance用法的测试程序
- boost::gil::scale_lanczos用法的测试程序
- boost::geometry::append用法的测试程序
- boost::coroutine2模块实现分段的stack的测试程序
- boost::contract模块实现overload的测试程序
- ITK:单相Chan和Vese稀疏场水平集分割