【机器学习】sklearn数据特征预处理:归一化和标准化
归一化处理
特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间
from sklearn.preprocessing import MinMaxScaler
def mm():"""归一化处理:return: NOne"""mm = MinMaxScaler(feature_range=(2,3))data = mm.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])print(data)return None
if __name__ == "__main__":mm()
运行结果:
D:\softwares\anaconda3\python.exe D:/PycharmProjects/MyTest/Day_0707/__init__.py
[[3. 2. 2. 2. ][2. 3. 3. 2.83333333][2.5 2.5 2.6 3. ]]Process finished with exit code 0
归一化目的:使得一个特征对结果不会造成更大的影响。
归一化缺点:注意在特定场景下最大最小值是变化的,最大最小值容易受异常点影响,鲁棒性差,只适合传统精确小数据场景。
标准化
1、特点:通过对原始数据进行变换把数据变换到均值为0,方差为1范围内
对于归一化来说:如果出现异常点,影响了最大值和最小值,那么结果显然
会发生改变
对于标准化来说:如果出现异常点,由于具有一定数据量,少量的异常点对
于平均值的影响并不大,从而方差改变较小。
from sklearn.preprocessing import StandardScaler
def stand():"""标准化缩放:return:"""std = StandardScaler()data = std.fit_transform([[ 1., -1., 3.],[ 2., 4., 2.],[ 4., 6., -1.]])print(data)return None
if __name__ == "__main__":stand()
运行结果
D:\softwares\anaconda3\python.exe D:/PycharmProjects/MyTest/Day_0707/__init__.py
[[-1.06904497 -1.35873244 0.98058068][-0.26726124 0.33968311 0.39223227][ 1.33630621 1.01904933 -1.37281295]]Process finished with exit code 0
【机器学习】sklearn数据特征预处理:归一化和标准化相关推荐
- 特征工程特征预处理归一化与标准化、鸢尾花种类预测代码实现
一.特征预处理 特征工程目的:把数据转换成机器更容易识别的数据 scikit-learn:提供几个常见的实用程序函数和转换器类,以将原始特征向量更改为更适合下游估计器的表示形式.即通过一些转换函数将特 ...
- 机器学习-3.数据特征预处理与数据降维
特征预处理定义:通过特定的统计方法(数学方法)将数据转换成算法要求的数据. 处理方法 数值型数据:标准缩放(1.归一化,2.标准化):缺失值. 类别型数据:one-hot编码. 时间类型:时间的切分. ...
- 机器学习之数据预处理——归一化,标准化
机器学习之数据预处理--归一化,标准化 基础知识 1.什么是特征预处理 2.预处理方法 : 3.预处理API: 数据的标准化(normalization)和归一化 数据的标准化 数据归一化 1 把数变 ...
- 机器学习算法基础——数据特征预处理
08.特征预处理-归一化 特征处理 通过特定的统计方法(数学方法)将数据转换成算法要求的数据 数值型数据:标准缩放: 归一化 标准化 缺失值 类别型数据:one-hot编码 时间 ...
- matlab数据无量纲化_MATLAB数据预处理——归一化和标准化
输入/输出数据的预处理 尺度变换 尺度变换也称归一化或标准化,是指通过变换处理将网络的输入/输出数据限制在[0,1]或[-1,1]区间内.进行尺度变换的原因有: (1)网络的各个输入数据常常具有不同的 ...
- [机器学习-sklearn]数据预处理要点总结
数据预处理要点总结 1. 为什么要数据预处理 2. 数据中存在缺失值 2.1 查看数据的完整性(missingno) 2.2 简单删除法 2.3 人工填写(filling manually) 2.4 ...
- 统计学、数据分析、机器学习常用数据特征汇总
1.bias:偏差,反映的是数据和真实值之间的差异,体现数据的准确度. 2.variance:方差,反映的是数据与平均值之间的变异,体现数据的精确度. 3.error的意思与bias接近. 4.std ...
- Pytorch图像预处理——归一化、标准化
在深度学习图像分类.物体检测等过程中,首先要对图像进行归一化和标准化. 原理: 归一化: 式中,input表示输入的图像像素值:max().min()分别表示输入像素的最大值和最小值.output为输 ...
- 机器学习sklearn之特征工程
特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性.文章源码,仅供学习 1.字典特征提取 作用:对字典数据进行特征值化 类:sklearn.featu ...
最新文章
- 语音识别wav2letter++简介
- ftp 信息服务器日常维护,Web Ftp Mail服务器的日常管理与维护
- 利用JBPM4.4的AssignmentHandler实现用户角色整合另一种构思
- oracle之 11g RAC R2 体系结构---Grid
- 使用PyTorch进行手写数字识别,在20 k参数中获得99.5%的精度。
- hive内部表和外部表的区别_HIVE拉链表实现
- python is beautiful_python自动化报告BeautifulReport用法
- 走向.NET架构设计-第六章-服务层设计(中篇)
- TongLINK/Q7.X 8.x查看队列情况命令
- oracle的join 优化,oracle索引优化之join部分
- Keras.metrics中的accuracy总结
- AP与CP介绍【转】
- 架设国外服务器怎么维护,架设海外服务器流程分享
- 批量查找Oracle中多个表中同一字段的长度
- Pycharm 报错Out of Memory 然后一直闪退(已解决)
- 【Vim】学习笔记四 多文件编辑、可视模式、视窗操作
- Manjaro 系统日常使用入门导引
- SL3037B 60V输入0.6A输出 非同步整流DCDC转换器 兼容SCT2601
- 中文编程软件 - 习语言安装与使用入门
- 基于C语言的词法分析器构建
热门文章
- [Quatsch]Quantum Or Optics
- net core体系-web应用程序-4asp.net core2.0 项目实战(1)-11项目日志解决方案
- Python学习之路——装饰器
- 解决python中遇到的乱码问题
- C/C++中的声明与定义
- [设计模式]6. C++与职责链模式(chain of rsponsibility pattern)
- 超有用的方法-----英语单词记忆篇
- 如果程序跑着跑着就崩溃了,查看内存
- Windows CE.0002.ERROR:Image is too large for current RAM and RAMIMAGE settings.
- 求字符串全排列的递归算法