Python初探——sklearn库中数据预处理函数fit_transform()和transform()的区别
敲《Python机器学习及实践》上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下:
# 从sklearn.preprocessing导入StandardScaler from sklearn.preprocessing import StandardScaler # 标准化数据,保证每个维度的特征数据方差为1,均值为0,使得预测结果不会被某些维度过大的特征值而主导 ss = StandardScaler() # fit_transform()先拟合数据,再标准化 X_train = ss.fit_transform(X_train) # transform()数据标准化 X_test = ss.transform(X_test)
涉及到这两个函数的代码如下:
我们先来看一下这两个函数的API以及参数含义:
1、fit_transform()函数
即fit_transform()的作用就是先拟合数据,然后转化它将其转化为标准形式
2、transform()函数
即tranform()的作用是通过找中心和缩放等实现标准化
到了这里,我们似乎知道了两者的一些差别,就像名字上的不同,前者多了一个fit数据的步骤,那为什么在标准化数据的时候不使用fit_transform()函数呢?
原因如下:
为了数据标准化(使特征数据方差为1,均值为0),我们需要计算特征数据的均值μ和方差σ^2,再使用下面的公式进行归一化:
我们在训练集上调用fit_transform(),其实找到了均值μ和方差σ^2,即我们已经找到了转换规则(即方差和均值),我们把这个规则利用在训练集上,同样,我们可以直接将其运用到测试集上(甚至交叉验证集),所以在测试集上的处理,我们只需要标准化数据而不需要再次拟合数据。用一幅图展示如下:
作者:nana-li
来源:CSDN
原文:https://blog.csdn.net/quiet_girl/article/details/72517053
版权声明:本文为博主原创文章,转载请附上博文链接!
转载于:https://www.cnblogs.com/simpleDi/p/9949292.html
Python初探——sklearn库中数据预处理函数fit_transform()和transform()的区别相关推荐
- ML之sklearn:sklearn库中的ShuffleSplit()函数和StratifiedShuffleSplit()函数的讲解
ML之sklearn:sklearn库中的ShuffleSplit()函数和StratifiedShuffleSplit()函数的讲解 目录 sklearn库中的ShuffleSplit()函数和St ...
- python 的numpy库中的mean()函数用法介绍
这篇文章主要介绍了python 的numpy库中的mean()函数用法介绍,具有很好对参考价值,希望对大家有所帮助.一起跟随小编过来看看吧 mean() 函数定义: 2 mean()函数功能: 求取均 ...
- Python:numpy库中的一些函数简介、使用方法之详细攻略
Python:numpy库中的一些函数简介.使用方法之详细攻略 目录 numpy库中的一些函数简介.使用方法 1.np.concatenate() 1.1.函数案例 1.2.函数用法 numpy库中的 ...
- Python:Numpy库中的invert()函数的用法
Numpy库中的invert()函数的用法 官方解释: Compute bit-wise inversion, or bit-wise NOT, element-wise. Computes the ...
- 使用Sklearn库学习数据预处理和特征工程
目录 1,概述 1.1,数据预处理和特征工程 1.2,sklearn中的数据预处理和特征工程 2,数据预处理 Preprocessing & Impute 2.1,数据无量纲化 2.2,缺失值 ...
- python 的numpy库中的mean()函数用法
1. mean() 函数定义: numpy. mean ( a, axis=None, dtype=None, out=None, keepdims=<class numpy._glob ...
- python中mean的用法_python 的numpy库中的mean()函数用法介绍
1. mean() 函数定义: numpy.mean(a, axis=None, dtype=None, out=None, keepdims=)[source] Compute the arithm ...
- python average函数怎么用_python 的numpy库中的mean()函数用法介绍
1. mean() 函数定义: numpy.mean(a, axis=None, dtype=None, out=None, keepdims=)[source] Compute the arithm ...
- sklearn 中的数据预处理函数,标准化
sklearn 是 python 中一个常用的机器学习与统计分析包,功能十分强大,既能做普通的统计分析,也可以做一些常用的机器学习算法. 在分析数据前,一般要对数据进行预处理,常用的数据预处理函数有: ...
最新文章
- 用Ghost几秒钟快速格式化120G大硬盘
- C#正则实现匹配一块代码段
- php 生成wsdl工具,php中使用zendstudio 12为soapserver生成wsdl文件
- Django最佳实践:项目布局
- Spring框架学习笔记11:基于Java配置方式SSM框架西蒙购物网
- 03-07 APP 控件交互
- 中文分词第三方库_Python计算生态jieba库和random库的综合运用之爬山篇
- 谁人来帮库克卖“苹果”?
- [Java] 蓝桥杯ADV-208 算法提高 矩阵相乘
- Linux非root用户部署jdk等命令
- 一本通1628X-factor Chain
- jQuery实时校验输入框:整数、浮点数
- sql server 存储过程中拼接sql,转义单引号
- 51单片机循迹小车c语言程序,51单片机循迹小车源程序
- 离散数学 习题篇——生成主范式
- 机器学习 —— 联合概率分布
- 薄透镜焦距的计算公式
- 【CF335 E】Counting Skyscrapers
- Java中的范围限定词
- 万物互联时代到来,锐捷发布场景化无线零漫游方案
热门文章
- Intellij IDEA 快捷键整理
- Sencha touch 2 入门 -------- DataView 显示服务器端JSON文件数据
- DeVeDe:视频 CD 制造利器
- python元组修改_python基础知识之元组
- 软件测试技术学什么条件,软件测试从业者需要具备哪些技能
- linux 脚本 变量为空,Shell脚本中判断输入变量或者参数是否为空的方法
- catia 工厂设计_SolidWorks、creo、UG哪个更适合机械设计?
- python脚本自动消除安卓版_Android:检测内存泄漏的自动化测试Python脚本
- python异常处理的作用_python--异常处理
- android 时间戳转换成日期_Matlab将Unix时间戳转为可读日期