敲《Python机器学习及实践》上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下:

# 从sklearn.preprocessing导入StandardScaler
from sklearn.preprocessing import StandardScaler
# 标准化数据,保证每个维度的特征数据方差为1,均值为0,使得预测结果不会被某些维度过大的特征值而主导
ss = StandardScaler()
# fit_transform()先拟合数据,再标准化
X_train = ss.fit_transform(X_train)
# transform()数据标准化
X_test = ss.transform(X_test)

涉及到这两个函数的代码如下:

我们先来看一下这两个函数的API以及参数含义:
1、fit_transform()函数

即fit_transform()的作用就是先拟合数据,然后转化它将其转化为标准形式

2、transform()函数

即tranform()的作用是通过找中心和缩放等实现标准化

到了这里,我们似乎知道了两者的一些差别,就像名字上的不同,前者多了一个fit数据的步骤,那为什么在标准化数据的时候不使用fit_transform()函数呢?

原因如下:

为了数据标准化(使特征数据方差为1,均值为0),我们需要计算特征数据的均值μ和方差σ^2,再使用下面的公式进行归一化:

我们在训练集上调用fit_transform(),其实找到了均值μ和方差σ^2,即我们已经找到了转换规则(即方差和均值),我们把这个规则利用在训练集上,同样,我们可以直接将其运用到测试集上(甚至交叉验证集),所以在测试集上的处理,我们只需要标准化数据而不需要再次拟合数据。用一幅图展示如下:

  

作者:nana-li
来源:CSDN
原文:https://blog.csdn.net/quiet_girl/article/details/72517053
版权声明:本文为博主原创文章,转载请附上博文链接!

转载于:https://www.cnblogs.com/simpleDi/p/9949292.html

Python初探——sklearn库中数据预处理函数fit_transform()和transform()的区别相关推荐

  1. ML之sklearn:sklearn库中的ShuffleSplit()函数和StratifiedShuffleSplit()函数的讲解

    ML之sklearn:sklearn库中的ShuffleSplit()函数和StratifiedShuffleSplit()函数的讲解 目录 sklearn库中的ShuffleSplit()函数和St ...

  2. python 的numpy库中的mean()函数用法介绍

    这篇文章主要介绍了python 的numpy库中的mean()函数用法介绍,具有很好对参考价值,希望对大家有所帮助.一起跟随小编过来看看吧 mean() 函数定义: 2 mean()函数功能: 求取均 ...

  3. Python:numpy库中的一些函数简介、使用方法之详细攻略

    Python:numpy库中的一些函数简介.使用方法之详细攻略 目录 numpy库中的一些函数简介.使用方法 1.np.concatenate() 1.1.函数案例 1.2.函数用法 numpy库中的 ...

  4. Python:Numpy库中的invert()函数的用法

    Numpy库中的invert()函数的用法 官方解释: Compute bit-wise inversion, or bit-wise NOT, element-wise. Computes the ...

  5. 使用Sklearn库学习数据预处理和特征工程

    目录 1,概述 1.1,数据预处理和特征工程 1.2,sklearn中的数据预处理和特征工程 2,数据预处理 Preprocessing & Impute 2.1,数据无量纲化 2.2,缺失值 ...

  6. python 的numpy库中的mean()函数用法

    1. mean() 函数定义: numpy. mean ( a,  axis=None,  dtype=None,  out=None,  keepdims=<class numpy._glob ...

  7. python中mean的用法_python 的numpy库中的mean()函数用法介绍

    1. mean() 函数定义: numpy.mean(a, axis=None, dtype=None, out=None, keepdims=)[source] Compute the arithm ...

  8. python average函数怎么用_python 的numpy库中的mean()函数用法介绍

    1. mean() 函数定义: numpy.mean(a, axis=None, dtype=None, out=None, keepdims=)[source] Compute the arithm ...

  9. sklearn 中的数据预处理函数,标准化

    sklearn 是 python 中一个常用的机器学习与统计分析包,功能十分强大,既能做普通的统计分析,也可以做一些常用的机器学习算法. 在分析数据前,一般要对数据进行预处理,常用的数据预处理函数有: ...

最新文章

  1. 用Ghost几秒钟快速格式化120G大硬盘
  2. C#正则实现匹配一块代码段
  3. php 生成wsdl工具,php中使用zendstudio 12为soapserver生成wsdl文件
  4. Django最佳实践:项目布局
  5. Spring框架学习笔记11:基于Java配置方式SSM框架西蒙购物网
  6. 03-07 APP 控件交互
  7. 中文分词第三方库_Python计算生态jieba库和random库的综合运用之爬山篇
  8. 谁人来帮库克卖“苹果”?
  9. [Java] 蓝桥杯ADV-208 算法提高 矩阵相乘
  10. Linux非root用户部署jdk等命令
  11. 一本通1628X-factor Chain
  12. jQuery实时校验输入框:整数、浮点数
  13. sql server 存储过程中拼接sql,转义单引号
  14. 51单片机循迹小车c语言程序,51单片机循迹小车源程序
  15. 离散数学 习题篇——生成主范式
  16. 机器学习 —— 联合概率分布
  17. 薄透镜焦距的计算公式
  18. 【CF335 E】Counting Skyscrapers
  19. Java中的范围限定词
  20. 万物互联时代到来,锐捷发布场景化无线零漫游方案

热门文章

  1. Intellij IDEA 快捷键整理
  2. Sencha touch 2 入门 -------- DataView 显示服务器端JSON文件数据
  3. DeVeDe:视频 CD 制造利器
  4. python元组修改_python基础知识之元组
  5. 软件测试技术学什么条件,软件测试从业者需要具备哪些技能
  6. linux 脚本 变量为空,Shell脚本中判断输入变量或者参数是否为空的方法
  7. catia 工厂设计_SolidWorks、creo、UG哪个更适合机械设计?
  8. python脚本自动消除安卓版_Android:检测内存泄漏的自动化测试Python脚本
  9. python异常处理的作用_python--异常处理
  10. android 时间戳转换成日期_Matlab将Unix时间戳转为可读日期