在使用sklearn对数据进行预处理的时候很有可能会遇到fit_transform和transform,网上不少资料写的模棱两可,在这里我回答几个核心问题,也许看完我写的这篇文章,一些疑惑就会豁然开朗。

为什么在训练集进行fit而不在测试集fit

机器学习假设,训练集和测试集的每个样本都是从同一分布中抽样得到的。所以在训练集中fit之后在测试集就不能再fit了。要不然二者可能不是同一分布模型,预测效果会很糟糕。

fit_transform那么fit到底fit什么

可以说不同的sklearn方法fit的东西都是不一样的,对于LabelBinar而言,因为fit阶段没有fit东西,所以训练集和测试集都可以写成fit_transform(我仍然建议不要这样写,统一格式,训练集fit在测试集transform会更好),而对于StandardScalar而言,fit的是均值和方差。所以一定要在训练集写成fit_transform,在测试集写成transform

sklearn中的fit_transform和transform以及什么时候使用相关推荐

  1. sklearn 中 fit fit_transform

    fit(y) Fit label encoder fit_transform(y) Fit label encoder and return encoded labels fit 返回一个实例 fit ...

  2. sklearn中的fit_transform、获取特征、标签转换

    skearn中有数据预处理的功能,如fit(),transform()和fit_transform(). fit(): 求得训练集X的均值,方差,最大值,最小值,这些训练集X固有的属性. transf ...

  3. Python初探——sklearn库中数据预处理函数fit_transform()和transform()的区别

    敲<Python机器学习及实践>上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下: ...

  4. sklearn中, fit,fit_transform,transform的区别与联系

    文章乃转载 scikit-learn提供了一系列转换库,他们可以清洗,降维,提取特征等. 在数据转换中有三个很重要的方法,fit,fit_transform,transform ss=Standard ...

  5. sklearn中各算法类的fit,fit_transform和transform函数

    在使用PCA和NFC中有三个函数fit,fit_transform,transform区分不清各自的功能.通过测试,勉强了解各自的不同,在这里做一些笔记. 1.fit_transform是fit和tr ...

  6. Sklearn:sklearn.preprocessing之StandardScaler 的transform()函数和fit_transform()函数清晰讲解及其案例应用

    Sklearn:sklearn.preprocessing之StandardScaler 的transform()函数和fit_transform()函数清晰讲解及其案例应用 目录 sklearn.p ...

  7. sklearn:sklearn.preprocessing.StandardScaler函数的fit_transform、transform、inverse_transform简介、使用方法之详细攻略

    sklearn:sklearn.preprocessing.StandardScaler函数的fit_transform.transform.inverse_transform简介.使用方法之详细攻略 ...

  8. StandarScaler(sklearn.preprocessing)标准化中的fit、transform理解。

    如何理解StandarScaler中的fit.transform.fit_transform? fit: 用于计算训练数据的均值和方差,后面就会用均值和方差来"训练"数据. tan ...

  9. 一个例子来使用sklearn中的TfidfVectorizer

    TfidfVectorizer 作用 将文本进行向量化表示. 原理 这里的tf(term frequency)是词的频数,idf(inverse document frequency)是这个词的逆文档 ...

最新文章

  1. 【新无人机数据集】从 行人重识别 到 无人机目标定位
  2. MySQL数据导入oracle
  3. java第七章多线程_第七章 多线程
  4. 【NOIP2015模拟10.27】魔道研究
  5. ANSI X9.19 MAC算法介绍
  6. 分辨垃圾材质自动分类 支付宝升级垃圾分类AI回收箱
  7. Cookie字符串转Map集合方法
  8. 影子系统、还原精灵、冰点还原优缺点比较
  9. 图像去雨(rainy streaks removal)#引导滤波
  10. 英语单词记忆测试软件,适用于检查学生英语单词背诵情况的软件
  11. C#打包文件夹成zip格式(包括文件夹和子文件夹下的所有文件)
  12. Java数组练习题百元百鸡,不死神兔
  13. Java: Tomcat到底是干嘛的?
  14. c++中的友元和组合
  15. 电力电子技术笔记(2)——电力二极管
  16. IDEA 一劳永逸的解决 Wrong tag ‘Author:‘ Wrong tag ‘Date:‘ Wrong tag ‘Description:‘ 警告信息
  17. 微软Bing泄露多达6.5TB用户数据:包含搜索记录和位置
  18. 拨开云雾synchronized使用五种方式介绍
  19. 存储调研:GPFS并行文件系统原理解析
  20. 如今的微信时代,这份微信公众号代运营方案值得你去看一下

热门文章

  1. c语言对n个数选择排序_选择排序法 -- C语言
  2. QQ登录的那些坑(如何开发qq登陆功能)
  3. percona innobackupex 使用
  4. 网络视频监控系统解决方案概述
  5. 10.4-全栈Java笔记:常用流详解(二)
  6. Jackson注解学习参考
  7. 读书笔记6pandas简单使用
  8. javascript 给关键字加链接
  9. VMware Server使用经验记录
  10. 【Python学习系列二十九】scikit-learn库实现天池平台智慧交通预测赛