一、关于sklearn fit 和transform

sklearn里的封装好的各种算法使用前都要fit;

fit之后,可以调用各种API方法,transform是其中一个API;

fit原义指的是安装、使适合的意思,有点train的含义,但是和train不同的是,它并不是一个训练的过程,而是一个适配的过程,过程都是确定的,最后得到一个可用于转换的有价值的信息。(目前可以简单理解为:fit获取了关于数据的有效信息,transform利用fit提供的有效信息进行特征转换

二、fit、transform、fit_transform

常用情况分为两大类

1、数据预处理中的使用

fit(): 求得训练集X的均值,方差,最大值,最小值,这些训练集X固有的属性。

transform(): 在fit的基础上,进行标准化,降维,归一化等操作。

fit_transform(): fit和transform的组合,既包括了训练又包含了转换。

使用方法

第一步:fit_transform(trainData)

对trainData进行fit的整体指标,找到该part的整体指标,如均值、方差、最大值最小值等等(根据具体转换的目的);

第二步:transform(testData)

对testData使用同样的均值、方差、最大最小值等指标进行转换,从而保证train、test处理方式相同。

注意:

必须先用fit_transform(trainData),之后再transform(testData)

直接transform(testData),程序会报错

如果fit_transfrom(trainData)后,使用fit_transform(testData)而不transform(testData),虽然也能归一化,但是两个结果不是在同一个“标准”下的,具有明显差异。

2、各种算法的fit,transform方法

例1:CountVectorizer

sklearn的CountVectorizer库根据输入数据获取词频矩阵(稀疏矩阵);

fit(raw_documents) :根据CountVectorizer参数规则进行操作,比如滤除停用词等,拟合原始数据,生成文档中有价值的词汇表;

transform(raw_documents):使用符合fit的词汇表或提供给构造函数的词汇表,从原始文本文档中提取词频,转换成词频矩阵;

fit_transform(raw_documents, y=None):学习词汇词典并返回术语 - 文档矩阵(稀疏矩阵)。

用法:

from sklearn.feature_extraction.textimport CountVectorizer

# 语料

corpus = ['This is the first document.','This is the this second second document.','And the third one.', 'Is this the first document?']

# 将文本中的词转换成词频矩阵

vectorizer = CountVectorizer()

# 计算某个词出现的次数

X = vectorizer.fit_transform(corpus)

# 查看词频结果

print(X.toarray())

如果有训练数据有测试数据,则:

x_train = vectorizer.fit_transform(train_corpus)

x_test = vectorizer.transform(test_corpus)

例2: TfidfTransformer

from sklearn.feature_extraction.textimport CountVectorizer

from sklearn.feature_extraction.textimport TfidfTransformer

# 语料

corpus = ['This is the first document.','This is the this second second document.','And the third one.', 'Is this the first document?']

# 将文本中的词转换成词频矩阵

vectorizer = CountVectorizer()

# 计算某个词出现的次数

X = vectorizer.fit_transform(corpus)

# 类调用

transformer = TfidfTransformer()

# 将词频矩阵统计成TF-IDF值

tfidf = transformer.fit_transform(X)

# 查看数据结构tfidf[i][j]表示i类文本中tf-idf权重

print(tfidf.toarray())

如果有训练数据有测试数据,则:

X_train = vectorizer.fit_transform(train_corpus)

X_test = vectorizer.transform(test_corpus)

tfidf_train = transformer.fit_transform(X_train)

tfidf_test = transformer.transform(X_test)

三、从另一角度理解fit和transform

fit方法的主要工作是获取特征和目标值有价值的信息,transform方法用来对特征进行转换

从可利用信息的角度来说,转换分为无信息转换和有信息转换。

无信息转换是指不利用任何其他信息进行转换,比如指数、对数函数转换等。

有信息转换从是否利用目标值向量又可分为无监督转换和有监督转换。

无监督转换指只利用特征的统计信息的转换,统计信息包括均值、标准差、边界等等,比如标准化、PCA法降维等。

有监督转换指既利用了特征信息又利用了目标值信息的转换,比如通过模型选择特征、LDA法降维等。

只有有信息的转换类的fit方法才实际有用,在这点上,fit方法和模型训练时的fit方法就能够联系在一起了:都是通过分析特征和目标值,提取有价值的信息对于转换类来说是某些统计量;对于模型来说可能是特征的权值系数等。

另外,只有有监督的转换类的fit和transform方法才需要特征和目标值两个参数,即有监督学习的算法fit(x,y)传两个参数。

无监督学习的算法是fit(x),即传一个参数,比如降维、特征提取、标准化。

作者:京漂的小程序媛儿
链接:https://www.jianshu.com/p/55e261ce9b3e
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

Sklearn fit , transform ,fit_transform相关推荐

  1. 机器学习:fit,transform,fit_transform区别(附代码)

    导论: 在机器学习中,我们需要对数据集的数据进行处理,进而使用sklearn库中的一些函数对数据进行数据特征提取,训练模型,其中fit,transform,fit_transform是进行数据的预处理 ...

  2. fit,transform,fit_transform详解

    写在前面 fit和transform没有任何关系,仅仅是数据处理的两个不同环节,之所以出来fit_transform这个函数名,仅仅是为了写代码方便,会高效一点. sklearn里的封装好的各种算法使 ...

  3. scikit_learn中fit()/transform()/fit_transform()区别和联系

    函数功能解释 fit() 根据训练集数据学习得到数据集的特征,比如均值.中位数.标准差等等 transform() 将fit()学到数据集特征,应用到数据集,比如学习到数据集平均数为6,应用到填充数据 ...

  4. fit_transform,fit,transform区别和作用详解!!!!!!

    写在前面 fit和transform没有任何关系,仅仅是数据处理的两个不同环节,之所以出来fit_transform这个函数名,仅仅是为了写代码方便,会高效一点. sklearn里的封装好的各种算法使 ...

  5. sklearn中, fit,fit_transform,transform的区别与联系

    文章乃转载 scikit-learn提供了一系列转换库,他们可以清洗,降维,提取特征等. 在数据转换中有三个很重要的方法,fit,fit_transform,transform ss=Standard ...

  6. sklearn中各算法类的fit,fit_transform和transform函数

    在使用PCA和NFC中有三个函数fit,fit_transform,transform区分不清各自的功能.通过测试,勉强了解各自的不同,在这里做一些笔记. 1.fit_transform是fit和tr ...

  7. sklearn中transform和fit_transform的区别(解决中文向量化特征不一致问题)

    产生问题的原因: 本人在做一个自己的情感分析评测模型,但是在使用sklearn的TfidfVectorizer将分词好的文本转化为向量的时候出现了问题,将分词中文转为词向量后其实他的特征是一定了的也就 ...

  8. sklearn中的fit_transform、获取特征、标签转换

    skearn中有数据预处理的功能,如fit(),transform()和fit_transform(). fit(): 求得训练集X的均值,方差,最大值,最小值,这些训练集X固有的属性. transf ...

  9. sklearn.fit_两个小时后仍在运行吗? 如何控制您的sklearn.fit。

    sklearn.fit by Nathan Toubiana 内森·图比亚纳(Nathan Toubiana) 两个小时后仍在运行吗? 如何控制您的sklearn.fit (Two hours lat ...

  10. 数据分析Python:sklearn数据预处理中fit(),transform()与fit_transform()的区别

    Fit(): Method calculates the parameters μ and σ and saves them as internal objects. 解释:简单来说,就是求得训练集X ...

最新文章

  1. 盘点欧盟反垄断案对整个安卓生态造成的5大影响
  2. 【干货】吴恩达deeplearning.ai专项课程历史文章汇总
  3. 全国计算机等级考试题库二级C操作题100套(第78套)
  4. 升讯威微信营销系统开发教程:(1)订阅号和服务号深入分析
  5. leetcode743. 网络延迟时间(迪杰斯特拉算法)
  6. Spring中BeanFactory和FactoryBean的区别
  7. 第三四五章(PTA复习)
  8. 三种div居中显示方式
  9. html5 斗鱼 苹果,斗鱼ios端——手游直播开播指导
  10. 有道词典java下载电脑版下载不了_网易有道词典电脑版下载
  11. python bottle session-使用beaker让Facebook的Bottle框架支持session功能
  12. 临床数据的区组实验数据分析 - 倾向性评分匹配 (PSM)
  13. 2016蓝桥杯b组java试题及答案_2016年第七届蓝桥杯java B组省赛试题
  14. 游戏设计:何为游戏框架
  15. 【十五】傅里叶变换,拉斯变换,z变换的关系
  16. 代码随想录训练营day27
  17. 从SUMSUNG闪存芯片编号识容量
  18. 拉氏变换差分方程 c语言,怎么求解含零阶保持器拉氏变换的Z变换
  19. matplotlib之pyplot模块——绘制误差棒图 errorbar()
  20. 时间的表示格式,精确到毫秒

热门文章

  1. MAC OS 修改环境变量
  2. SQL导入/导出Excel
  3. Delphi7中默认没有安装的官方控件
  4. 使用Jenkins搭建持续集成环境的方法(二)
  5. 31.前端之html
  6. 数理统计基本原理复习
  7. 统计python文件中的代码,注释,空白对应的行数
  8. 数据结构与算法 第二章习题课
  9. 百倍训练效率提升,微软通用语言表示模型T-ULRv5登顶XTREME
  10. 【KDD 2020】会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合