我刚开始学习随机森林,所以如果这听起来很愚蠢我很抱歉

使用vectorizer.fit_transform(“清洁评论列表*上的*”)

现在当我们在火车评论上准备一堆单词数组时,我们在火车评论列表中使用了fit_predict,现在我知道fit_predict做了两件事,>首先,它适合数据并知道词汇,然后在每次审核时生成向量.

因此,当我们使用vectorizer.transform(“清洁列车评论列表”)时,这只是将测试评论列表转换为每个评论的向量.

我的问题是…..为什么不在测试列表上使用fit_transform !!我的意思是在文件中它说它会导致过度拟合,但等待它对我来说是否有意义使用它反正,让我给你我的预期:

当我们不使用fit_transform时,我们基本上是说使用最常用的火车评论词来制作测试评论的特征向量!!为什么不使用测试中最频繁的单词来制作测试特征数组呢?

我的意思是随机关怀吗?如果我们给随机森林火车特征数组和训练特征情绪工作和训练自己,然后给它测试特征数组不会只是给出它的情绪预测.

注意:我可能没有以正确的方式询问,但是当人们试图回答时,我会更新问题更清楚..

解决方法:

您没有对测试数据执行fit_transform,因为当您适应随机森林时,随机森林会根据您提供的功能的值来学习分类规则.如果要应用这些规则来对测试集进行分类,则需要确保使用相同的词汇表以相同的方式计算测试要素.如果训练的词汇和测试特征不同,那么特征就不会真正有意义,因为它们会反映出与训练文档不同的词汇.

现在,如果我们专门讨论CountVectorizer,那么请考虑以下示例,让您的训练数据包含以下3个句子:

>狗是黑色的.

>天空是蓝色的.

>狗在跳舞.

现在为此设置的词汇将是{Dog,is,black,sky,blue,dancing}.现在,您将训练的随机森林将尝试根据这6个词汇表的计数来学习规则.因此,您的功能将是长度为6的向量.现在,如果测试集如下:

>狗是白色的.

>天空是黑色的.

现在,如果您使用fit_transform的测试数据,您的词汇将看起来像{Dog,white,is,Sky,black}.因此,您的每个文档将由长度为5的向量表示,表示每个术语的计数.现在,这就像将苹果与橙子进行比较一样.您将学习先前词汇计数的规则,并且这些规则不能应用于此词汇表.这就是您只适合训练数据的原因.

希望有所帮助!

标签:python,tokenize,scikit-learn,random-forest

python中fit是什么意思_python – 在sklearn countvectorizer中fit_transform和transform之间有什么区别?...相关推荐

  1. python第三方库文件传输助手_python实现文件助手中查看微信撤回消息

    利用python实现防撤回,对方撤回的消息可在自己的微信文件传输助手中查看. 如果想变成可执行文件放在电脑中运行,可用pyinstaller将此程序打包成exe文件. pyinstaller 文件名. ...

  2. python中frame是什么意思_Python实例之wxpython中Frame使用方法

    本节为大家分享的例子是wxpython Frame的用法. 例子: #!/usr/bin/python # -*- coding: GBK -*- # simple.py import wx app ...

  3. python读取字符串指定位置字符_python读取txt文件中特定位置字符的方法

    python读取txt文件中特定位置字符的方法 如下所示: # -*- coding:utf-8 -*- import sys reload(sys) sys.setdefaultencoding(' ...

  4. python中matrix是什么意思_Python与线性代数——Numpy中的matrix()和array()的区别

    Numpy中matrix必须是2维的,但是 numpy中array可以是多维的(1D,2D,3D····ND).matrix是array的一个小的分支,包含于array.所以matrix 拥有arra ...

  5. python中fit是什么意思_Python机器学习中fit_intercept=True是什么意思?

    参数fit_intercept=True的解释 ●sklearn.linear_model.LinearRegression(fit_intercept=True) ●通过正规方程优化 ●fit_in ...

  6. python试题for循环布尔值_Python自我修炼(升仙中....整数,布尔值,字符串,for循环)

    索引(下标) 索引就是下标,下标从0开始,取值时索引所选长度不可以超过其本身. s1 = "python学习" print(s1[0]) # 获取第0个索引所对应的的元素. pri ...

  7. python 列表有几个元素_python怎么向列表中添加多个元素

    python的列表是多变灵活的数据结构,向列表中添加元素,可以使用append()方法,或者extend()方法,还可使用insert()方法.insert() 主要用来插入元素,当向列表末尾添加元素 ...

  8. python正则表达式提取数字比较好_python正则表达式从字符串中提取数字的思路详解...

    python从字符串中提取数字 使用正则表达式,用法如下: ## 总结 ## ^ 匹配字符串的开始. ## $ 匹配字符串的结尾. ## \b 匹配一个单词的边界. ## \d 匹配任意数字. ## ...

  9. python空值填充为固定值_Python基础:numpy中空值怎样设置

    今天小编为大家带来在numpy中如何设置空值的办法,下面一起来看看吧. 我不明白为什么我会以0而不是不满足条件的空值或空值结尾... b是一个用0和1值填充的numpy数组,c是另一个完全填充的num ...

最新文章

  1. Browser Security-超文本标记语言(HTML)
  2. Android 多线程下载 显示进度 速度
  3. [LeetCode]Implement Trie (Prefix Tree)
  4. golang database/sql包 简介
  5. 深入浅出JMS(一)——JMS简单介绍
  6. 基于KVM虚拟化搭建lamp
  7. html 圆圈项目符号,html – 列表项下的项目符号
  8. android视频播放器sdk对比,Android项目之android SDK视频播放与vitamio视频播放
  9. 模块 calendar
  10. SOCKET 478/775是两种主板的CPU接口类型
  11. Effective C++ Notebook
  12. 软考—软件设计师(软件工程基础知识)
  13. Several ports (8005, 8080, 8009) required by demo are already in use. The server may already be runn
  14. keep-alive 组件缓存的用法
  15. 关于团队敏捷流程的思考
  16. 发现 3 个已存在的 RPM 数据库问题, 'yum check' 输出如下 解决办法
  17. 操作系统的内核到底是什么?
  18. Linux网络操作系统期末系统复习题
  19. 电磁场与仿真软件(29)
  20. strcmp函数(讲解)

热门文章

  1. 武汉 光谷创业街SBI
  2. WPS JS宏编程是什么
  3. 测试无线电频率的软件叫什么,软件无线电基础知识 | DigiKey
  4. 小白如何在CSDN写博客(干货)
  5. NoteBurner iTunes DRM Audio Converter for Mac(Mac音频转换器)
  6. QLabel 设置背景图片的方法和解决图片太大不能完显示办法
  7. 如何在 Linux 中删除目录
  8. 全国计算机信息安全学院排名,2021年中国信息安全专业大学排名「大学专业排名」...
  9. Twitch遭遇了可能是近年来最严重的数据泄露
  10. sql sum,group by 分组求和后在求总和,with rollup,with cube的区别