TF-IDF

  • 用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度
  • 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章的特征
  • 词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数
    - 词频/文章总词数
  • 逆向文件频率 (inverse document frequency, IDF) IDF的主要思想是:如果包含词条t的文档越少, IDF越大 ,如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力
    - log(总文件数目/包含该词语之文件的数目)
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
def cutWord():con1=jieba.cut("扶门切思君之嘱登高望断天涯路。玲珑骰子安红豆,入骨相思知不知。世人谓我恋长安,其实只恋长安某。山有木兮木有枝")con2=jieba.cut("一往情深深几许深山夕照深秋雨 朝暮不依长相思,白首不离长相守。只缘感君一回顾,使我思君朝与暮。衣带渐宽终不悔")con3=jieba.cut("一往情深深几许深山夕照深秋雨。长相思兮长相忆,短相思兮无穷极。早知如此绊人心,何如当初莫相识心悦君兮君不知。")content1=list(con1)content2=list(con2)content3=list(con3)c1=" ".join(content1)c2=" ".join(content2)c3=" ".join(content3)return c1,c2,c3c1,c2,c3=cutWord()tf=TfidfVectorizer()
data=tf.fit_transform([c1,c2,c3])
print(tf.get_feature_names())
data.toarray()

结果:

['一往情深', '不依', '不知', '世人', '之嘱', '人心', '何如', '入骨相思', '其实', '几许', '只恋', '只缘', '君兮君', '回顾', '夕照', '天涯', '山有', '当初', '心悦', '思君', '思君朝', '感君', '我恋', '扶门切', '无穷', '早知如此', '有枝', '望断', '朝暮', '木兮木', '深山', '玲珑', '登高', '白首', '相思', '相识', '秋雨', '红豆', '衣带渐宽终不悔', '长安', '长相', '骰子']array([[0.        , 0.        , 0.16372098, 0.21527341, 0.21527341,0.        , 0.        , 0.21527341, 0.21527341, 0.        ,0.21527341, 0.        , 0.        , 0.        , 0.        ,0.21527341, 0.21527341, 0.        , 0.        , 0.21527341,0.        , 0.        , 0.21527341, 0.21527341, 0.        ,0.        , 0.21527341, 0.21527341, 0.        , 0.21527341,0.        , 0.21527341, 0.21527341, 0.        , 0.        ,0.        , 0.        , 0.21527341, 0.        , 0.43054682,0.        , 0.21527341],[0.21909986, 0.28808999, 0.        , 0.        , 0.        ,0.        , 0.        , 0.        , 0.        , 0.21909986,0.        , 0.28808999, 0.        , 0.28808999, 0.21909986,0.        , 0.        , 0.        , 0.        , 0.        ,0.28808999, 0.28808999, 0.        , 0.        , 0.        ,0.        , 0.        , 0.        , 0.28808999, 0.        ,0.21909986, 0.        , 0.        , 0.28808999, 0.21909986,0.        , 0.21909986, 0.        , 0.28808999, 0.        ,0.21909986, 0.        ],[0.20067835, 0.        , 0.20067835, 0.        , 0.        ,0.26386791, 0.26386791, 0.        , 0.        , 0.20067835,0.        , 0.        , 0.26386791, 0.        , 0.20067835,0.        , 0.        , 0.26386791, 0.26386791, 0.        ,0.        , 0.        , 0.        , 0.        , 0.26386791,0.26386791, 0.        , 0.        , 0.        , 0.        ,0.20067835, 0.        , 0.        , 0.        , 0.4013567 ,0.26386791, 0.20067835, 0.        , 0.        , 0.        ,0.20067835, 0.        ]])

【机器学习】特征提取-TFIDF相关推荐

  1. python tfidf特征变换_Spark MLlib机器学习开发指南(4)--特征提取--TF-IDF

    基于最新2.2.0版本翻译 本节介绍和特征一起工作的算法,大致分为以下几类:提取:从原始数据提取特征 转换:缩放,转换,或者修改特征 选择:从一个大的特征集合里面选择一个子集 局部敏感哈希(LSH): ...

  2. 基于机器学习和TFIDF的情感分类算法,详解自然语言处理

    摘要:这篇文章将详细讲解自然语言处理过程,基于机器学习和TFIDF的情感分类算法,并进行了各种分类算法(SVM.RF.LR.Boosting)对比 本文分享自华为云社区<[Python人工智能] ...

  3. [Python人工智能] 二十三.基于机器学习和TFIDF的情感分类(含详细的NLP数据清洗)

    从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章分享了自定义情感词典(大连理工词典)实现情感分析和情绪分类的过程.这篇文章将详细讲解自然语言处理过程,基于机器学习 ...

  4. 离线轻量级大数据平台Spark之MLib机器学习库TF-IDF实例

    TF-IDF(termfrequency–inverse document frequency)是TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度.字词的 ...

  5. 【机器学习】特征提取

    特征提取 目标 应用DictVectorizer实现对类别特征进行数值化.离散化 应用CountVectorizer实现对文本特征进行数值化 应用TfidfVectorizer实现对文本特征进行数值化 ...

  6. python的特征提取实验一_Spark 2.1.0 入门:特征抽取 — TF-IDF(Python版)

    这一部分我们主要介绍和特征处理相关的算法,大体分为以下三类: 特征抽取:从原始数据中抽取特征 特征转换:特征的维度.特征的转化.特征的修改 特征选取:从大规模特征集中选取一个子集 特征提取 TF-ID ...

  7. 决策树算法之特征工程-特征提取

    决策树算法之特征工程-特征提取 什么是特征提取呢?   [把数据转化为机器更加容易识别的数据] 1 特征提取 1.1 定义 将任意数据(如文本或图像)转换为可用于机器学习的数字特征 注:特征值化是为了 ...

  8. 【机器学习】特征工程

    目录 数据集 可用数据集 sklearn数据集 特征提取 字典 文本 特征预处理 无量纲化 归一化 标准化 特征降维 特征选择 主成分分析(PCA降维) 数据集 下面列举了一些示例来说明哪些内容能算作 ...

  9. 机器学习及算法-python

    1.机器学习工作流程 1.获取数据 数据简介 在数据集中一般: 一行数据我们称为一个样本 一列数据我们成为一个特征 有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目 ...

最新文章

  1. 结构题直接定义赋值语句
  2. SqlParameter
  3. 【bzoj5016】[Snoi2017]一个简单的询问 莫队算法
  4. Python零基础教程:函数和类内建魔法属性
  5. java多线程w3c_多线程
  6. 卷积输出的记录,为什么是([3, 0, 1, 2])
  7. 神奇的CAReplicatorLayer
  8. 【Logstash】Logstash:把MySQL数据导入到Elasticsearch中
  9. 一分钟看懂mysql_冬天发财树“最怕”它,遇上就烂根,一分钟看懂就能养好
  10. quartz mysql数据源_配置quartz数据源的三种方式
  11. 计算机病毒实践汇总三:动态分析基础(分析程序)
  12. flutter 判断是不是调试模式_当永恒的软键盘问题遇到Flutter
  13. 2022年4月最新面经答案总结(Java基础、数据库、JVM、计网、计操、集合、多线程、Spring)持续更新
  14. CANFD MCP2517FD 滤波ID设置例子
  15. mysql中转换日期格式,MySQL日期格式转换
  16. OSN 3500 SDH智能光传输系统整机与单板技术分享
  17. 第二块显示屏(扩展屏)左右调整
  18. 技术解析 | 云游戏在未来如何实现?
  19. 网吧遭雷击“瘫痪” 专家:别忘加保护装置(转)
  20. 计算机专业英语教程(第二版)Chapter 4 Database Fundamentals

热门文章

  1. SpringBoot集成mysql-connector-java数据库驱动
  2. Vue.js函数的生命周期
  3. Python网络爬虫实战(四)模拟登录
  4. mysql 一 、关系模型——主键——外键——索引
  5. 目前市场上流行的嵌入式操作系统
  6. log4j升级为log4j2(无需改动代码)
  7. Windows10删除蓝牙设备
  8. 微信定位精灵服务器或网络异常,为什么微信定位精灵定位不了怎么办?
  9. 手撸架构,Redis面试41问
  10. Error: Transaction check error: package managesoft-13.1.1-1.x86_64 does not verify: no digest