利用python 计算文档的tfidf,步骤大概如下:

读入文档,对文档进行分词,每一段为一个字符串,分词用空格隔开,读入文档是一个长度为该文档段数的列表。

利用vectorizer生成词频矩阵X , 再利用tfidftransformer 生成tfidf矩阵。

代码如下:

import jieba
import numpy as np
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizertext = """
由张一山与唐艺昕主演的新版《鹿鼎记》备受争议,魔改的剧情和夸张的演技让人无法直视。作为主演的张一山承受了大部分观众的炮火,受尽无数吐槽。而在剧中扮演韦小宝老婆之一苏荃的朱珠却在采访中直面差评、硬刚网友,为张一山洗白。尽管大家已经做好了翻拍不如原版的准备,然而还是没有想到这一版本《鹿鼎记》会如此不尽人意,开播前有多受网友期待,开播后就让人感到有多失望。张一山版《鹿鼎记》在经历了剧情魔改、演员演技浮夸这一系列重创后,最终评分惨不忍睹。原以为有“戏骨”张一山坐镇扛剧,这部剧再差也不会差到哪里去,谁曾想整部剧最大的槽点就是张一山本人。过于浮夸的演技,油腻做作的肢体语言,被网友称为“猴式演技”,还有网友无情吐槽张一山“像被鞭子抽了三年的心酸小瘦猴在努力假装快乐活泼”。而朱珠在剧中扮演的则是韦小宝的御姐老婆苏荃,性格大气沉稳、临危不惧。朱珠所饰演的苏荃其实也并没有让人眼前一亮,演技总体来说还是有些流于表面,没有让整部剧口碑力挽狂澜。或许是戏份不多的原因,朱珠在这部戏中并没有被过多讨论,网友的炮火主要还是集中在主演张一山身上。不过朱珠参演的另外一部剧《大秦赋》也同样备受争议,并且戏份过多的朱珠还受到不少吐槽。《大秦赋》这部剧算是高开低走的典型,集结了张鲁一、段奕宏、邬君梅等演技派的历史大剧,是网友们相当期待的一部剧,朱珠在剧中扮演的是一代美人赵姬。作为秦始皇嬴政的生母,赵姬戏份过于拖沓,与嫪毐的情爱纠葛缠绵不断,被网友吐槽将《大秦赋》演成了《大情妇》或者是《嫪毐传》。赵姬这个角色若是演好了定能圈大波粉丝,不过朱珠却将其演绎成了只会傻笑的“傻白甜”,美则美矣,然而没有了灵魂。这边朱珠自己已经受到吐槽不断,受访时还是为旧搭档张一山发声,与给出差评的观众正面刚。朱珠表示张一山虽然看起来古灵精怪,其实是非常成熟并且大男人的一个人,心里也是非常有数。
"""word_list = text.split("\n")
word_list
new_word_list = [i for i in word_list if i != ""]
new_word_listcorpus = [" ".join(jieba.cut(w)) for w in new_word_list]
corpusvectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
word = vectorizer.get_feature_names()
word
freq = X.toarray()
freqtransformer = TfidfTransformer()
tfidf = transformer.fit_transform(X)tfidf.toarray()

python计算tfidf sklearn计算相关推荐

  1. 利用JAVA计算TFIDF和Cosine相似度-学习版本

    写在前面的话,既然是学习版本,那么就不是一个好用的工程实现版本,整套代码全部使用List进行匹配效率可想而知. [原文转自]:http://computergodzilla.blogspot.com/ ...

  2. [Python+sklearn] 计算混淆矩阵 confusion_matrix()函数

    python sklearn 计算混淆矩阵 confusion_matrix()函数 参考sklearn官方文档:sklearn.metrics.confusion_matrix. 功能: 计算混淆矩 ...

  3. python - sklearn 计算F1

    python - sklearn 计算F1 因为最近写的分类模型需要性能评价 ,常用的分类性能评价有 查准率.召回率.准确率.F1 分类问题的常用的包 sklearn ,下面对F1所用的方法进行介绍 ...

  4. python - sklearn 计算精准率(Precision)

    python - sklearn 计算查准率 因为最近写的分类模型需要性能评价 ,常用的分类性能评价有 查准率.召回率.准确率.F1 分类问题的常用的包 sklearn ,下面对查准率所用的方法进行介 ...

  5. 鬼吹灯文本挖掘3:关键词提取extract_tags和使用sklearn TfidfTransformer 计算TF-IDF矩阵

    鬼吹灯文本挖掘1:jieba分词和CountVectorizer向量化 鬼吹灯文本挖掘2:wordcloud 词云展示 鬼吹灯文本挖掘3:关键词提取和使用sklearn 计算TF-IDF矩阵 鬼吹灯文 ...

  6. jieba.analyse+词性标注+统计出场次数+sklearn计算tfidf值

    import jieba.analyse sentence='故今日之责任,不在他人,全在我少年.少年智,则国智.少年富,则国富.少年强,则国强.少年独立,则国独立.少年自由,则国自由.少年进步,则国 ...

  7. python - sklearn 计算准确率

    python - sklearn 计算准确率 因为最近写的分类模型需要性能评价 ,常用的分类性能评价有 准确率.查准率.召回率.F1 分类问题的常用的包 sklearn ,下面对准确率所用的方法进行介 ...

  8. 英文关键词计算tf-idf 余弦相似度_TFIDF原理与实践

    TF-IDF原理 TF-IDF通常应用于文本关键词提取.要提取一个文章的关键词,一个容易想到的思路就是找到出现次数最多的几个词.这是因为如果某个词很重要,它应该在这篇文章中多次出现.于是,我们进行&q ...

  9. Python实现TF-IDF提取关键词(sklearn库的使用)

    TF-IDF算法 TF-IDF算法可用来提取文档的关键词,其主要思想是:如果某个单词在某篇文档中出现的频率很高,并且在其他文章中很少出现,则认为此词为该文档关键词.计算公式如下: Python实现 T ...

最新文章

  1. Ubuntu 16.04 安装 PyInstaller
  2. Camera噪声问题
  3. C++基础:C++类成员属性的一种简洁实现
  4. 葡萄城报表介绍:交叉报表
  5. __VA_ARGS__宏
  6. echarts中x轴文字过长换行处理和倾斜处理。
  7. 提升方法之AdaBoost算法
  8. 个人工作总结04(冲刺二)
  9. linux 新建用户、用户组 以及为新用户分配权限
  10. 《Reids 设计与实现》第八章 AOF持久化
  11. Struts 2读书笔记-----使用Action的动态方法调用
  12. Ubuntu16.04安装Spacevim插件
  13. 正式学习python的第0天
  14. mysql 插入汉字出现问号 解决方法
  15. Camshift算法
  16. excel自动调整列宽_EXCEL选择性粘贴,这些招数你用过吗?
  17. Oracle 18c十大新特性
  18. Markdown语法-表格内换行
  19. 一文读懂V8垃圾回收机制——新生代Scavenge、老生代Mark-Sweep和Mark-Compact
  20. s8 android 8.0变化,三星s8何时能更新android8.0

热门文章

  1. 财务 计算机网络,计算机网络技术在财务系统中的应用
  2. android代码记录日期,Android日期和时间选择器实现代码
  3. 【控制】《复杂运动体系统的分布式协同控制与优化》-方浩老师-第1章-绪论
  4. 【Paper】41_[24]novel type of phase transition in a system of self-driven particles
  5. STM32 基础系列教程 42 - SDMMC+Fatfs
  6. STM32 基础系列教程 4 – 基本定时器
  7. cocos2dx 引入 libpomelo库
  8. 不同项目配置不同的 Git 账号
  9. 使用PyCharm创建Django项目及基本配置
  10. 程序员常犯的五个非技术性错误