python计算tfidf sklearn计算

利用python 计算文档的tfidf，步骤大概如下：

读入文档，对文档进行分词，每一段为一个字符串，分词用空格隔开，读入文档是一个长度为该文档段数的列表。

利用vectorizer生成词频矩阵X ，再利用tfidftransformer 生成tfidf矩阵。

代码如下：

import jieba
import numpy as np
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizertext = """
由张一山与唐艺昕主演的新版《鹿鼎记》备受争议，魔改的剧情和夸张的演技让人无法直视。作为主演的张一山承受了大部分观众的炮火，受尽无数吐槽。而在剧中扮演韦小宝老婆之一苏荃的朱珠却在采访中直面差评、硬刚网友，为张一山洗白。尽管大家已经做好了翻拍不如原版的准备，然而还是没有想到这一版本《鹿鼎记》会如此不尽人意，开播前有多受网友期待，开播后就让人感到有多失望。张一山版《鹿鼎记》在经历了剧情魔改、演员演技浮夸这一系列重创后，最终评分惨不忍睹。原以为有“戏骨”张一山坐镇扛剧，这部剧再差也不会差到哪里去，谁曾想整部剧最大的槽点就是张一山本人。过于浮夸的演技，油腻做作的肢体语言，被网友称为“猴式演技”，还有网友无情吐槽张一山“像被鞭子抽了三年的心酸小瘦猴在努力假装快乐活泼”。而朱珠在剧中扮演的则是韦小宝的御姐老婆苏荃，性格大气沉稳、临危不惧。朱珠所饰演的苏荃其实也并没有让人眼前一亮，演技总体来说还是有些流于表面，没有让整部剧口碑力挽狂澜。或许是戏份不多的原因，朱珠在这部戏中并没有被过多讨论，网友的炮火主要还是集中在主演张一山身上。不过朱珠参演的另外一部剧《大秦赋》也同样备受争议，并且戏份过多的朱珠还受到不少吐槽。《大秦赋》这部剧算是高开低走的典型，集结了张鲁一、段奕宏、邬君梅等演技派的历史大剧，是网友们相当期待的一部剧，朱珠在剧中扮演的是一代美人赵姬。作为秦始皇嬴政的生母，赵姬戏份过于拖沓，与嫪毐的情爱纠葛缠绵不断，被网友吐槽将《大秦赋》演成了《大情妇》或者是《嫪毐传》。赵姬这个角色若是演好了定能圈大波粉丝，不过朱珠却将其演绎成了只会傻笑的“傻白甜”，美则美矣，然而没有了灵魂。这边朱珠自己已经受到吐槽不断，受访时还是为旧搭档张一山发声，与给出差评的观众正面刚。朱珠表示张一山虽然看起来古灵精怪，其实是非常成熟并且大男人的一个人，心里也是非常有数。
"""word_list = text.split("\n")
word_list
new_word_list = [i for i in word_list if i != ""]
new_word_listcorpus = [" ".join(jieba.cut(w)) for w in new_word_list]
corpusvectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
word = vectorizer.get_feature_names()
word
freq = X.toarray()
freqtransformer = TfidfTransformer()
tfidf = transformer.fit_transform(X)tfidf.toarray()

python计算tfidf sklearn计算相关推荐

利用JAVA计算TFIDF和Cosine相似度-学习版本
写在前面的话,既然是学习版本,那么就不是一个好用的工程实现版本,整套代码全部使用List进行匹配效率可想而知. [原文转自]:http://computergodzilla.blogspot.com/ ...
[Python+sklearn] 计算混淆矩阵 confusion_matrix()函数
python sklearn 计算混淆矩阵 confusion_matrix()函数参考sklearn官方文档:sklearn.metrics.confusion_matrix. 功能: 计算混淆矩 ...
python - sklearn 计算F1
python - sklearn 计算F1 因为最近写的分类模型需要性能评价 ,常用的分类性能评价有查准率.召回率.准确率.F1 分类问题的常用的包 sklearn ,下面对F1所用的方法进行介绍 ...
python - sklearn 计算精准率（Precision）
python - sklearn 计算查准率因为最近写的分类模型需要性能评价 ,常用的分类性能评价有查准率.召回率.准确率.F1 分类问题的常用的包 sklearn ,下面对查准率所用的方法进行介 ...
鬼吹灯文本挖掘3：关键词提取extract_tags和使用sklearn TfidfTransformer 计算TF-IDF矩阵
鬼吹灯文本挖掘1:jieba分词和CountVectorizer向量化鬼吹灯文本挖掘2:wordcloud 词云展示鬼吹灯文本挖掘3:关键词提取和使用sklearn 计算TF-IDF矩阵鬼吹灯文 ...
jieba.analyse+词性标注+统计出场次数+sklearn计算tfidf值
import jieba.analyse sentence='故今日之责任,不在他人,全在我少年.少年智,则国智.少年富,则国富.少年强,则国强.少年独立,则国独立.少年自由,则国自由.少年进步,则国 ...
python - sklearn 计算准确率
python - sklearn 计算准确率因为最近写的分类模型需要性能评价 ,常用的分类性能评价有准确率.查准率.召回率.F1 分类问题的常用的包 sklearn ,下面对准确率所用的方法进行介 ...
英文关键词计算tf-idf 余弦相似度_TFIDF原理与实践
TF-IDF原理 TF-IDF通常应用于文本关键词提取.要提取一个文章的关键词,一个容易想到的思路就是找到出现次数最多的几个词.这是因为如果某个词很重要,它应该在这篇文章中多次出现.于是,我们进行&q ...
Python实现TF-IDF提取关键词（sklearn库的使用）
TF-IDF算法 TF-IDF算法可用来提取文档的关键词,其主要思想是:如果某个单词在某篇文档中出现的频率很高,并且在其他文章中很少出现,则认为此词为该文档关键词.计算公式如下: Python实现 T ...

python计算tfidf sklearn计算

python计算tfidf sklearn计算相关推荐

最新文章

热门文章