TF-IDF算法

TF-IDF算法可用来提取文档的关键词，其主要思想是：如果某个单词在某篇文档中出现的频率很高，并且在其他文章中很少出现，则认为此词为该文档关键词。计算公式如下：

Python实现

TfidfVectorizer是sklearn中的库，可以用来计算TF-IDF值。

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ['This is the first document.','This document is the second document.','And this is the third one.','Is this the first document?',]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.shape)

TfidfVectorizer=TfidfTransformer + CountVectorizer
fit_transform方法将语料转化成TF-IDF权重矩阵，get_feature_names方法可得到词汇表。
输出如下：

将权重矩阵转化成array：

X.toarray()

可以看到是4行9列，m行n列处值的含义是词汇表中第n个词在第m篇文档的TF-IDF值。提取单篇文档的关键词只需要将矩阵按行的值从大到小排序取前几个即可。如果要提取所有文档的关键词，我们可以将矩阵按列求和，得到每个词汇综合TF-IDF值。

X.toarray().sum(axis=0)

转化成dataframe，再排序。

data = {'word': vectorizer.get_feature_names(),'tfidf': X.toarray().sum(axis=0).tolist()}
df = pd.DataFrame(data)
df.sort_values(by="tfidf" , ascending=False)
df

好啦，完成。假如取前三个为关键词，那么就是“document”、“is”和“the”。

Python实现TF-IDF提取关键词（sklearn库的使用）相关推荐

关键词提取算法—TF/IDF算法
关键词提取算法一般可分为有监督学习和无监督学习两类. 有监督的关键词提取方法可以通过分类的方式进行,通过构建一个较为完善的词表,然后判断每个文档与词表中的每个词的匹配程度,以类似打标签的方式,达到关键 ...
python提取关键词分类_用Py做文本分析5：关键词提取
1.关键词提取关键词指的是原始文档的和核心信息,关键词提取在文本聚类.分类.自动摘要等领域中有着重要的作用. 针对一篇语段,在不加人工干预的情况下提取出其关键词首先进行分词处理关键词分配:事先给 ...
python中如何提取列表中的关键词_python中怎么提取关键词
简单的关键词提取文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取分词方法有很多,我这里就选择常用的结巴jieba分词:去停用词,我用了一个停用词表.具体代码如下 ...
python中文模糊关键词提取_用Python给你的文本提取关键词
对代码.编程感兴趣的可以关注「老K玩代码」公众号和我交流!分享代码.经验.项目和资讯用Python给你的文本提取关键词关键词提取是自然语言处理中常见的业务模块; 要实现关键词提取,Python ...
ID3决策树 Python实现 + sklearn库决策树模型的应用
本文介绍机器学习中决策树算法的python实现过程共介绍两类方法: (1)亲手实习Python ID3决策树经典算法 (2)利用sklearn库实现决策树算法关于决策树的原理,指路:机器学习第四 ...
利用python制作词云图，分词，提取关键词
利用python制作词云图保姆及教程前言一.环境配置 1.要有python的运行环境 2.需要导入jieba ,wordcloud等模块 pip install jieba pip install ...
Python——利用AC自动机进行关键词提取
Python--利用AC自动机进行关键词提取目标:在之前写的文章[Python实现多模匹配--AC自动机]基础上,安装gcc(C编译器),再装ahocorasick ,并完成从文本中提取关键词的任务 ...
Python: sklearn库——数据预处理
Python: sklearn库 -- 数据预处理数据集转换之预处理数据: 将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化. 原因:数据集的标准化(服从均 ...
python对逻辑回归进行显著性_python sklearn库实现简单逻辑回归的实例代码
Sklearn简介 Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression).降维(Dimensionality Red ...
python分类算法的应用_Python基于sklearn库的分类算法简单应用示例
Python基于sklearn库的分类算法简单应用示例来源:中文源码网浏览: 次日期:2018年9月2日 [下载文档: Python基于sklearn库的分类算法简单应用示例.tx ...

Python实现TF-IDF提取关键词（sklearn库的使用）

TF-IDF算法

Python实现

Python实现TF-IDF提取关键词（sklearn库的使用）相关推荐

最新文章

热门文章