自然语言处理(NLP)之gensim中的TF-IDF的计算方法

step 1. 去掉所有文本中都会出现的词

texts = [['这是', '一个', '文本'], ['这是', '第二个', '文本'], ['这是', '又一个', '文本'], ['这是', '最后', '一个', '文本']]

去掉所有文本中均出现的词后的文本:

texts_filter = [['一个'], ['第二个'], ['又一个'], ['最后', '一个']]

step 2. 计算文本中剩余单词的tf-idf值，默认得计算公式：

tf_idf = word_freq * log（全部文本数 / 包含该词的文本数）

这里不需要做平滑化的处理，因为已经把全部文本中都会出现的词拿掉了

示例代码：

from gensim import corpora
from gensim.models.tfidfmodel import TfidfModeltexts = [['这是', '一个', '文本'], ['这是', '第二个', '文本'], ['这是', '又一个', '文本'], ['这是', '最后', '一个', '文本']]
dictionary = corpora.Dictionary(texts)
print(dictionary)corpus = [dictionary.doc2bow(text) for text in texts]
print(corpus)tf_idf_model = TfidfModel(corpus, normalize=False)
word_tf_idf = list(tf_idf_model[corpus])print('词典：', dictionary.token2id)
print('词频：', corpus)
print('词的tf-idf值：', word_tf_idf)

运行结果：

Dictionary(6 unique tokens: ['一个', '文本', '这是', '第二个', '又一个']...)
[[(0, 1), (1, 1), (2, 1)], [(1, 1), (2, 1), (3, 1)], [(1, 1), (2, 1), (4, 1)], [(0, 1), (1, 1), (2, 1), (5, 1)]]
词典： {'一个': 0, '文本': 1, '这是': 2, '第二个': 3, '又一个': 4, '最后': 5}
词频： [[(0, 1), (1, 1), (2, 1)], [(1, 1), (2, 1), (3, 1)], [(1, 1), (2, 1), (4, 1)], [(0, 1), (1, 1), (2, 1), (5, 1)]]
词的tf-idf值： [[(0, 1.0)], [(3, 2.0)], [(4, 2.0)], [(0, 1.0), (5, 2.0)]]

自然语言处理(NLP)之gensim中的TF-IDF的计算方法相关推荐

tf-idf词向量和bow_使用词袋Bow和TF IDF进行多标签分类
tf-idf词向量和bow 1.加载数据 (1. Load the data) For this study, we are using Kaggle data for Toxic Comment C ...
大数据分析深度学习在自然语言处理NLP中的应用
通过深度学习的先进技术,自然语言处理取得了令人难以置信的进步.了解这些强大的模型,并发现这些方法与人类水平的理解有多近(或遥远). 人类有很多感觉,但我们的感官体验通常以视觉为主.考虑到这一点,现代机 ...
【自然语言处理】Gensim中的Word2Vec
Gensim中的Word2Vec BOW 和 TF-IDF 都只着重于词汇出现在文件中的次数,未考虑语言.文字有上下文的关联,针对上下文的关联,Google 研发团队提出了词向量 Word2vec,将 ...
[深度学习] 自然语言处理 --- NLP入门指南
NLP的全称是Natuarl Language Processing,中文意思是自然语言处理,是人工智能领域的一个重要方向自然语言处理(NLP)的一个最伟大的方面是跨越多个领域的计算研究,从人工智能 ...
自然语言处理(NLP)之TF-IDF原理及使用
TF-IDF介绍 TF-IDF是NLP中一种常用的统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,通常用于提取文本的特征,即关键词.字词的重要性随着它在文件中出现的次数 ...
自然语言处理(NLP)之使用TF-IDF模型计算文本相似度
自然语言处理(NLP)之使用TF-IDF模型计算文本相似度所用数据集:ChnSentiCorp_htl_all.csv 语料库即存放稀疏向量的列表. 要注意的是,搜索文本text与被检索的文档共用一 ...
自然语言处理nlp全领域综述
************************* 精华总结,时间不够只看这个部分就行了 1.书和课 Michael Collins:COMS W4705: Natural Language Proc ...
自然语言处理NLP中文分词，词性标注，关键词提取和文本摘要
NLP相关工具包的介绍 1.1 jieba "结巴"中文分词,理念是做最好的 Python 中文分词组件. 支持三种分词模式: (1)精确模式,试图将句子最精确地切开,适合文本分析 ...
使用自然语言处理来检测电子邮件中的垃圾邮件
Have you ever wondered how a machine translates language? Or how voice assistants respond to questio ...

自然语言处理(NLP)之gensim中的TF-IDF的计算方法

自然语言处理(NLP)之gensim中的TF-IDF的计算方法

自然语言处理(NLP)之gensim中的TF-IDF的计算方法相关推荐

最新文章

热门文章