自然语言处理之关键词提取TF-IDF

统计每篇文章重要的词作为这篇文章的关键词，用tf-idf来实现。生产中有很多第三包可以调用，这里记录原理，顺便熟练python

1、公式：

计算词频TF

考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。

或者

计算反文档频率idf

import os
import math
import operator
filepath='H:/data/allfiles/allfiles'
doc_word = dict()
i=0
#统计每篇文章中的词频，及文章总数
for filename in os.listdir(filepath):with open(filepath+'/'+filename,'r',encoding='utf-8') as f:freq_word = dict()for line in f.readlines():words = line.strip().split(' ')if len(words) == '':continuefor word in words :if freq_word.get(word,-1) == -1:freq_word[word] = 1else:freq_word[word] += 1doc_word[filename] = freq_wordi += 1
#统计idf
doc_nums = float(i)
doc_freq = dict()
for filename in doc_word.keys():for word in doc_word[filename].keys():if doc_freq.get(word,-1)==-1:doc_freq[word]=1else:doc_freq[word]+=1
for word in doc_freq.keys():doc_freq[word] =math.log(doc_nums/(doc_freq[word]+1))
#TF-IDF
for filename in doc_word.keys():word_sorted = sorted(doc_word[filename].items(),key=operator.itemgetter(1),reverse=True)for word in doc_word[filename].keys():doc_word[filename][word] = doc_word[filename][word]*doc_freq[word]/float(word_sorted[0][1])print (doc_word[filename])

转载于:https://www.cnblogs.com/students/p/10334236.html

自然语言处理之关键词提取TF-IDF相关推荐

自然语言处理TF-IDF关键词提取算法
1.关键词提取简介关键词是指能反映文本主题或者主要内容的词语.关键词提取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来,是NLP领域的一个重要的子任务.在信息检索中,准确的关键词提取可以大幅提 ...
NLP自然语言处理：关键词提取
基于 TF-IDF 算法的关键词抽取 import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=Fal ...
自然语言处理之——关键词提取(一)
一．摘要本次的分享中,我们将了解目前较常用的关键词提取技术.关键词是代表文章重要内容的一组词.在文本的分类聚类.自动摘要等方面有着重要的作用.还可以让人们更直观便捷的浏览文本信息.在现实的常用文本 ...
NLP算法-关键词提取之Jieba算法库
关键词提取什么叫关键词提取? 关键词提取方法分类有监督无监督优缺点 Jieba 关键词提取 TF/IDF算法 TF-IDF的主要思想如何训练关键词提取算法 demo PageRank算法 T ...
TextRank关键词提取算法
参考:百度AI Studio课程_学习成就梦想,AI遇见未来_AI课程 - 百度AI Studio - 人工智能学习与实训社区 (baidu.com) 1.关键词提取算法分类 1.有监督将关键词提取 ...
关键词提取算法—TF/IDF算法
关键词提取算法一般可分为有监督学习和无监督学习两类. 有监督的关键词提取方法可以通过分类的方式进行,通过构建一个较为完善的词表,然后判断每个文档与词表中的每个词的匹配程度,以类似打标签的方式,达到关键 ...
自然语言处理NLP中文分词，词性标注，关键词提取和文本摘要
NLP相关工具包的介绍 1.1 jieba "结巴"中文分词,理念是做最好的 Python 中文分词组件. 支持三种分词模式: (1)精确模式,试图将句子最精确地切开,适合文本分析 ...
【自然语言处理-1】TF-IDF简单最实用的关键词提取技术
自然语言处理历史阶段时间发展意义早期阶段 1956 年以前香农曾提出过概率模型来描述语言,乔姆斯基提出了基于规则的上下文无关文法.阶段还没有太明确的产出,只有一些简单的拼凑快速发展 195 ...
自然语言处理之hanlp，Python调用与构建，分词、关键词提取、命名主体识别
转载请注明出处:https://blog.csdn.net/HHTNAN HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用.HanLP ...

自然语言处理之关键词提取TF-IDF

自然语言处理之关键词提取TF-IDF相关推荐

最新文章

热门文章