NLP自然语言处理：关键词提取

基于 TF-IDF 算法的关键词抽取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
- sentence 为待提取的文本
- topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
- withWeight 为是否一并返回关键词权重值，默认值为 False
- allowPOS 仅包括指定词性的词，默认值为空，即不筛选

提取例子：

import jieba.analyse as analyse
import pandas as pd
df = pd.read_csv('./origin_data/technology_news.csv')
df = df.dropna()
lines = df.content.values.tolist()
content = "".join(lines)
print("  ".join(analyse.extract_tags(content, topK=30, withWeight=False, allowPOS=())))

基于 TextRank 算法的关键词抽取

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) 直接使用，接口相同，注意默认过滤词性。
jieba.analyse.TextRank() 新建自定义 TextRank 实例

算法论文：http://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

基本思想:

将待抽取关键词的文本进行分词
以固定窗口大小(默认为5，通过span属性调整)，词之间的共现关系，构建图
计算图中节点的PageRank，注意是无向带权图

TextRank的核心就是PageRank，PageRank介绍：https://www.jianshu.com/p/f6d66ab97332

提取例子：

import jieba.analyse as analyse
import pandas as pd
df = pd.read_csv("./origin_data/military_news.csv", encoding='utf-8')
df = df.dropna()
lines=df.content.values.tolist()
content = "".join(lines)print("  ".join(analyse.textrank(content, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))))
print("---------------------我是分割线----------------")
print("  ".join(analyse.textrank(content, topK=20, withWeight=False, allowPOS=('ns', 'n'))))

NLP自然语言处理：关键词提取相关推荐

NLP实战文本关键词提取
+是加法.行尾的\在下一行继续当前语句或表达式,即续行. 实战项目简介文本关键词提取,顾名思义,关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征.信息检索.系统汇集以供读者检阅. ...
【NLP】文本关键词提取的两种方法-TFIDF和TextRank
背景前两天看到论文<Chinese Poetry Generation with Planning based Neural Network>中使用TextRank进行关键词提取.在阅读 ...
tfidf关键词提取_基于深度学习的个性化商品评论标签提取
商品评论标签提取作为商品评论中的一个比较有意思的问题.评论标签提取的主要任务是从评论中了解到用户对产品的哪些功能.属性进行了怎样的评论,并抽取成简短有效的信息. 关键词提取Vs评论标签提取商品标签提 ...
自然语言处理NLP中文分词，词性标注，关键词提取和文本摘要
NLP相关工具包的介绍 1.1 jieba "结巴"中文分词,理念是做最好的 Python 中文分词组件. 支持三种分词模式: (1)精确模式,试图将句子最精确地切开,适合文本分析 ...
自然语言处理之hanlp，Python调用与构建，分词、关键词提取、命名主体识别
转载请注明出处:https://blog.csdn.net/HHTNAN HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用.HanLP ...
NLP学习笔记 01 分词、词性标注和关键词提取
目录 1.1 准确分词 level1 使用jieba自定义词典 + 正则表达式准确分词 1.2 准确分词 level2 1.3 词性标注 1.4 关键词提取 1.1 准确分词 level1 中文自动分 ...
自然语言处理TF-IDF关键词提取算法
1.关键词提取简介关键词是指能反映文本主题或者主要内容的词语.关键词提取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来,是NLP领域的一个重要的子任务.在信息检索中,准确的关键词提取可以大幅提 ...
NLP算法-关键词提取之Jieba算法库
关键词提取什么叫关键词提取? 关键词提取方法分类有监督无监督优缺点 Jieba 关键词提取 TF/IDF算法 TF-IDF的主要思想如何训练关键词提取算法 demo PageRank算法 T ...
NLP - 关键词提取 - TextRank
NLP - 关键词提取 - TextRank 一.TextRank介绍二.PageRank介绍三.PageRank计算过程四.关键词提取任务一.TextRank介绍 TextRank算法则可以 ...
系统学习NLP（二十一）--关键词提取算法总结
先说一下自动文摘的方法.自动文摘(Automatic Summarization)的方法主要有两种:Extraction和Abstraction.其中Extraction是抽取式自动文摘方法,通过提取 ...

NLP自然语言处理：关键词提取

基于 TF-IDF 算法的关键词抽取

基于 TextRank 算法的关键词抽取

NLP自然语言处理：关键词提取相关推荐

最新文章

热门文章