简单的关键词提取的代码 
文章内容关键词的提取分为三大步: 
(1) 分词 
(2) 去停用词 
(3) 关键词提取

分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。具体代码如下:

 1 import jieba
 2 import jieba.analyse
 3
 4 #第一步:分词,这里使用结巴分词全模式
 5 text = '''新闻,也叫消息,是指报纸、电台、电视台、互联网经常使用的记录社会、传播信息、反映时代的一种文体,\
 6 具有真实性、时效性、简洁性、可读性、准确性的特点。\
 7 新闻概念有广义与狭义之分。\
 8 就其广义而言,除了发表于报刊、广播、电视上的评论与专文外的常用文本都属于新闻之列,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等。\
 9 狭义的新闻则专指消息,消息是用概括的叙述方式,比较简明扼要的文字,迅速及时地报道国内外新近发生的、有价值的的事实。\
10 新闻也分公众新闻和小道新闻等。每则新闻在结构上,一般包括标题、导语、主体、背景和结语五部分。\
11 前三者是主要部分,后二者是辅助部分。写法上主要是叙述,有时兼有议论、描写、评论等。
12 '''
13 fenci_text = jieba.cut(text)
14 #print("/ ".join(fenci_text))
15
16 #第二步:去停用词
17 #这里是有一个文件存放要改的文章,一个文件存放停用表,然后和停用表里的词比较,一样的就删掉,最后把结果存放在一个文件中
18 stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ])
19 final = ""
20 for word in fenci_text:
21     if word not in stopwords:
22         if (word != "。" and word != ",") :
23             final = final + " " + word
24 print(final)
25
26 #第三步:提取关键词
27 a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ())
28 b=jieba.analyse.extract_tags(text, topK = 6,   allowPOS = ())
29 print(a)
30 print(b)
31 #text 为待提取的文本
32 # topK:返回几个 TF/IDF 权重最大的关键词,默认值为20。
33 # withWeight:是否一并返回关键词权重值,默认值为False。
34 # allowPOS:仅包括指定词性的词,默认值为空,即不进行筛选。

运行结果如下:

 新闻 也 叫 消息 是 指 报纸 、 电台 、 电视台 、 互联网 经常 使用 的 记录 社会 、 传播 信息 、 反映 时代 的 一种 文体 具有 真实性 、 时效性 、 简洁性 、 可读性 、 准确性 的 特点 新闻 概念 有 广义 与 狭义 之分 就 其 广义 而言 除了 发表 于 报刊 、 广播 、 电视 上 的 评论 与 专文 外 的 常用 文本 都 属于 新闻 之 列 包括 消息 、 通讯 、 特写 、 速写 ( 有 的 将 速写 纳入 特写 之 列 ) 等等 狭义 的 新闻 则 专指 消息 消息 是 用 概括 的 叙述 方式 比较 简明扼要 的 文字 迅速 及时 地 报道 国内外 新近 发生 的 、 有 价值 的 的 事实 新闻 也 分 公众 新闻 和 小道 新闻 等 每则 新闻 在结构上 一般 包括 标题 、 导语 、 主体 、 背景 和 结语 五 部分 前 三者 是 主要 部分 后 二者 是 辅助 部分 写法 上 主要 是 叙述 有时 兼有 议论 、 描写 、 评论 等 [('新闻', 0.4804811569680808), ('速写', 0.2121107125313131), ('消息', 0.20363211136040404), ('特写', 0.20023623445272729), ('狭义', 0.16168734917858588)]
['新闻', '速写', '消息', '特写', '狭义', '广义']

转载于:https://www.cnblogs.com/sxinfo/p/10392428.html

python实现关键词提取相关推荐

  1. python 实现关键词提取

    Python 实现关键词提取 看到一篇很好的关键词提取的论文,<融合LDA与TextRank算法的主题信息抽取方法>.里面对LDA和TextRank的发展过程描述的很详细.如果你跟我一样对 ...

  2. python 英文关键词提取_python 利用jieba.analyse进行 关键词提取

    1.简单应用 代码如下: #!/usr/bin/env python # -*- coding: utf-8 -*- # @File : jieba.analyse.py # @Author: 赵路仓 ...

  3. python文本关键词提取_python提取文本关键词

    python提取关键词textrank算法,将数据库中的数据提取出来,然后进行分析,代码如下 import pymysql import jieba from textrank4zh import T ...

  4. python 英文关键词提取_python提取内容关键词的方法

    python怎么提取关键词 import re f = open("D:/xiangmu/python/xiangmu/gjc.txt", "r", encod ...

  5. python文本关键词提取_python实现关键词提取

    1 importjieba2 importjieba.analyse3 4 #第一步:分词,这里使用结巴分词全模式 5 text = '''新闻,也叫消息,是指报纸.电台.电视台.互联网经常使用的记录 ...

  6. python 英文关键词提取_python TF-IDF算法实现文本关键词提取

    TF(Term Frequency)词频,在文章中出现次数最多的词,然而文章中出现次数较多的词并不一定就是关键词,比如常见的对文章本身并没有多大意义的停用词.所以我们需要一个重要性调整系数来衡量一个词 ...

  7. python 英文关键词提取_如何提取文章的关键词(Python版)

    项目需求: 我们采集来的文章没有关键词,在发布的时候无法设定标签,我们通过代码自动提取出文章的关键词,达到对数据加工的目的. 测试环境: Anaconda Python3.5 Win7 ultmate ...

  8. python 英文文本中的关键词提取

    python 英文关键词提取详细教程: https://opensourcelibs.com/lib/pytextrank # To install from PyPi: 慢就加镜像 -i pytho ...

  9. python关键词讲解大全_python实现关键词提取的示例讲解

    python实现关键词提取的示例讲解 发布时间:2020-09-07 10:10:06

最新文章

  1. c语言枚举3位数相加等于10,C语言 联合和枚举
  2. R语言使用ggplot2包的快速可视化函数qplot绘制散点图实战
  3. java 7zip解压_Apache Commons Compress介绍-JAVA压缩解压7z文件
  4. 前端页面可视化设计工具
  5. 2017西安交大ACM小学期 神器插座 KMP匹配
  6. CentOS查询端口占用和清除端口占用的程序
  7. 前端学习(2840):nevagator导航标签
  8. python asyncio 异步编程---协程
  9. DB2 存储过程中执行动态SQL的两种写法
  10. Bootstrap 弹出提示插件popover 的使用方法
  11. 五环 html css,CSS + radius 五环
  12. Asp.Net Repeater控件绑定泛型ListT的用法
  13. 语音识别基本原理介绍之gmm-hmm续
  14. C语言图形编程中的绘图函数~
  15. 自动适配跳转电脑PC端和手机WAP端
  16. 【红帽认证参考】常见问题解答
  17. 【圈外同学】Day01 一个模型,帮你找到真正热爱的
  18. Linux 命令(211)—— ssh-agent 命令
  19. 趣味Python——如何帮女朋友快速抢票
  20. 计算机打字教程ppt,计算机打字基础教学.ppt

热门文章

  1. php server phpself,nginx中的PATH_INFO为什么会影响$_SERVIER['PHP_SELF']
  2. dede article_eidt_action.php 5.7,织梦dedecmsV5.7后台编辑文章中文标题发布失败的解决方法...
  3. sqlalchemy 增删改
  4. web charset
  5. javascript window.document
  6. git 应用 rebase
  7. flask-前端-requests之response对应关系 text
  8. 人才盘点最佳实践:45页人才盘点的流程与方法,管理梯队模型
  9. vSAN其实很简单-Quickstart是一件很炫的东西
  10. Git学习总结(23)——Git commit message和版本管理规范总结