jieba分词是一个很不错的中文分词库,其中关键词提取常用,不同的提取方式结果略有不同,关键词提取优化还是可以做一下的。

import os
import pathlib
import jieba
import jieba.analyse
from collections import Counterdef getfile():#获取当前子目录wenzhang1下的所有txt文档filetp=''targcwd=os.path.join(os.getcwd(),'wenzhang1')filelist=list(sorted(pathlib.Path(targcwd).glob('*.txt')))filetp=[str(tp) for tp in filelist]return filetpdef duibi(file_cut0):#对比三种关键词提取结果#读文本-----这里只能正确读取UTF-8的文本filetxt=[]with open(file_cut0,'r',encoding='utf-8',errors='ignore')as f:filetxt=f.readlines()filewords=''.join(filetxt)# TF-IDF 算法print('*'*40)tags = jieba.analyse.extract_tags(filewords, topK=20)print(tags)#TextRank 算法print('*'*40)for x,w in jieba.analyse.textrank(filewords, topK=20,withWeight=True):print('%s %s' % (x, w))tags=jieba.analyse.textrank(filewords, topK=20)print(tags)#精确模式分词频率统计print('*'*40)filecut=jieba.cut(filewords)ct=dict(Counter(filecut))ctt=dict(sorted(ct.items(),key=lambda x:x[1],reverse=True))ctt=dict([xx for xx in ctt.items() if(len(xx[0])>1)])ctt=list(ctt.keys())[:30]print(ctt)if __name__=='__main__':filetp=getfile()if filetp:file_cut0=''for file0 in filetp:if '动态社会系统' in file0:file_cut0=file0if file_cut0:duibi(file_cut0)

关注Python开发练习,200G学习资源免费送,还可以免费处理2.5小时以内的各类小Task。

Python开发练习-对比三种jieba分词的关键词提取结果相关推荐

  1. jieba分词浅析---关键词提取

    最近公司在做一个分词的项目,所以对分词有所研究,再经过整个项目的不断调整逐渐对分词有了更深入的了解,下面是我自己对分词的一些理解,希望能对大家有一定的帮助,也希望大家多多指点,如果有什么不对的地方请尽 ...

  2. python分词训练_python练习17:用jieba分词做关键词提取,用matplotlib做可视化

    jieba分词 是一款开源的中文分词包,同时它还带有分析模块,可以用TF-IDF等算法进行关键词分析 jieba 下面的小程序的基本思路是: 通过jieba从 保存好的txt文本中提取关键词,根据关键 ...

  3. python列表追加的三种方式对比

    python列表追加的三种方式分别为:+, extend(), append() +是直接将两个列表拼凑在一起,并生成新的列表 extend()是将另一个列表的值插入已有列表中,并不会生成新的列表 a ...

  4. python语言入门r_小结:jieba分词的Python与R语言基础用法介绍

    当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 人们说话不是一个词一个词崩出来的,文章也就由句子组成.要想让机器识别美文,体会中华名族汉语的博大精深,不是不可能.但是,首先需要将其转化成其 ...

  5. python实现单例模式的三种方式及相关知识解释

    python实现单例模式的三种方式及相关知识解释 模块模式 装饰器模式 父类重写new继承 单例模式作为最常用的设计模式,在面试中很可能遇到要求手写.从最近的学习python的经验而言,singlet ...

  6. 【Python】Python创建虚拟环境的三种方式

    Python创建虚拟环境的三种方式比较 Python创建虚拟环境的三种方式 首先:为什么需要虚拟环境? Pipenv vs Virtualenv vs Conda 1. Virtualenv 2. P ...

  7. python程序执行三种方式,Python运行程序的三种方法

    对于python中运行程序的方法,是我们初学时就已经掌握过的了,想必大家会的只是其中的一两种方式. 本篇对程序运行的三种方式进行了整理,分别是:Python的解释器.交互式运行和PyCharm,大家在 ...

  8. Python 发送 email 的三种方式

    Python发送email的三种方式,分别为使用登录邮件服务器.使用smtp服务.调用sendmail命令来发送三种方法 本文原文自米扑博客:Python 发送 email 的三种方式 Python发 ...

  9. 测试Python下载图片的三种方法

    简 介: 通过Python软件包对网络URL图片链接进行下载,可以加快后期处理.本文测试了urllib, request两个软件包对图片进行下载效果.如果图片原网页有了防止下载机制,是无法下载图片. ...

最新文章

  1. shell的read方法使用
  2. 五十一、结合百度API接口打造 Python小项目
  3. c++STL容器的Set和multiset
  4. php如何配置apache服务器,Apache服务器如何配置PHP
  5. 小博老师演示常用JQuery效果 ——图片轮播
  6. 14007.xilinx-备份镜像
  7. ui界面表单设计素材模板,实用可临摹
  8. Bootstrap-Table事件和方法
  9. 【信息系统项目管理师】第9章-项目人力资源管理 知识点详细整理
  10. k3cloud新建简单帐表教程
  11. Paypal开源nodejs框架研究(二)KrakenJs之Enrouten
  12. MQTT和CoAP对比
  13. MySQL教程:MySQL数据库学习宝典(从入门到精通)
  14. 1941 Scary Martian Word
  15. WordPress the_excerpt()截取摘要长度
  16. 地理信息系统名词解释大全(三)
  17. yolo-v3代码学习
  18. IEEE免费论文下载
  19. 丑数(Ugly Number)的判别和证明
  20. Java实现伪造邮件发信人

热门文章

  1. 编程中常见的代码词汇汇总
  2. LeetCode - 649. Dota2 参议院
  3. java备忘录模式_Java设计模式之备忘录模式
  4. 学生成绩管理系统(通过学号,班级,姓名查询以及其他方法的实现)
  5. Linux杂碎(杂且碎)
  6. QDateEdit 美化
  7. Unity NavMeshAgent参数及API
  8. 【python】奥特曼打小怪兽文字游戏
  9. 新电脑需安装的软件(个人使用)
  10. Linux下 SpeedTest 工具测速