版权声明:转载附链接哦。https://blog.csdn.net/weixin_43886356/article/details/86711012

思路:

1.通过jieba库分词获取所有的词语列表;

2.计算列表里出现词语及其对应的频次,存储为字典;

3.删除字典中键为无关且频次高的词语的键值对;

4.对字典里的词语按照频次进行排序;

5.输出频次前五的词语及其频次;

如果没有安装 jieba 库,需要使用 cmd 进入命令提示符窗口,通过 pip install jieba 进行安装。

源代码如下

import jieba

file = open("sample.txt", "r", encoding='utf-8') #此处需打开txt格式且编码为UTF-8的文本

txt = file.read()

words = jieba.lcut(txt) # 使用jieba进行分词,将文本分成词语列表

count = {}

for word in words: # 使用 for 循环遍历每个词语并统计个数

if len(word) < 2: # 排除单个字的干扰,使得输出结果为词语

continue

else:

count[word] = count.get(word, 0) + 1 #如果字典里键为 word 的值存在,则返回键的值并加一,如果不存在键word,则返回0再加上1

exclude = ["可以", "一起", "这样"] # 建立无关词语列表

for key in list(count.keys()): # 遍历字典的所有键,即所有word

if key in exclude:

del count[key] # 删除字典中键为无关词语的键值对

list = list(count.items()) # 将字典的所有键值对转化为列表

list.sort(key=lambda x: x[1], reverse=True) # 对列表按照词频从大到小的顺序排序

for i in range(5): # 此处统计排名前五的单词,所以range(5)

word, number = list[i]

print("关键字:{:-<10}频次:{:+>8}".format(word, number))

python关键词统计_使用Python快速统计关键词及其词频相关推荐

  1. influxdb 最近小时统计_用pandas快速统计学生年龄班级等分组信息

    最近收到一个求助邮件,他的需求如下: 我是小学的一名统计员,因长期做统计工作,近期,自学一点python,但如何把excel中的8位数出生日期转成年龄,一直做不好,现请您帮忙一下,不知能否帮! 这个问 ...

  2. python 时间序列预测_使用Python进行动手时间序列预测

    python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...

  3. python 概率分布模型_使用python的概率模型进行公司估值

    python 概率分布模型 Note from Towards Data Science's editors: While we allow independent authors to publis ...

  4. python 财务报表 建模_使用Python进行统计建模

    =============== 我的公众号:早起python =============== 前言 大家好,在之前的文章中我们已经讲解了很多Python数据处理的方法比如读取数据.缺失值处理.数据降维 ...

  5. python中文模糊关键词提取_用Python给你的文本提取关键词

     对代码.编程感兴趣的可以关注「老K玩代码」公众号和我交流!分享代码.经验.项目和资讯 用Python给你的文本提取关键词 关键词提取是自然语言处理中常见的业务模块; 要实现关键词提取,Python ...

  6. python对象引用计数器_在Python中借助计数器对象对项目进行计数

    python对象引用计数器 前提 (The Premise) When we deal with data containers, such as tuples and lists, in Pytho ...

  7. python机器学习预测_使用Python和机器学习预测未来的股市趋势

    python机器学习预测 Note from Towards Data Science's editors: While we allow independent authors to publish ...

  8. python移动图形工作站_让Python跑得更快

    原标题:让Python跑得更快 点击关注 异步图书,置顶公众号 每天与你分享 IT好书 技术干货 职场知识 Tips 参与文末话题讨论,即有机会获得异步图书一本. Python很容易学.你之所以阅读本 ...

  9. 使用python预测基金_使用python先知3 1创建预测

    使用python预测基金 This tutorial was created to democratize data science for business users (i.e., minimiz ...

  10. python计算条件概率_用Python实现贝叶斯定理(附代码)

    写作说明 上一期我们讲了贝叶斯分类器,其中有很多的概率基础知识和贝叶斯定理.但是讲解的很没有重点,前半部分讲的是贝叶斯基础知识,最后很突兀的插进来一个文本分析-贝叶斯分类器.很多童鞋看到很累.其实上一 ...

最新文章

  1. sqluldr2支持mysql吗_Oracle SQLULDR2 以及 SQLLDR 进行导入导出的功能说明
  2. Spring Boot集成Thymeleaf模板引擎
  3. Spring实战 MethodInvokingJobDetailFactoryBean使用与分析
  4. ios开发 mvp实践_实践中开发人员的工作流程-我们如何在30天内建立​​MVP
  5. C语言中的标识符以字母或下划线开头,牛逼大神整理的C语言基础知识,你确定你不码下来?...
  6. 在WEB中实现打印分页
  7. devops什么意思_DevOps有什么意义?
  8. 线程数究竟设多少合理
  9. python公开课乐博学院_乐搏学院VIP36期全栈班学习群 - 乐搏软件教育 - 软件测试 - Powered By EduSoho...
  10. 在线JSON校验格式化工具(Be JSON)
  11. css行内样式的属性设置,css的外部样式的设置
  12. iText实现html转pdf
  13. 从移动硬盘安装计算机系统文件,移动硬盘装系统,教您怎么用移动硬盘装系统...
  14. html网页有内容不能向下拉,为什么百度页面不能往下拉
  15. 仪表图形怎么用c语言写,科一仪表盘图标大全
  16. 01-JavaScript基础.md
  17. aria2c rpc php,Debian 如何搭建使用 aria2c 作为下载工具
  18. sqrt函数,对数进行开根号
  19. 超级详细的晶圆厂前世今生,半导体研究史诗级长文
  20. Android 图文混排 异步加载图片

热门文章

  1. android ion内存统计,android ion 内存泄漏排查
  2. JVM:垃圾回收算法
  3. 感谢你们为科技创新和社会进步做出的贡献
  4. c语言编写整数划分程序,整数划分的问题
  5. 中国移动苏州研发中心一面
  6. 基于蚁群算法(ACO)的函数寻优代码详解
  7. Golang toml配置文件加载方法
  8. Windows下编译FFmpeg 32位和64位DLL
  9. 仿真服务器性能用途说明,云服务器仿真速度
  10. Ceph MDS问题分析