python关键词统计_使用Python快速统计关键词及其词频
版权声明:转载附链接哦。https://blog.csdn.net/weixin_43886356/article/details/86711012
思路:
1.通过jieba库分词获取所有的词语列表;
2.计算列表里出现词语及其对应的频次,存储为字典;
3.删除字典中键为无关且频次高的词语的键值对;
4.对字典里的词语按照频次进行排序;
5.输出频次前五的词语及其频次;
如果没有安装 jieba 库,需要使用 cmd 进入命令提示符窗口,通过 pip install jieba 进行安装。
源代码如下
import jieba
file = open("sample.txt", "r", encoding='utf-8') #此处需打开txt格式且编码为UTF-8的文本
txt = file.read()
words = jieba.lcut(txt) # 使用jieba进行分词,将文本分成词语列表
count = {}
for word in words: # 使用 for 循环遍历每个词语并统计个数
if len(word) < 2: # 排除单个字的干扰,使得输出结果为词语
continue
else:
count[word] = count.get(word, 0) + 1 #如果字典里键为 word 的值存在,则返回键的值并加一,如果不存在键word,则返回0再加上1
exclude = ["可以", "一起", "这样"] # 建立无关词语列表
for key in list(count.keys()): # 遍历字典的所有键,即所有word
if key in exclude:
del count[key] # 删除字典中键为无关词语的键值对
list = list(count.items()) # 将字典的所有键值对转化为列表
list.sort(key=lambda x: x[1], reverse=True) # 对列表按照词频从大到小的顺序排序
for i in range(5): # 此处统计排名前五的单词,所以range(5)
word, number = list[i]
print("关键字:{:-<10}频次:{:+>8}".format(word, number))
python关键词统计_使用Python快速统计关键词及其词频相关推荐
- influxdb 最近小时统计_用pandas快速统计学生年龄班级等分组信息
最近收到一个求助邮件,他的需求如下: 我是小学的一名统计员,因长期做统计工作,近期,自学一点python,但如何把excel中的8位数出生日期转成年龄,一直做不好,现请您帮忙一下,不知能否帮! 这个问 ...
- python 时间序列预测_使用Python进行动手时间序列预测
python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...
- python 概率分布模型_使用python的概率模型进行公司估值
python 概率分布模型 Note from Towards Data Science's editors: While we allow independent authors to publis ...
- python 财务报表 建模_使用Python进行统计建模
=============== 我的公众号:早起python =============== 前言 大家好,在之前的文章中我们已经讲解了很多Python数据处理的方法比如读取数据.缺失值处理.数据降维 ...
- python中文模糊关键词提取_用Python给你的文本提取关键词
对代码.编程感兴趣的可以关注「老K玩代码」公众号和我交流!分享代码.经验.项目和资讯 用Python给你的文本提取关键词 关键词提取是自然语言处理中常见的业务模块; 要实现关键词提取,Python ...
- python对象引用计数器_在Python中借助计数器对象对项目进行计数
python对象引用计数器 前提 (The Premise) When we deal with data containers, such as tuples and lists, in Pytho ...
- python机器学习预测_使用Python和机器学习预测未来的股市趋势
python机器学习预测 Note from Towards Data Science's editors: While we allow independent authors to publish ...
- python移动图形工作站_让Python跑得更快
原标题:让Python跑得更快 点击关注 异步图书,置顶公众号 每天与你分享 IT好书 技术干货 职场知识 Tips 参与文末话题讨论,即有机会获得异步图书一本. Python很容易学.你之所以阅读本 ...
- 使用python预测基金_使用python先知3 1创建预测
使用python预测基金 This tutorial was created to democratize data science for business users (i.e., minimiz ...
- python计算条件概率_用Python实现贝叶斯定理(附代码)
写作说明 上一期我们讲了贝叶斯分类器,其中有很多的概率基础知识和贝叶斯定理.但是讲解的很没有重点,前半部分讲的是贝叶斯基础知识,最后很突兀的插进来一个文本分析-贝叶斯分类器.很多童鞋看到很累.其实上一 ...
最新文章
- sqluldr2支持mysql吗_Oracle SQLULDR2 以及 SQLLDR 进行导入导出的功能说明
- Spring Boot集成Thymeleaf模板引擎
- Spring实战 MethodInvokingJobDetailFactoryBean使用与分析
- ios开发 mvp实践_实践中开发人员的工作流程-我们如何在30天内建立​​MVP
- C语言中的标识符以字母或下划线开头,牛逼大神整理的C语言基础知识,你确定你不码下来?...
- 在WEB中实现打印分页
- devops什么意思_DevOps有什么意义?
- 线程数究竟设多少合理
- python公开课乐博学院_乐搏学院VIP36期全栈班学习群 - 乐搏软件教育 - 软件测试 - Powered By EduSoho...
- 在线JSON校验格式化工具(Be JSON)
- css行内样式的属性设置,css的外部样式的设置
- iText实现html转pdf
- 从移动硬盘安装计算机系统文件,移动硬盘装系统,教您怎么用移动硬盘装系统...
- html网页有内容不能向下拉,为什么百度页面不能往下拉
- 仪表图形怎么用c语言写,科一仪表盘图标大全
- 01-JavaScript基础.md
- aria2c rpc php,Debian 如何搭建使用 aria2c 作为下载工具
- sqrt函数,对数进行开根号
- 超级详细的晶圆厂前世今生,半导体研究史诗级长文
- Android 图文混排 异步加载图片