python文本词频统计是字典吗_【python】文章、文本内容做词频统计(使用jieba分词,添加自定义字典)...
使用python可以轻松统计词频,做文章的词频统计也是轻而易举的事情。
1、添加自定义字典(如:超级赛亚人、奥里给等)
2、jieba分词
PS:直接将文章丢进 tf.txt 文件里,将自定义字典丢进 dict.txt 文件里就OK了
import jieba
txt = open("tf.txt", encoding="utf-8").read()
jieba.load_userdict("dict.txt")
words = jieba.lcut(txt)
counts = {}
for word in words:
counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(100):
word, count = items[i]
#print (word)
#print(count)
print ("{0:<10}{1:>5}".format(word, count))
print('\n')
for i in range(100):
word, count = items[i]
#print(count/35323)
#print ("{0:<10}{1:>5}".format(word, count / 35323))
示例图:
python文本词频统计是字典吗_【python】文章、文本内容做词频统计(使用jieba分词,添加自定义字典)...相关推荐
- python定义字典列表_[Python基础]五、列表、元组和字典
5.1 列表List(列表)是Python中最频繁的数据类型,在其他语言中叫数组 专门用于存储一串信息 列表用[]定义,数据之间使用逗号隔开 列表的索引从0开始 5.1.1列表常用操作 name_li ...
- python 字典类型问题_[ python ] 字典类型的一些注意问题
1) get()方法. 字典可以直接用a[b]的方式访问字典项,但如果b不存在时,会报异常.为了避免这种情况,可以使用get()方法来访问字典项,a.get(b)当b存在时,结果和a[b]一样,如果b ...
- python词云需要导入什么包_[python] 词云:wordcloud包的安装、使用、原理(源码分析)、中文词云生成、代码重写...
词云,又称文字云.标签云,是对文本数据中出现频率较高的"关键词"在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思.常见于博客. ...
- python生成中文词云的代码_[python] 基于词云的关键词提取:wordcloud的使用、源码分析、中文词云生成和代码重写...
1. 词云简介 词云,又称文字云.标签云,是对文本数据中出现频率较高的"关键词"在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意 ...
- r语言上机文本分析与词云绘制_倚天屠龙记的文本分析
<倚天屠龙记>作为金庸先生的经典作品,在无数人心目中留下了深刻的印象,基本上隔一段时间这部经典作品就会被重新拍成电影或者电视剧,可见观众的喜爱程度.虽然本人没有完完全全拜读过先生的这部作品 ...
- python统计各省大学数_“双一流”大学各省分布情况统计
9月21日,教育部官方网站公布世界一流大学和一流学科(简称"双一流")建设高校及建设学科名单.其中,一流大学建设高校42所(A类36所.B类6所),一流学科建设高校95所. 此次遴 ...
- python设计程序输出一个带文本框和图像的窗体_设计一个文本框 用户在文本框中输入什么 窗体标题就同步显示什么 怎么设计啊...
展开全部 要求 1.掌握算法的基本概念. 2.掌握基本数据结构及其操作. 3.掌握基本排序和查找算法. 4.掌握逐e68a8462616964757a686964616f31333264626533步 ...
- python调用百度地图画轨迹图_[python]百度地图API,正/逆地理编码,路线规划接口的调用,实现输出出行的距离和......
[Python] 纯文本查看 复制代码''' 文件名:L17.py 作者:小饭团 创建时间:2019年1月11日15:17:03 文件描述:调用Web服务API接口,百度地图路线规划 正/逆地理编码 ...
- python之父去面试-面试题_个人文章 - SegmentFault 思否
1 Spring Bean是什么? 在spring中由Spring创建和管理的对象称为bean, bean有相关的特性,例如懒加载,作用域,生命周期这些. 懒加载就是延迟加载,启动的时候,会创建所有对 ...
最新文章
- 2022-2028年中国汽车铝合金冲压件行业市场运营模式及未来发展潜力报告
- 读书笔记12:观察者模式
- python全栈工程_Python全栈工程师(编码)
- 【机器视觉】 dev_close_inspect_ctrl算子
- 数据库-SQL分类介绍及总结
- 动手学深度学习(PyTorch实现)(二)--softmax与分类模型
- mac bochs 调试linux,Mac OS X下编译安装带debugger的bochs
- python,进程和线程
- 广工十四届校赛 count 矩阵快速幂
- 听鬼哥说虐心的2048简化过程
- html-QQ登陆界面
- 2pin接口耳机_耳机插头接线示意图
- 技术岗的职业规划_技术人员职业发展规划
- Android性能优化(二)内存优化
- HTML动画滑动图片特效
- bpmn文件转换为png格式图片
- Scala历史版本在哪里??
- conver Json to map by fastJson
- Autoware介绍
- 《Semi-supervised Medical Image Segmentation Using Cross-Model Pseudo-Supervision with Shape Awarene》
热门文章
- 获取微信直播商品接口 status is invalid rid: 60e413d0-03d2b48a-57ef447d errcode 200002
- 攻防世界-web2 (NSCTF-WEB)
- 带电检测必要性_正确认识配电房电力设备检测的重要性,电力安全防患于未燃!...
- 5G+VoLTE,真香!
- 第五届金梧奖移动广告创意节暨移动营销峰会2019(上海)
- 【RDMA】RDMA信息状态查询|网卡安装|诊断工具|测试RDMA网卡是否正常工作InfiniBand IB常用命令|历史命令记录
- 【安全知识分享】PPTX|中秋国庆节前安全教育培训(42页)(附下载)
- SIGIR‘22 推荐系统论文之序列推荐(长文)篇
- Error creating bean with name ‘compositeCompatibilityVerifier‘ defined in class pathresource之类问题解决方案
- 如何正确的退出远程桌面