使用python可以轻松统计词频,做文章的词频统计也是轻而易举的事情。

1、添加自定义字典(如:超级赛亚人、奥里给等)

2、jieba分词

PS:直接将文章丢进 tf.txt 文件里,将自定义字典丢进 dict.txt 文件里就OK了

import jieba

txt = open("tf.txt", encoding="utf-8").read()

jieba.load_userdict("dict.txt")

words = jieba.lcut(txt)

counts = {}

for word in words:

counts[word] = counts.get(word,0) + 1

items = list(counts.items())

items.sort(key=lambda x:x[1], reverse=True)

for i in range(100):

word, count = items[i]

#print (word)

#print(count)

print ("{0:<10}{1:>5}".format(word, count))

print('\n')

for i in range(100):

word, count = items[i]

#print(count/35323)

#print ("{0:<10}{1:>5}".format(word, count / 35323))

示例图:

python文本词频统计是字典吗_【python】文章、文本内容做词频统计(使用jieba分词,添加自定义字典)...相关推荐

  1. python定义字典列表_[Python基础]五、列表、元组和字典

    5.1 列表List(列表)是Python中最频繁的数据类型,在其他语言中叫数组 专门用于存储一串信息 列表用[]定义,数据之间使用逗号隔开 列表的索引从0开始 5.1.1列表常用操作 name_li ...

  2. python 字典类型问题_[ python ] 字典类型的一些注意问题

    1) get()方法. 字典可以直接用a[b]的方式访问字典项,但如果b不存在时,会报异常.为了避免这种情况,可以使用get()方法来访问字典项,a.get(b)当b存在时,结果和a[b]一样,如果b ...

  3. python词云需要导入什么包_[python] 词云:wordcloud包的安装、使用、原理(源码分析)、中文词云生成、代码重写...

    词云,又称文字云.标签云,是对文本数据中出现频率较高的"关键词"在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思.常见于博客. ...

  4. python生成中文词云的代码_[python] 基于词云的关键词提取:wordcloud的使用、源码分析、中文词云生成和代码重写...

    1. 词云简介 词云,又称文字云.标签云,是对文本数据中出现频率较高的"关键词"在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意 ...

  5. r语言上机文本分析与词云绘制_倚天屠龙记的文本分析

    <倚天屠龙记>作为金庸先生的经典作品,在无数人心目中留下了深刻的印象,基本上隔一段时间这部经典作品就会被重新拍成电影或者电视剧,可见观众的喜爱程度.虽然本人没有完完全全拜读过先生的这部作品 ...

  6. python统计各省大学数_“双一流”大学各省分布情况统计

    9月21日,教育部官方网站公布世界一流大学和一流学科(简称"双一流")建设高校及建设学科名单.其中,一流大学建设高校42所(A类36所.B类6所),一流学科建设高校95所. 此次遴 ...

  7. python设计程序输出一个带文本框和图像的窗体_设计一个文本框 用户在文本框中输入什么 窗体标题就同步显示什么 怎么设计啊...

    展开全部 要求 1.掌握算法的基本概念. 2.掌握基本数据结构及其操作. 3.掌握基本排序和查找算法. 4.掌握逐e68a8462616964757a686964616f31333264626533步 ...

  8. python调用百度地图画轨迹图_[python]百度地图API,正/逆地理编码,路线规划接口的调用,实现输出出行的距离和......

    [Python] 纯文本查看 复制代码''' 文件名:L17.py 作者:小饭团 创建时间:2019年1月11日15:17:03 文件描述:调用Web服务API接口,百度地图路线规划 正/逆地理编码 ...

  9. python之父去面试-面试题_个人文章 - SegmentFault 思否

    1 Spring Bean是什么? 在spring中由Spring创建和管理的对象称为bean, bean有相关的特性,例如懒加载,作用域,生命周期这些. 懒加载就是延迟加载,启动的时候,会创建所有对 ...

最新文章

  1. 2022-2028年中国汽车铝合金冲压件行业市场运营模式及未来发展潜力报告
  2. 读书笔记12:观察者模式
  3. python全栈工程_Python全栈工程师(编码)
  4. 【机器视觉】 dev_close_inspect_ctrl算子
  5. 数据库-SQL分类介绍及总结
  6. 动手学深度学习(PyTorch实现)(二)--softmax与分类模型
  7. mac bochs 调试linux,Mac OS X下编译安装带debugger的bochs
  8. python,进程和线程
  9. 广工十四届校赛 count 矩阵快速幂
  10. 听鬼哥说虐心的2048简化过程
  11. html-QQ登陆界面
  12. 2pin接口耳机_耳机插头接线示意图
  13. 技术岗的职业规划_技术人员职业发展规划
  14. Android性能优化(二)内存优化
  15. HTML动画滑动图片特效
  16. bpmn文件转换为png格式图片
  17. Scala历史版本在哪里??
  18. conver Json to map by fastJson
  19. Autoware介绍
  20. 《Semi-supervised Medical Image Segmentation Using Cross-Model Pseudo-Supervision with Shape Awarene》

热门文章

  1. 获取微信直播商品接口 status is invalid rid: 60e413d0-03d2b48a-57ef447d errcode 200002
  2. 攻防世界-web2 (NSCTF-WEB)
  3. 带电检测必要性_正确认识配电房电力设备检测的重要性,电力安全防患于未燃!...
  4. 5G+VoLTE,真香!
  5. 第五届金梧奖移动广告创意节暨移动营销峰会2019(上海)
  6. 【RDMA】RDMA信息状态查询|网卡安装|诊断工具|测试RDMA网卡是否正常工作InfiniBand IB常用命令|历史命令记录
  7. 【安全知识分享】PPTX|中秋国庆节前安全教育培训(42页)(附下载)
  8. SIGIR‘22 推荐系统论文之序列推荐(长文)篇
  9. Error creating bean with name ‘compositeCompatibilityVerifier‘ defined in class pathresource之类问题解决方案
  10. 如何正确的退出远程桌面