三国演义人物词频统计-4
题目来源:Python语言程序设计
授课老师: 嵩天、黄天羽、礼欣
hamlet小说下载路径:https://python123.io/resources/pye/threekingdoms.txt
三国演义人物词频统计-3:https://blog.csdn.net/Mzjuser/article/details/82527464
三国演义人物词频统计-2:https://blog.csdn.net/Mzjuser/article/details/82527412
三国演义人物词频统计-1:https://blog.csdn.net/Mzjuser/article/details/82527289
代码
import jieba
path = 'C:\\Users\\Desktop\\三国演义.txt'
text = open(path,'r',encoding='utf-8').read()
#使用结巴的函数对文本进行分词
words = jieba.lcut(text)
#需要排除一些不是人名的单词
excludes = ['将军','却说','二人','不可','荆州','不能','如此','商议','如何','军士','左右','天下','次日','大喜','引兵','军马','东吴','于是','今日','不敢','魏兵','陛下','一人','人马','汉中','不知','只见','众将','蜀兵','上马','大叫']
#定义字典类型去存储文字和文字出现的次数
counts = {}
for word in words:if len(word) == 1:continueelif word == '诸葛亮'or word == '孔明曰':rword = '孔明'elif word == '玄德'or word == '玄德曰' or word == '主公':rword = '刘备'elif word == '孟德'or word == '丞相':rword = '曹操'elif word == '关公'or word == '云长':rword = '关羽'elif word == '都督':rword = '周瑜'elif word == '后主':rword = '刘禅'elif word == '太守':rword = '刘度'else:rword = wordcounts[rword] = counts.get(rword,0) + 1
#把一些不是人名的词语排除掉
for word in excludes:del counts[word]
items = list(counts.items())
#根据iems的第二个值进行从大到小的排序
items.sort(key = lambda x:x[1],reverse=True)
for i in range(15):word,count = items[i]#左对齐,占位10位,填充字符为空格print("{0:<10}{1:>5}".format(word,count))
结果显示
其他解决方案
可以通过人物的名称(需要对三国中的人物有详细的了解)对人物出现的次数进行统计,然后在进行排序。
三国演义人物词频统计-4相关推荐
- 三国演义人物词频统计-1
题目来源:Python语言程序设计 授课老师: 嵩天.黄天羽.礼欣 hamlet小说下载路径:https://python123.io/resources/pye/threekingdoms.txt ...
- 三国演义人物词频统计-3
题目来源:Python语言程序设计 授课老师: 嵩天.黄天羽.礼欣 hamlet小说下载路径:https://python123.io/resources/pye/threekingdoms.txt ...
- 三国演义人物词频统计-2
题目来源:Python语言程序设计 授课老师: 嵩天.黄天羽.礼欣 hamlet小说下载路径:https://python123.io/resources/pye/threekingdoms.txt ...
- 《红楼梦》中人物词频统计
<红楼梦>人物词频统计 import jieba import re f=open('红楼梦.txt',encoding='utf-8') txt=f.read() f.close()tx ...
- python三国演义人物出场统计_python爬取三国演义文本
1.目标 python爬取三国演义,生成词云.图表 2.码前须知 项目目标:三国人物名称及出现次数-----数据统计分析 提出问题:哪个人物在三国演义中出现的次数最多?,我们希望通过数据分析来获得答案 ...
- python红楼梦人物词频统计_用 Python 分析《红楼梦》
1 前言 两个月以来,我通过互联网自学了一些文本处理的知识,用自然语言处理和机器学习算法对<红楼梦>进行了一些分析.这个过程中我找到了一些有趣的发现,所以我想写一篇文章,既㲌与大家分享和讨 ...
- 三国演义人物出场统计
#Hamlet词频统计(含Hamlet原文文本)#CalHamletV1.py def getText():txt = open("hamlet.txt", "r&quo ...
- 三国演义人物出场统计代码含义_实例2之《三国演义》人物出场统计
大家好,我是人间富贵花下的贫穷草,简称人间富贵草. jieba(结巴)作为一个优秀的第三方中文分词函数库,今天我们就把它拉出来溜溜. <三国演义>txt文本下载地址: https://ww ...
- python三国演义人物出场统计ppt_Python统计三国演义主要人物出场次数
import jieba #读取三国演义 with open("三国演义.txt",'r',encoding='utf-8') as f: txt= f.read() #进行中文分 ...
最新文章
- Linux邻居子系统的细节之confirm-Open××× server模式的MAC地址学习
- Block 再学习 !
- 初次了解node.js
- 7-1 作业调度算法--先来先服务
- boost::pfr::get相关的测试程序
- 从 Spark Streaming 到 Apache Flink : 实时数据流在爱奇艺的演进
- 系统带你学习 WebAPIs 第四讲
- 鸿蒙操作系统如何打通 Windows 操作系统?
- 列表页时间日期标签靠显示html,帝国CMS列表页面list.var分别调用年月日,显示个性时间日期...
- Java JDK与JRE
- IDEA配置使用阿里云maven仓库
- Python 实现校园卡目标检测与文字识别系统
- hdu 4836 The Query on the Tree(线段树or树状数组)
- 《WinForm开发系列之控件篇》Item31 MenuStrip(暂无)
- CruiseControl.NET and MSBuild
- Excel中将角度与弧度之间相互转换的公式
- 微服务Http健康检查
- 鸢尾花lris数据集的SVM线性分类
- inaflash什么意思中文_FLASH 到底是什么意思?
- 2021-2027全球及中国特种机器人行业研究及十四五规划分析报告