三国演义人物词频统计-3
题目来源:Python语言程序设计
授课老师: 嵩天、黄天羽、礼欣
hamlet小说下载路径:https://python123.io/resources/pye/threekingdoms.txt
三国演义人物词频统计-4:https://blog.csdn.net/Mzjuser/article/details/82527865
三国演义人物词频统计-3:https://blog.csdn.net/Mzjuser/article/details/82527464
三国演义人物词频统计-2:https://blog.csdn.net/Mzjuser/article/details/82527412
三国演义人物词频统计-1:https://blog.csdn.net/Mzjuser/article/details/82527289
问题描述
由三国演义词频统计-2可知,输出的结果中存在着一系列不是人名的单词而且还有些指的是同一个人,所以我们需要对此进行进一步的优化
代码
import jieba
path = 'C:\\Users\\Desktop\\三国演义.txt'
text = open(path,'r',encoding='utf-8').read()
#使用结巴的函数对文本进行分词
words = jieba.lcut(text)
#需要排除一些不是人名的单词
excludes = ['将军','却说','二人','不可','荆州']
#定义字典类型去存储文字和文字出现的次数
counts = {}
for word in words:if len(word) == 1:continueelif word == '诸葛亮'or word == '孔明曰':rword = '孔明'elif word == '玄德'or word == '玄德曰':rword = '刘备'elif word == '孟德'or word == '丞相':rword = '曹操'elif word == '关公'or word == '云长':rword = '关羽'else:rword = wordcounts[rword] = counts.get(rword,0) + 1
#把一些不是人名的词语排除掉
for word in excludes:del counts[word]
items = list(counts.items())
#根据iems的第二个值进行从大到小的排序
items.sort(key = lambda x:x[1],reverse=True)
for i in range(15):word,count = items[i]#左对齐,占位10位,填充字符为空格print("{0:<10}{1:>5}".format(word,count))
结果显示(通过添加excludes里面的值以及if的判断,对结果进行多次迭代)
三国演义人物词频统计-3相关推荐
- 三国演义人物词频统计-4
题目来源:Python语言程序设计 授课老师: 嵩天.黄天羽.礼欣 hamlet小说下载路径:https://python123.io/resources/pye/threekingdoms.txt ...
- 三国演义人物词频统计-1
题目来源:Python语言程序设计 授课老师: 嵩天.黄天羽.礼欣 hamlet小说下载路径:https://python123.io/resources/pye/threekingdoms.txt ...
- 三国演义人物词频统计-2
题目来源:Python语言程序设计 授课老师: 嵩天.黄天羽.礼欣 hamlet小说下载路径:https://python123.io/resources/pye/threekingdoms.txt ...
- 《红楼梦》中人物词频统计
<红楼梦>人物词频统计 import jieba import re f=open('红楼梦.txt',encoding='utf-8') txt=f.read() f.close()tx ...
- python三国演义人物出场统计_python爬取三国演义文本
1.目标 python爬取三国演义,生成词云.图表 2.码前须知 项目目标:三国人物名称及出现次数-----数据统计分析 提出问题:哪个人物在三国演义中出现的次数最多?,我们希望通过数据分析来获得答案 ...
- python红楼梦人物词频统计_用 Python 分析《红楼梦》
1 前言 两个月以来,我通过互联网自学了一些文本处理的知识,用自然语言处理和机器学习算法对<红楼梦>进行了一些分析.这个过程中我找到了一些有趣的发现,所以我想写一篇文章,既㲌与大家分享和讨 ...
- 三国演义人物出场统计
#Hamlet词频统计(含Hamlet原文文本)#CalHamletV1.py def getText():txt = open("hamlet.txt", "r&quo ...
- 三国演义人物出场统计代码含义_实例2之《三国演义》人物出场统计
大家好,我是人间富贵花下的贫穷草,简称人间富贵草. jieba(结巴)作为一个优秀的第三方中文分词函数库,今天我们就把它拉出来溜溜. <三国演义>txt文本下载地址: https://ww ...
- python三国演义人物出场统计ppt_Python统计三国演义主要人物出场次数
import jieba #读取三国演义 with open("三国演义.txt",'r',encoding='utf-8') as f: txt= f.read() #进行中文分 ...
最新文章
- 公开课报名 | 详解CNN-pFSMN模型以及在语音识别中的应用
- pandas对dataframe的数据列进行随机抽样(Random Sample of Columns)、使用sample函数进行数据列随机抽样
- Catalan数推导(转载)
- 2020年“内容、服务”征集
- 拆分工作簿为多个文件_掌握这几行代码,快速拆分Excel工作簿(内含源码)
- anaconda的简单使用教程(虚拟环境安装)
- 在maven项目中如何引入另外一个项目
- Java程序编译运行过程
- MD文件图片base64自动编码
- python基础学习20----线程
- 交换机接口用了那几根线_【网工必知】图集:交换机接口知识大全
- log4j 禁止类输出日志_springboot日志详解
- python3 rsa加密_python3产生RSA秘钥对并执行加解密操作详解
- Java实验4 面向对象基础
- 数据有为 智在决策 | 观远数据2019智能决策峰会圆满落幕
- 克里金插值c程序_C罗游艇晒太阳,坐下也有六块腹肌,乔治娜骄傲秀无名指上鸽子蛋...
- IIS 10 安装URLRewrite组件 方式
- 如何开始学习使用TensorFlow?
- 网络测试工具iperf使用教程
- 【2022年江西省研究生数学建模】水汽过饱和的核化除霾 31页论文解析
热门文章
- 深度神经网络模型压缩和加速
- 【人工智能】普通程序员想投身 AI 行业的机遇与挑战
- 软通动力蓄势发力 携手华为共建鸿蒙生态
- java.exe应用程序出错_EXPLORER.EXE应用程序错误的原因和解决办法
- Alcohol 120% 的五种烧录方式各有什么区别
- Windows server2008中的DNS服务器架构(八)
- 【msvcp100.dll下载】msvcp100.dll丢失修复
- 远程水箱自动检测控制系统
- android大智慧安装目录,大智慧新一代目录文件结构,及备份方法
- AnyDVD HD 6.1.2.3 Final