【Python】《三国演义》人物出场统计
jieba是Python中一个重要的第三方中文分词函数库,由于是第三方库,不是安装包自带,需要通过pip指令安装。
jieba库的解析
利用jieba库进行文本词频统计
《三国演义》人物出场统计
import jieba
txt = open("三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}
for word in words:if len(word) == 1:continueelse:counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):word, count = items[i]print("{0:<10}{1:>5}".format(word, count))
运行结果:
由于在小说中,同一个人物会有不同的名字,这种情况需要进行整合处理。同时,需要排除一些人名无关词汇,如“却说”、“将军”等,还需对上述代码进行优化。
优化后的代码如下:
import jieba
excludes={"将军","却说","二人","不可","荆州","不能","如此"}
txt=open("三国演义.txt","r",encoding='utf-8').read()
words=jieba.lcut(txt)
counts={}
for word in words:if len(word)==1: continueelif word=="诸葛亮" or word=="孔明曰":rword="孔明"elif word=="关公" or word=="云长":rword="关羽"elif word=="玄德" or word=="玄德曰":rword="刘备"elif word=="孟德" or word=="丞相":rword="曹操"else:rword=wordcounts[rword]=counts.get(rword,0)+1
for word in excludes:del(counts[word])
items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(5):word,count=items[i]print("{0:<10}{1:>5}".format(word,count))
运行结果:
【Python】《三国演义》人物出场统计相关推荐
- python三国演义人物出场统计ppt_Python学习之四大名著人物出场次数Python代码-Go语言中文社区...
<三国演义>,<水浒传>,<西游记>的人物出场次数Python代码: 经过代码运行的结果可以看出三国作者对曹操和孔明比较喜爱:水浒作者对宋江和武松比较喜爱:西游作者 ...
- python三国演义人物出场统计ppt_Python统计三国演义主要人物出场次数
import jieba #读取三国演义 with open("三国演义.txt",'r',encoding='utf-8') as f: txt= f.read() #进行中文分 ...
- python三国演义人物出场统计_python爬取三国演义文本
1.目标 python爬取三国演义,生成词云.图表 2.码前须知 项目目标:三国人物名称及出现次数-----数据统计分析 提出问题:哪个人物在三国演义中出现的次数最多?,我们希望通过数据分析来获得答案 ...
- python三国演义人物出场统计_Python分析《三国演义》人物出场次数,孔明第二,赵云第五...
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. import jieba excludes = {"将军", ...
- 三国演义人物出场统计代码含义_实例2之《三国演义》人物出场统计
大家好,我是人间富贵花下的贫穷草,简称人间富贵草. jieba(结巴)作为一个优秀的第三方中文分词函数库,今天我们就把它拉出来溜溜. <三国演义>txt文本下载地址: https://ww ...
- 三国演义人物出场统计
#Hamlet词频统计(含Hamlet原文文本)#CalHamletV1.py def getText():txt = open("hamlet.txt", "r&quo ...
- Ubuntu的中文是哪种字体?python的词云分析和 三国演义人物出场统计
Ubuntu的默认中文是哪种呢? fc-list :lang=zh 用这个命令查看出来 NotoSerifCJK-Bold.ttc 为什么要知道这个呢? 来看一块python3代码 import ji ...
- 三国演义人物出场统计代码含义_Python分析《三国演义》人物出场次数,孔明第二,赵云第五...
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. import jieba excludes = {"将军", ...
- 《三国演义》人物出场统计
人物出场统计涉及对词汇的统计.中文文章需要分词才能进行词频统计.这就需要用到jieba库. 实现代码1: #三国演义 人物出场统计 import jieba txt=open("threek ...
- 三国演义人物词频统计-4
题目来源:Python语言程序设计 授课老师: 嵩天.黄天羽.礼欣 hamlet小说下载路径:https://python123.io/resources/pye/threekingdoms.txt ...
最新文章
- 快速撑握C#知识点系列之(struct)结构
- 直接访问静态图片_详解nginx和tomcat访问图片和静态页面的配置方法
- ssh连接服务器出现:ssh: connect to host 192.168.1.107 port 22: Connection refused 的解决方法
- 【UAV】气压计 SPL06
- class h5 点击后样式变化_H5学习笔记
- 寒假每日一题2022【week1 完结】
- c语言宏高级用法,C语言宏高级用法 [总结]
- 存储限制_明年6月份开始,谷歌相册将终止免费无限存储服务
- Windows Embedded CE 6.0开发初体验(五)构建CE平台
- python datetime datetime
- Java数组3(2015-8-27)
- mysql挂科了咋办_大学第一学期挂科怎么办?
- 无线射频识别的应用方案有哪些?
- 互联网早报:京东发布“小时购”业务:京东APP下单提速至小时达、分钟达
- springboot写发送邮件报错Field javaMailSender in com.gzh.service.impl.IMailServiceImpl
- vue 微信公众号获取定位经纬度 腾讯地图逆地址解析为具体地址
- 用C语言实现求水仙花数
- Lingoes安装词典和语音库
- java的跨平台特性是指_如何理解JAVA的跨平台特性
- ab测试工具 linux,超实用压力测试工具-ab工具