jieba是Python中一个重要的第三方中文分词函数库,由于是第三方库,不是安装包自带,需要通过pip指令安装。

jieba库的解析

利用jieba库进行文本词频统计

《三国演义》人物出场统计

import jieba
txt = open("三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}
for word in words:if len(word) == 1:continueelse:counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):word, count = items[i]print("{0:<10}{1:>5}".format(word, count))

运行结果:

由于在小说中,同一个人物会有不同的名字,这种情况需要进行整合处理。同时,需要排除一些人名无关词汇,如“却说”、“将军”等,还需对上述代码进行优化。
优化后的代码如下:

import jieba
excludes={"将军","却说","二人","不可","荆州","不能","如此"}
txt=open("三国演义.txt","r",encoding='utf-8').read()
words=jieba.lcut(txt)
counts={}
for word in words:if len(word)==1: continueelif word=="诸葛亮" or word=="孔明曰":rword="孔明"elif word=="关公" or word=="云长":rword="关羽"elif word=="玄德" or word=="玄德曰":rword="刘备"elif word=="孟德" or word=="丞相":rword="曹操"else:rword=wordcounts[rword]=counts.get(rword,0)+1
for word in excludes:del(counts[word])
items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(5):word,count=items[i]print("{0:<10}{1:>5}".format(word,count))

运行结果:

【Python】《三国演义》人物出场统计相关推荐

  1. python三国演义人物出场统计ppt_Python学习之四大名著人物出场次数Python代码-Go语言中文社区...

    <三国演义>,<水浒传>,<西游记>的人物出场次数Python代码: 经过代码运行的结果可以看出三国作者对曹操和孔明比较喜爱:水浒作者对宋江和武松比较喜爱:西游作者 ...

  2. python三国演义人物出场统计ppt_Python统计三国演义主要人物出场次数

    import jieba #读取三国演义 with open("三国演义.txt",'r',encoding='utf-8') as f: txt= f.read() #进行中文分 ...

  3. python三国演义人物出场统计_python爬取三国演义文本

    1.目标 python爬取三国演义,生成词云.图表 2.码前须知 项目目标:三国人物名称及出现次数-----数据统计分析 提出问题:哪个人物在三国演义中出现的次数最多?,我们希望通过数据分析来获得答案 ...

  4. python三国演义人物出场统计_Python分析《三国演义》人物出场次数,孔明第二,赵云第五...

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. import jieba excludes = {"将军", ...

  5. 三国演义人物出场统计代码含义_实例2之《三国演义》人物出场统计

    大家好,我是人间富贵花下的贫穷草,简称人间富贵草. jieba(结巴)作为一个优秀的第三方中文分词函数库,今天我们就把它拉出来溜溜. <三国演义>txt文本下载地址: https://ww ...

  6. 三国演义人物出场统计

    #Hamlet词频统计(含Hamlet原文文本)#CalHamletV1.py def getText():txt = open("hamlet.txt", "r&quo ...

  7. Ubuntu的中文是哪种字体?python的词云分析和 三国演义人物出场统计

    Ubuntu的默认中文是哪种呢? fc-list :lang=zh 用这个命令查看出来 NotoSerifCJK-Bold.ttc 为什么要知道这个呢? 来看一块python3代码 import ji ...

  8. 三国演义人物出场统计代码含义_Python分析《三国演义》人物出场次数,孔明第二,赵云第五...

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. import jieba excludes = {"将军", ...

  9. 《三国演义》人物出场统计

    人物出场统计涉及对词汇的统计.中文文章需要分词才能进行词频统计.这就需要用到jieba库. 实现代码1: #三国演义 人物出场统计 import jieba txt=open("threek ...

  10. 三国演义人物词频统计-4

    题目来源:Python语言程序设计 授课老师: 嵩天.黄天羽.礼欣 hamlet小说下载路径:https://python123.io/resources/pye/threekingdoms.txt ...

最新文章

  1. 快速撑握C#知识点系列之(struct)结构
  2. 直接访问静态图片_详解nginx和tomcat访问图片和静态页面的配置方法
  3. ssh连接服务器出现:ssh: connect to host 192.168.1.107 port 22: Connection refused 的解决方法
  4. 【UAV】气压计 SPL06
  5. class h5 点击后样式变化_H5学习笔记
  6. 寒假每日一题2022【week1 完结】
  7. c语言宏高级用法,C语言宏高级用法 [总结]
  8. 存储限制_明年6月份开始,谷歌相册将终止免费无限存储服务
  9. Windows Embedded CE 6.0开发初体验(五)构建CE平台
  10. python datetime datetime
  11. Java数组3(2015-8-27)
  12. mysql挂科了咋办_大学第一学期挂科怎么办?
  13. 无线射频识别的应用方案有哪些?
  14. 互联网早报:京东发布“小时购”业务:京东APP下单提速至小时达、分钟达
  15. springboot写发送邮件报错Field javaMailSender in com.gzh.service.impl.IMailServiceImpl
  16. vue 微信公众号获取定位经纬度 腾讯地图逆地址解析为具体地址
  17. 用C语言实现求水仙花数
  18. Lingoes安装词典和语音库
  19. java的跨平台特性是指_如何理解JAVA的跨平台特性
  20. ab测试工具 linux,超实用压力测试工具-ab工具

热门文章

  1. 脸上经常长青春痘痘的青年应该多吃的食物
  2. 麻省理工学院公开课:经典力学习题课
  3. 系列教程|Apache Doris ODBC 外表使用指南(一)
  4. 红帽linux内核,如何下载centos/redhat的linux内核源代码
  5. 【63测试20161111】【BFS】【DP】【字符串】
  6. 基于CNN+tensorflow对搜狐新闻进行分类并对函数进行封装
  7. 能耗监测管理系统作用
  8. android widget的中文文档
  9. 再无风清扬,再有少年郎
  10. 2018年研究生数学建模优秀论文汇总