统计《红楼梦》中前20位出场最多的人物

使用Python编写程序,统计书籍《红楼梦》中前20位出场次数最多的人物

#红楼梦人物出场统计

import jieba

txt=open("D:\红楼梦.txt","r",encoding='utf-8').read() #打开文档

#排除干扰词

excludes={"什么","一个","我们","那里","你们","如今","知道","起来","说道",

"姑娘","这里","出来","他们","众人","奶奶","自己","一面","只见",

"怎么","两个","没有","不是","不知","这个","听见","这样","进来",

"咱们","告诉","就是","东西","回来","只是","大家","老爷","只得",

"丫头","这些","不敢","出去","所以","不过","的话","不好","姐姐",

"一时","不能","过来","心里","二爷","如此","今日","银子","几个",

"答应","二人","还有","只管","这么","说话","一回","那边","这话",

"外头","打发","自然","今儿","罢了","屋里","那些","听说","小丫头",

"如何","问道","看见","妹妹","人家","不用","媳妇"}

words=jieba.lcut(txt)

counts={}

for word in words:

if len(word)==1: #排除单个字符

continue

elif word=="王夫人" or word=="太太": #同一人物整合处理

rword="王夫人"

elif word=="贾母" or word=="老太太":

rword="贾母"

elif word=="凤姐" or word=="凤姐儿":

rword="凤姐"

elif word=="黛玉" or word=="林黛玉":

rword="黛玉"

else:

rword=word

counts[rword]=counts.get(rword,0) + 1

for word in excludes:

del(counts[word])

items=list(counts.items())

items.sort(key=lambda x:x[1],reverse=True)

for i in range(20):

word,count=items[i]

print("{0:<10}{1:>5}".format(word,count))

原文链接:https://blog.csdn.net/wangyusongcn/article/details/105661754

红楼梦人物出场统计python_Python程序设计习题3——红楼梦人物出场次数统计相关推荐

  1. 红楼梦人物出场顺序python_Python 中文词频分析——红楼梦人物出场次数

    本篇文档,带大家用Python做一下词频统计 本章需要用到Python的jieba模块 jieba模块是一个经典的用于中文分词的模块 首先呢 我们需要读取文章的内容,并用jieba库的lcut进行分词 ...

  2. 微信广告转化统计java,百度推广oCPC微信号复制转化次数统计系统数据接口

    对于百度搜索oCPC,很多竞价可能会感觉比较模糊,本来是一个能够有效控制成本提升转化的程序化产品,但由于大家理解不深,实际操作中就会遇到诸多问题,成本难以控制.账户优化困难. 结合加粉账户页面案例给大 ...

  3. 红楼梦人物出场次数统计

    这个也是学习过程中的一个成果吧,希望大家能批评指正. 红楼梦人物出场次数统计.亮点在于,考虑了人物的别称,以及有较为丰富的排除词库.如凤姐的称谓就有许多,凤辣子,凤姐,王熙凤等等,还有黛玉,有林黛玉, ...

  4. 红楼梦人物分析系统c语言,Gephi分析红楼梦

    前言 上一周赶了好久的社会网络计算,貌似是第四周还是第五周的时候,那时候我们就把题目定下来了吧,然后一直拖着没有做.其中的原因多种多样 ,其实也可以说没有什么原因,就是不想做而已,然后就假装忘记233 ...

  5. python分析红楼梦出现的虚词词频统计_用Python分析红楼梦,见证贾府的兴衰

    分词词频统计 什么是分词?众所周知中文是以字为单位,句子中所有的字连起来才能描述一个意思.例如我是一个学生.计算机不能很容易明白"学"."生"两个字合起来才表示 ...

  6. C语言在main中输入2个整数ab,2014年计算机等级二级C语言程序设计习题

    无忧考网为大家收集整理了<2014年计算机等级二级C语言程序设计习题>供大家参考,希望对大家有所帮助!!! 一.选择题(每小题1分,共25分) 1.下列程序的输出结果是( ). int a ...

  7. 杜有福 c语言 第三版,C语言程序设计习题答案 杜有福.doc

    C语言程序设计习题答案 杜有福.doc C语言程序设计习题答案习题一 C语言程序设计概述一.名词解释(1)程序P1 (2)程序设计P1 (3)机器语言P1 (4)汇编程序P2(5)高级语言P2 (6) ...

  8. c语言第1章以下说法错误的是,计算机等级考试c语言程序设计习题

    计算机等级考试c语言程序设计习题 第1章 C语言程序设计概述 一.选择题 1.下列关于计算机语言的叙述中,正确的是_______. A.在计算机语言中,只有机器语言属于低级语言 B.高级语言的源程序可 ...

  9. c语言习题与实验doc,[教材]C语言程序设计习题与上机实验(全部答案).doc

    [教材]C语言程序设计习题与上机实验(全部答案).doc 打伪辨笑坠发淤谢躬石眉侯抄纺箍塘妓愚离结船篙傅逻匆滔侯疹腮初粕羞骑躺童沂锡泵糙闰恃轰却蚕磨餐淌滇颊趁模整驶突献牺嫉工丢擦蔚锗磁途伊惭母拒羌本码 ...

最新文章

  1. 用java实现互换和清空_java使用异或实现变量互换和异或加密解密示例
  2. 审核网络安全的十大必备工具
  3. FPGA中IBERT 核的应用(二)
  4. MySql连接——内连接、外连接(左连接、右连接、全连接)
  5. Python——数据存储:JSON操作
  6. [JSOI2009]球队收益
  7. [原]浅谈几种服务器端模型——多进程并发式
  8. CSS3如何实现DIV圆角边框
  9. 医用自动配药柜的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  10. 制作加载从模糊到清晰的图片
  11. unity制作小地图
  12. iOS读取通讯录功能
  13. -moz-zoom-in 和-moz-zoom-out
  14. 经典背包问题3——背包问题求方案数 、背包问题求具体方案
  15. Emmaus Life Sciences宣布《新英格兰医学杂志》发表 Endari™(左旋谷氨酰胺口服粉剂)治疗镰状细胞病3期试验结果
  16. 实习周记---20180609
  17. PreScan 教程:1. 建立新场景
  18. 无人值守的IDC机房动环综合运维方案
  19. xwiki部署_xwiki 搭建心得
  20. Prompt IDE来了…是划时代AI神器还是鸡肋?

热门文章

  1. ORA-01012: not logged on 解决办法记录错误
  2. 我对价值投资的思考(一)
  3. Breakpoint和Watchpoint的区别
  4. 【论文阅读】RAPTOR: Robust and Perception-Aware Trajectory Replanning for Quadrotor Fast Flight
  5. 如何解锁CourseHero文档
  6. 计算机上根号5怎么打,根号怎么打(5种快速输入√与×号的方法)
  7. httpqyl.php,linux运维架构--PHP开发-零基础学习PHP视频教程
  8. python输出字母金字塔a bb ccc dddd_《程序设计基础》题库(50道)
  9. 关于Xilinx SDK工具的使用问题求解
  10. c++学习笔记(七、异常和I/O)