红楼梦人物出场顺序统计
题目描述
代码实现
import jieba
f = "红楼梦.txt"
sf = "停用词.txt"
f1=open(f,encoding="utf-8")#声明python代码的文本格式是utf-8编码
datas=f1.read()
f1.close()
f2=open(sf,encoding="utf-8")
word=f2.read()
f2.close()
data=jieba.lcut(datas)
d={}#定义一个字典
for i in data:#遍历使用jieba库对于分词之后的内容进行统计if len(i)<2 or i in word:#不满足归一化处理和不统计“停用词.txt”continueif i in ["凤姐","凤姐儿","凤丫头"]:i="凤姐"elif i in ["宝玉","二爷","宝二爷"]:i="宝玉"elif i in ["黛玉","颦儿","林妹妹","黛玉道"]:i="黛玉"elif i in ["宝钗","宝丫头"]:i="宝钗"elif i in ["贾母","老祖宗"]:i="贾母"elif i in ["袭人","袭人道"]:i="袭人"elif i in ["贾政","贾政道"]:i="贾政"elif i in ["贾琏","链二爷"]:i="贾琏"d[i]=d.get(i,0)+1
l=list(d.items())
l.sort(key=lambda x:x[::-1],reverse=True)#此处的排序规则是:先按照人物出场次数按照递减排序,如果人物出场次数想同,则按照人物名称的字符顺序排序,此处的字符顺序其实就是按照字母的大小来排序
f=open("result.csv","w")
for i in l:if i[1]<40:breakf.write(i[0]+","+str(i[1])+"\n")#连接的时候必须是字符串来连接,所以键数字使用str()变成了字符串
f.close()
注意:
红楼梦人物出场顺序统计相关推荐
- 红楼梦人物出场次数统计
这个也是学习过程中的一个成果吧,希望大家能批评指正. 红楼梦人物出场次数统计.亮点在于,考虑了人物的别称,以及有较为丰富的排除词库.如凤姐的称谓就有许多,凤辣子,凤姐,王熙凤等等,还有黛玉,有林黛玉, ...
- 红楼梦人物出场统计python_Python程序设计习题3——红楼梦人物出场次数统计
统计<红楼梦>中前20位出场最多的人物 使用Python编写程序,统计书籍<红楼梦>中前20位出场次数最多的人物 #红楼梦人物出场统计 import jieba txt=ope ...
- Python零基础入门习题(六)红楼梦人物出场次数统计
前言 Python语言简单易用,可读性强.在了解基础语法后,你就可以来尝试解决以下的题目.放心,本系列的文章都对新手非常友好. 一.生日悖论 生日悖论是指在不少于 23 个人中至少有两人生日相同的概率 ...
- 红楼梦人物出场顺序python_Python 中文词频分析——红楼梦人物出场次数
本篇文档,带大家用Python做一下词频统计 本章需要用到Python的jieba模块 jieba模块是一个经典的用于中文分词的模块 首先呢 我们需要读取文章的内容,并用jieba库的lcut进行分词 ...
- python统计红楼梦人物出场次数_《红楼梦》人数统计,人物,出场,次数
这个也是学习过程中的一个成果吧,希望大家能批评指正. 红楼梦人物出场次数统计.亮点在于,考虑了人物的别称,以及有较为丰富的排除词库.如凤姐的称谓就有许多,凤辣子,凤姐,王熙凤等等,还有黛玉,有林黛玉, ...
- 红楼梦人物出场统计python_红楼梦有多少人物统计(一)
原本打算写点有关在红楼梦中,有哪些人物是争议最多,以及有哪些人物争议最少.结果在统计红楼梦中人物时,在遍历了数据库所收集的红楼梦研究著作之后,发现了一个老问题. 这个问题就是:在红楼梦中究竟写了多少人 ...
- 红楼梦人物出场统计python_用Python分析《红楼梦》:见证贾府的兴衰
没读过<红楼梦>也能知道前后四十回是不是一个作者写的?很久以前,数据侠黎晨,用机器学习的算法分析了<红楼梦>,认为后四十回和前八十回内容上有明显差距.不过,数据侠楼宇却不这么认 ...
- 三国演义人物出场顺序统计(文本词频统计)
1.使用jieba库 对中文文本进行分词 2.使用字典表达词频 (与hamlet案例相似) import jieba txt = open("threekingdoms.txt", ...
- python红楼梦人物统计_Python分析红楼梦,宝玉和十二钗的人物关系
红楼梦出场人物很多,人物关系极其复杂,这次我们用Python来分析主人公贾宝玉和他的姐妹们,金陵十二钗之间的关系,做一个简要的分析. 出场率 由于我们只统计宝玉和十二钗(正册)这些人物,因此我们需要实 ...
最新文章
- 典型云平台技术栈有哪些?
- 简易记事本实现与分析(二)辅助类的编写
- 云炬随笔20210819
- findfirstfile函数为什么不能遍历doc_编程之美:IO多路复用——记性不好的poll函数...
- ActiveMQ 的客户端选项
- STL源码剖析 list概述
- 字节数组和字符串的相互转化……
- 利用gitee搭建pdf在线阅读功能
- 二分查找算法(Java版)
- 点击click触发两次事件解决办法
- linux -----各种颜色代表什么
- Android 打开应用商店评分
- [GNN图神经网络]普通邻接矩阵和 Adjacency Matrix 与 COO稀疏矩阵(edge_index, 和edge_w)相互转化
- 新浪微博下拉菜单制作(DOM小练习)
- 【Vegas原创】华为一键强制关闭后台应用的终极解决方法
- 商城电商day 06 三、商品详情业务需求分析
- 山东大学2019级软件工程应用与实践——基于人工智能的多肽药物分析问题(十二)
- oracle 英文转数字,数字转换成英文
- PADS 在 Windows 11 下闪退解决方法
- java手机游戏开发如何_用JAVA开发手机游戏需要如何构建开发环境?