《红楼梦》中人物词频统计
《红楼梦》人物词频统计
import jieba
import re f=open('红楼梦.txt',encoding='utf-8')
txt=f.read()
f.close()txt1=re.sub('奶奶','贾母',txt) #替换词组
txt2=re.sub('老太太','贾母',txt1)
txt3=re.sub('林黛玉','黛玉',txt2)
txt4=re.sub('凤姐儿','凤姐',txt3)segs=jieba.lcut(txt4)segments={}
for seg in segs:if len(seg)==1:continueelse:segments[seg]=segments.get(seg,0)+1#print(segments)stopwords={'什么','一个','我们','那里','你们','如今','说道','起来','这里','知道','他们','众人','姑娘','一面','自己','只见','太太','不是','没有','两个','怎么','出来','不知','这个','听见','这样','进来','咱们','告诉','就是','东西','回来','只是','大家','老爷','只得','丫头','这些','不敢','出去','所以'}for word in stopwords:del(segments[word]) #删除停用词#print(segments)alies1={'黛玉','林姑娘','林妹妹'}
for e in alies1:for seg in segments:if e==seg:segments[seg]=segments[seg]+segments.get(e)alies2={'袭人','花袭人'}
for e in alies2:for seg in segments:if e==seg:segments[seg]=segments[seg]+segments.get(e) alies3={'凤姐','王熙凤','辣妹子 ','熙凤'}
for e in alies3:for seg in segments:if e==seg:segments[seg]=segments[seg]+segments.get(e)items=list(segments.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(10):word,segment=items[i]
print('{0:<10}{1:>5}'.format(word,segment))
结果示意图
课堂作业,写的不是很严谨,仅供参考。
《红楼梦》中人物词频统计相关推荐
- python红楼梦人物词频统计_用 Python 分析《红楼梦》
1 前言 两个月以来,我通过互联网自学了一些文本处理的知识,用自然语言处理和机器学习算法对<红楼梦>进行了一些分析.这个过程中我找到了一些有趣的发现,所以我想写一篇文章,既㲌与大家分享和讨 ...
- python红楼梦人物词频统计_通过数据挖掘能分析《红楼梦》各回的真伪吗?
可以的.小智最近就尝试通过用机器学习的方法,分析了一下红楼梦后四十回的真伪. 以下内容引自小智的微信公众号,转载需申请授权. ------------------------------------- ...
- 红楼梦人物出场统计python_红楼梦有多少人物统计(一)
原本打算写点有关在红楼梦中,有哪些人物是争议最多,以及有哪些人物争议最少.结果在统计红楼梦中人物时,在遍历了数据库所收集的红楼梦研究著作之后,发现了一个老问题. 这个问题就是:在红楼梦中究竟写了多少人 ...
- VBS脚本统计红楼梦中贾宝玉出现的次数
VBS脚本统计红楼梦中贾宝玉出现的次数 文件: 链接:https://pan.baidu.com/s/1T-XIbIHzMZiIX8IiSMcZdg 提取码:sti6 脚本代码: Dim fso, t ...
- 使用word2vec分析红楼梦中的人物
上周四给陈老大和几个研究生汇报工作,主要讲了word2vec的应用,陈老大他们觉得这个东西很牛逼,汇报结束之后陈老大让我拿红楼梦来训练,看看这样能不能发现红楼梦中的人物关系,目前清华有个实验室试图用机 ...
- 【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及问答系统实践:part6基于图谱的问答实现
前序文章: [知识图谱]实践篇--基于知识图谱的<红楼梦>人物关系可视化及问答系统实践:part1项目介绍与环境准备 [知识图谱]实践篇--基于知识图谱的<红楼梦>人物关系可视 ...
- python分析红楼梦中人物形象_红楼梦中四个人物形象分析
1 贾宝玉人物分析 通过认真品读石头记, 我认为把贾宝玉作以上评价是不客观. 不合实际的, 是有悖于曹雪芹 本意的. 在我看来, 贾宝玉是一个充满爱心的, 敢于向森严的封建等级制度挑战的革命英雄, 这 ...
- 三国演义人物词频统计-4
题目来源:Python语言程序设计 授课老师: 嵩天.黄天羽.礼欣 hamlet小说下载路径:https://python123.io/resources/pye/threekingdoms.txt ...
- python分析红楼梦中人物形象_红楼梦中的人物形象及其性格特点
1 红楼梦中的人物形象及其性格特点 [ 林黛玉 ] 她冰雪聪明,诗词妙语信手拈来:她敏感多疑,曾因为宝玉的丫头误了为她开门 而悲吟<葬花词> :她为了爱情柔肠寸断,泪终不干. 1. 有才 ...
最新文章
- 使用WinINet和WinHTTP实现Http訪问
- 分层窗口输出文字时,会出现透明的洞。
- Maven学习总结(二)——Maven项目构建过程练习
- TypeScript class 的静态成员变量
- Java对象内存结构
- Exchange 2010 使用http访问 OWA
- 【MyBatis】银行转账系统:MyBatis接口绑定方案及多参数传递、动态SQL、ThreadLocal线程容器、缓存
- html 5 本地数据库(二)-- Web Sql Database核心方法openDatabase、transaction、executeSql 详解
- css字间距 与 Photoshop里字间距关系
- TOM邮箱6.0版新功能体验—全新的交互设计
- 行情 api php,股票实时数据接口说明,股票实时行情api接口
- matlab实现对图像的简单幻方置乱
- python 基础 Number String List Tuple Diction nary
- 【数学建模】主成因分析
- java模拟国际象棋游戏_Javafx实现国际象棋游戏
- 北航计算机学院复试专业课科目,2018北航自招复试经历总结
- poj 1729 Jack and Jill 1376 Robot 1324 Holedox Moving 1475 Pushing Boxes bfs + a*
- java毕业设计乐居租房网的设计与实现Mybatis+系统+数据库+调试部署
- 快速去除照片的背景颜色和修改照片的背景颜色
- TP50、TP90、TP99、TP999简易理解
热门文章
- 程序员该如何在这个寒冷的冬天学会冬泳?
- STM32 GPIO 详解
- Ubuntu的安装教程
- 复制的数字无法计算机,拷完数据在退出U盘时电脑提示无法停止通用卷设备的解决方法...
- Claude的奇妙之旅:一起探索人工智能的无限可能
- 网站后台如何判断客户端是来自手机、还是来自电脑?
- 晚上睡眠质量不好怎么办?试试这些助眠方法,让你一招入睡
- 怎样在c语言游戏中设计广告,游戏行业信息流广告怎么玩?38个创意句式拿去套!...
- 字节跳动取消大小周,程序员们有何意见?
- 自用整理的14个超实用PHP自定义函数