红楼梦人物关系 python_如何用Python来理一理红楼梦里的那些关系

前言

今天，一起用 Python 来理一理红楼梦里的那些关系

不要问我为啥是红楼梦，而不是水浒三国或西游，因为我也鉴定的认为，红楼才是无可争议的中国古典小说只巅峰，且不接受反驳！而红楼梦也是我多次反复品读的为数不多的小说，对它的感情也是最深的。

好了，不酸了，开干。

数据准备

红楼梦 TXT 文件一份

金陵十二钗 + 贾宝玉人物名称列表

人物列表内容如下：

宝玉 nr

黛玉 nr

宝钗 nr

湘云 nr

凤姐 nr

李纨 nr

元春 nr

迎春 nr

探春 nr

惜春 nr

妙玉 nr

巧姐 nr

秦氏 nr

这份列表，同时也是为了做分词时使用，后面的 nr 就是人名的意思。

数据处理

读取数据并加载词典

with open("红楼梦.txt", encoding='gb18030') as f:

honglou = f.readlines()

jieba.load_userdict("renwu_forcut")

renwu_data = pd.read_csv("renwu_forcut", header=-1)

mylist = [k[0].split(" ")[0] for k in renwu_data.values.tolist()]

这样，我们就把红楼梦读取到了 honglou 这个变量当中，同时也通过 load_userdict 将我们自定义的词典加载到了 jieba 库中。

对文本进行分词处理并提取

tmpNames = []

names = {}

relationships = {}

for h in honglou:

h.replace("贾妃", "元春")

h.replace("李宫裁", "李纨")

poss = pseg.cut(h)

tmpNames.append([])

for w in poss:

if w.flag != 'nr' or len(w.word) != 2 or w.word not in mylist:

continue

tmpNames[-1].append(w.word)

if names.get(w.word) is None:

names[w.word] = 0

relationships[w.word] = {}

names[w.word] += 1

首先，因为文中"贾妃", "元春"，"李宫裁", "李纨" 混用严重，所以这里直接做替换处理。

然后使用 jieba 库提供的 pseg 工具来做分词处理，会返回每个分词的词性。

之后做判断，只有符合要求且在我们提供的字典列表里的分词，才会保留。

一个人每出现一次，就会增加一，方便后面画关系图时，人物 node 大小的确定。

对于存在于我们自定义词典的人名，保存到一个临时变量当中 tmpNames。

处理人物关系

for name in tmpNames:

for name1 in name:

for name2 in name:

if name1 == name2:

continue

if relationships[name1].get(name2) is None:

relationships[name1][name2] = 1

else:

relationships[name1][name2] += 1

对于出现在同一个段落中的人物，我们认为他们是关系紧密的，每同时出现一次，关系增加1.

保存到文件

with open("relationship.csv", "w", encoding='utf-8') as f:

f.write("Source,Target,Weight\n")

for name, edges in relationships.items():

for v, w in edges.items():

f.write(name + "," + v + "," + str(w) + "\n")

with open("NameNode.csv", "w", encoding='utf-8') as f:

f.write("ID,Label,Weight\n")

for name, times in names.items():

f.write(name + "," + name + "," + str(times) + "\n")

文件1：人物关系表，包含首先出现的人物、之后出现的人物和一同出现次数

文件2：人物比重表，包含该人物总体出现次数，出现次数越多，认为所占比重越大。

制作关系图表

使用 pyecharts 作图

def deal_graph():

relationship_data = pd.read_csv('relationship.csv')

namenode_data = pd.read_csv('NameNode.csv')

relationship_data_list = relationship_data.values.tolist()

namenode_data_list = namenode_data.values.tolist()

nodes = []

for node in namenode_data_list:

if node[0] == "宝玉":

node[2] = node[2]/3

nodes.append({"name": node[0], "symbolSize": node[2]/30})

links = []

for link in relationship_data_list:

links.append({"source": link[0], "target": link[1], "value": link[2]})

g = (

Graph()

.add("", nodes, links, repulsion=8000)

.set_global_opts(title_opts=opts.TitleOpts(title="红楼人物关系"))

)

return g

首先把两个文件读取成列表形式

对于“宝玉”，由于其占比过大，如果统一进行缩放，会导致其他人物的 node 过小，展示不美观，所以这里先做了一次缩放

最后得出的关系图

所有代码已经上传至 Github

最后，我还准备了一份更加全面的红楼人物字典，可以在代码仓库中找到-“renwu_total”，感兴趣的小伙伴也可以尝试下，制作一个全人物的关系图。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

本文标题: 如何用Python来理一理红楼梦里的那些关系

本文地址: http://www.cppcns.com/jiaoben/python/268438.html

红楼梦人物关系 python_如何用Python来理一理红楼梦里的那些关系相关推荐

python 红楼梦人物关系_用Python来理一理红楼梦里的这些关系
原标题:用Python来理一理红楼梦里的这些关系最近把红楼梦又抽空看了一遍,古典中的经典,我真无法用言辞赞美她.今天,想跟大家一起用 Python 来理一理红楼梦中的的那些关系不要问我为啥是红楼梦 ...
用 Python 来理一理红楼梦里的那些关系
今天,一起用 Python 来理一理红楼梦里的那些关系不要问我为啥是红楼梦,而不是水浒三国或西游,因为我也鉴定的认为,红楼才是无可争议的中国古典小说只巅峰,且不接受反驳!而红楼梦也是我多次反复品读的 ...
python红楼梦人物词频统计_用Python绘制红楼梦词云图，竟然发现了这个！
原标题:用Python绘制红楼梦词云图,竟然发现了这个! Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具 ...
动态数据交换 python_如何用 Python 和 Streamlit 做交互式数据分析产品？
「本文参与少数派 2019 年度征文 + 效率有心得」不用学前端编程,你就能用 Python 简单高效写出漂亮的交互式 Web 应用,将你的数据分析成果立即展示给团队和客户. 痛点从我开始折腾数据 ...
乘法口诀表python_如何用python编写乘法口诀表
如何用python编写乘法口诀表?首先要明确一下思路,我们可以确定x,y两个变量,弄清楚其变化的规律,再使用循环嵌套实现.下面是如何用Python编写乘法口诀表的具体方法. 第一种:使用for遍历循环 ...
python红楼梦人物词频统计_用 Python 分析《红楼梦》
1 前言两个月以来,我通过互联网自学了一些文本处理的知识,用自然语言处理和机器学习算法对<红楼梦>进行了一些分析.这个过程中我找到了一些有趣的发现,所以我想写一篇文章,既㲌与大家分享和讨 ...
宝可梦图片识别python_初探利用Python进行图文识别(OCR)
话说什么是OCR????? 简介 OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据.报刊.书籍.文稿及其它印刷品的文字转 ...
简书python_如何用python刷简书文章的浏览量
作者:bigtrace 大家在简书上发表文章,最喜欢关心今天又多了多少访问量和赞.当然不只是简书,大部分的博客网站或者音乐社交如QQ空间,网易云音乐,都会去记录文章或者音乐的浏览或收听次数.可是你知道 ...
发帖机python_如何用python写一个自动顶帖机？
周末去了好朋友家玩,继上次我帮他修好电脑(插拔内存条+用橡皮擦擦金手指)后. 又问我说,小x啊,你是搞计算机的,能不能帮我写个自动顶帖(回复)的机器啊? 我的好朋友现在除了用两套房子收租外,觉得待在家 ...

红楼梦人物关系 python_如何用Python来理一理红楼梦里的那些关系

红楼梦人物关系 python_如何用Python来理一理红楼梦里的那些关系相关推荐

最新文章

热门文章