原标题:用Python来理一理红楼梦里的这些关系

最近把红楼梦又抽空看了一遍,古典中的经典,我真无法用言辞赞美她。今天,想跟大家一起用 Python 来理一理红楼梦中的的那些关系

不要问我为啥是红楼梦,而不是水浒三国或西游,都是经典,但我个人还是更喜欢偏古典的书,红楼梦也是我多次反复品读的为数不多的小说,对它的感情也是最深的。

好了好了这些都不重要,重要的是我们今天要用Python来理红楼梦的关系!

数据准备

红楼梦 TXT 文件一份

金陵十二钗 + 贾宝玉 人物名称列表

人物列表内容如下:

宝玉 nr

黛玉 nr

宝钗 nr

湘云 nr

凤姐 nr

李纨 nr

元春 nr

迎春 nr

探春 nr

惜春 nr

妙玉 nr

巧姐 nr

秦氏 nr

这份列表,同时也是为了做分词时使用,后面的 nr 就是人名的意思。

数据处理

读取数据并加载词典

with open("红楼梦.txt", encoding='gb18030') as f:

honglou = f.readlines()

jieba.load_userdict("renwu_forcut")

renwu_data = pd.read_csv("renwu_forcut", header=-1)

mylist = [k[0].split(" ")[0] for k in renwu_data.values.tolist()]

这样,我们就把红楼梦读取到了 honglou 这个变量当中,同时也通过 load_userdict 将我们自定义的词典加载到了 jieba 库中。

对文本进行分词处理并提取

tmpNames = []

names = {}

relationships = {}

for h in honglou:

h.replace("贾妃", "元春")

h.replace("李宫裁", "李纨")

poss = pseg.cut(h)

tmpNames.append([])

for w in poss:

if w.flag != 'nr' or len(w.word) != 2 or w.word not in mylist:

continue

tmpNames[-1].append(w.word)

if names.get(w.word) is None:

names[w.word] = 0

relationships[w.word] = {}

names[w.word] += 1

首先,因为文中"贾妃", “元春”,“李宫裁”, “李纨” 混用严重,所以这里直接做替换处理。

然后使用 jieba 库提供的 pseg 工具来做分词处理,会返回每个分词的词性。

之后做判断,只有符合要求且在我们提供的字典列表里的分词,才会保留。

一个人每出现一次,就会增加一,方便后面画关系图时,人物 node 大小的确定。

对于存在于我们自定义词典的人名,保存到一个临时变量当中 tmpNames。

处理人物关系

for name in tmpNames:

for name1 in name:

for name2 in name:

if name1 == name2:

continue

if relationships[name1].get(name2) is None:

relationships[name1][name2] = 1

else:

relationships[name1][name2] += 1

对于出现在同一个段落中的人物,我们认为他们是关系紧密的,每同时出现一次,关系增加1.

保存到文件

with open("relationship.csv", "w", encoding='utf-8') as f:

f.write("Source,Target,Weight\n")

for name, edges in relationships.items():

for v, w in edges.items():

f.write(name + "," + v + "," + str(w) + "\n")

with open("NameNode.csv", "w", encoding='utf-8') as f:

f.write("ID,Label,Weight\n")

for name, times in names.items():

f.write(name + "," + name + "," + str(times) + "\n")

文件1:人物关系表,包含首先出现的人物、之后出现的人物和一同出现次数

文件2:人物比重表,包含该人物总体出现次数,出现次数越多,认为所占比重越大。

制作关系图表

使用 pyecharts 作图

def deal_graph():

relationship_data = pd.read_csv('relationship.csv')

namenode_data = pd.read_csv('NameNode.csv')

relationship_data_list = relationship_data.values.tolist()

namenode_data_list = namenode_data.values.tolist()

nodes = []

for node in namenode_data_list:

if node[0] == "宝玉":

node[2] = node[2]/3

nodes.append({"name": node[0], "symbolSize": node[2]/30})

links = []

for link in relationship_data_list:

links.append({"source": link[0], "target": link[1], "value": link[2]})

g = (

Graph()

.add("", nodes, links, repulsion=8000)

.set_global_opts(title_opts=opts.TitleOpts(title="红楼人物关系"))

)

return g

首先把两个文件读取成列表形式

对于“宝玉”,由于其占比过大,如果统一进行缩放,会导致其他人物的 node 过小,展示不美观,所以这里先做了一次缩放

最后得出的关系图

也是看了一个多月的红楼梦,今日一时想着用Python理一理之间的关系,伙伴们也可以试着理一理!有不清楚的地方,欢迎留言,不足之处,也恳请伙伴们指出!

更多的Python学习教程也会继续为大家更新!返回搜狐,查看更多

责任编辑:

python 红楼梦 人物关系_用Python来理一理红楼梦里的这些关系相关推荐

  1. python+html语音人物交互_使用Python读取HTML表并与之交互

    这个页面非常动态(而且非常慢,至少在我这边是这样),包括JavaScript和多个异步请求来获取数据.用requests来实现这一点并不容易,您可能需要通过selenium使用浏览器自动化.在 这里有 ...

  2. 红楼梦人物关系 python_如何用Python来理一理红楼梦里的那些关系

    前言 今天,一起用 Python 来理一理红楼梦里的那些关系 不要问我为啥是红楼梦,而不是水浒三国或西游,因为我也鉴定的认为,红楼才是无可争议的中国古典小说只巅峰,且不接受反驳!而红楼梦也是我多次反复 ...

  3. 用 Python 来理一理红楼梦里的那些关系

    今天,一起用 Python 来理一理红楼梦里的那些关系 不要问我为啥是红楼梦,而不是水浒三国或西游,因为我也鉴定的认为,红楼才是无可争议的中国古典小说只巅峰,且不接受反驳!而红楼梦也是我多次反复品读的 ...

  4. 用python画哆啦a梦的头_用 Python 画个哆啦A梦

    文 |豆豆 来源:Python 技术「ID: pythonall」 相信大家童年的时候都看过哆啦 A 梦,他的口袋简直是无所不能,里面装满了各种神奇的道具.曾经的我也幻想过如果自己也有一个这样的口袋多 ...

  5. python实现3d人物建模_放心的python实现3d人物建模容易学吗?,zbrush不规则金属硬边...

    湖南知了教育科技有限公司是一家以用心做教育为宗旨的互联网教育机构,让所有想学习的人获得蜕变,成为一家极具有口碑的教育企业,为社会的进步和发展做贡献,既为经师,更为人师.以身传道,用心授业.企业总部坐落 ...

  6. python底层与机器底层关系_由Python历史「解密」Python底层逻辑

    一次纯粹的hacking Python的作者,Guido von Rossum,荷兰人.1982年,Guido从阿姆斯特丹大学获得了数学和计算机硕士学位.尽管,他算得上是一位数学家,但他更加享受计算机 ...

  7. python如何读取文件数据恢复_删python目录

    Python学习笔记 (1)Hello World(环境搭建+输出Hello World!) 随想 高考发挥失常.科三遇火车发挥失常,各种不顺--突然发现假期都快没了,才想起高考前想象的这个假期要做的 ...

  8. python做审计底稿视频_最新Python教学视频,每天自学俩小时,让你offer拿到手软...

    2020最新Python零基础到精通资料教材,干货分享,新基础Python教材,看这里,这里有你想要的所有资源哦,最强笔记,教你怎么入门提升!让你对自己更加有信心,重点是资料都是免费的,免费!!! 如 ...

  9. 88是python语言的整数类型_少儿Python编程_第三讲:常量变量和数据类型

    无论使用哪一种编程语言,甚至是学习数学.物理,都需要掌握常量.变量.表达式的概念和用法.本讲将带领读者进入编程世界,学习程序的基本元素. 3.1 基本数据类型 基本数据类型有数值型.布尔型和字符型.它 ...

最新文章

  1. 你知道实习对你有多重要吗?
  2. Yii框架2.0的视图和widgets表单的使用
  3. c语言程序设计一元二次函数,计算一元二次函数的根,大家看看那里有错了。。。。...
  4. BZOJ 2084: [Poi2010]Antisymmetry(Hash+二分)
  5. JDBC入门(4)--- 批处理
  6. 浅谈OpenCV[轉]
  7. centos 6.3安装libmcrypt-2.5.8不成功解决方案
  8. C语言中的位域的使用
  9. 校园招聘 - 比较容易的面试题
  10. 95-36-210-ChannelHandler-系统Channel-TimeoutHandler1
  11. linux 三维数据绘图软件,Linux下开发基于.NET的三维绘图程序
  12. python中递归函数写法_《Python入门08》你知道Python递归函数怎么写吗~~
  13. 《算法:C语言实现》阅读笔记
  14. maven的安装以及配置--第一章
  15. minitab怎么算西格玛水平_计算西格玛水平.ppt
  16. css中flex设置为1是什么意思
  17. 靶机Tempus Fugit wirteup
  18. w10运行游戏计算机中丢失xinput1-3.dll,Win10系统提示丢失xinput13dll的解决方法
  19. Audio Unit
  20. Python读取和写入excel文件

热门文章

  1. html显示隐藏内容点击显示数据表代码,js如何实现点击显示和隐藏表格
  2. QT的QTreeWidget节点触发事件(一)
  3. 【深度学习不是犯罪】欧盟祭出最严数据保护法:专家解读 GDPR
  4. 绕过阮一峰网络日志的反广告过滤脚本
  5. PID控制------伯德图原理
  6. 剑网三选择服务器一直未响应,剑网3缘起:骑马跑图,爷青回,玩家:纯阳这个圈,它最显眼...
  7. Android跟我一起来开发--微影之架构篇
  8. NIST《零信任安全架构标准》简单解读
  9. 以太坊学习路线——(五)DApp开发:简易版去中心化微博
  10. 英文星期的来历(都是来自神人)