书籍分析实例:哈利波特的分词及人物关系
作者:文建华,小文的数据之旅,数据分析爱好者,不想当码农的伪码农。博客:zhihu.com/c_188462686
先简单介绍一下jieba中文分词包,jieba包主要有三种分词模式:
精确模式:默认情况下是精确模式,精确地分词,适合文本分析;
全模式:把所有能成词的词语都分出来, 但是词语会存有歧义;
搜索引擎模式:在精确模式的基础上,对长词再次切分,适合用于搜索引擎分词。
jieba 包常用的语句:
精确模式分词:jieba.cut(text,cut_all = False),当cut_all = True时为全模式
自定义词典:jieba.load_userdict(file_name)
增加词语:jieba.add_word(seg,freq,flag)
删除词语:jieba.del_word(seg)
《哈利·波特》是英国作家J·K·罗琳的奇幻文学系列小说,描写主角哈利·波特在霍格沃茨魔法学校7年学习生活中的冒险故事。下面将以《哈利波特》错综复杂的人物关系为例,实践一下jieba包。
#加载所需包
import numpy as np
import pandas as pd
import jieba,codecs
import jieba.posseg as pseg #标注词性模块
from pyecharts import Bar,WordCloud#导入人名、停用词、特定词库
renmings = pd.read_csv('人名.txt',engine='python',encoding='utf-8',names=['renming'])['renming']
stopwords = pd.read_csv('mystopwords.txt',engine='python',encoding='utf-8',names=['stopwords'])['stopwords'].tolist()
book = open('哈利波特.txt',encoding='utf-8').read()
jieba.load_userdict('哈利波特词库.txt')#定义一个分词函数
def words_cut(book):words = list(jieba.cut(book))stopwords1 = [w for w in words if len(w)==1] #添加停用词seg = set(words) - set(stopwords) - set(stopwords1) #过滤停用词,得到更为精确的分词result = [i for i in words if i in seg]return result#初次分词
bookwords = words_cut(book)
renming = [i.split(' ')[0] for i in set(renmings)] #只要人物名字,出掉词频以及词性
nameswords = [i for i in bookwords if i in set(renming)] #筛选出人物名字#统计词频
bookwords_count = pd.Series(bookwords).value_counts().sort_values(ascending=False)
nameswords_count = pd.Series(nameswords).value_counts().sort_values(ascending=False)
bookwords_count[:100].index
经过初次分词之后,我们发现大部分的词语已经ok了,但是还是有小部分名字类的词语分得不精确,比如说'布利'、'罗恩说'、'伏地'、'斯内'、'地说'等等,还有像'乌姆里奇'、'霍格沃兹'等分成两个词语的。
#自定义部分词语
jieba.add_word('邓布利多',100,'nr')
jieba.add_word('霍格沃茨',100,'n')
jieba.add_word('乌姆里奇',100,'nr')
jieba.add_word('拉唐克斯',100,'nr')
jieba.add_word('伏地魔',100,'nr')
jieba.del_word('罗恩说')
jieba.del_word('地说')
jieba.del_word('斯内')#再次分词
bookwords = words_cut(book)
nameswords = [i for i in bookwords if i in set(renming)]
bookwords_count = pd.Series(bookwords).value_counts().sort_values(ascending=False)
nameswords_count = pd.Series(nameswords).value_counts().sort_values(ascending=False)
bookwords_count[:100].index
再次分词之后,我们可以看到在初次分词出现的错误已经得到修正了,接下来我们统计分析。
#统计词频TOP15的词语
bar = Bar('出现最多的词语TOP15',background_color = 'white',title_pos = 'center',title_text_size = 20)
x = bookwords_count[:15].index.tolist()
y = bookwords_count[:15].values.tolist()
bar.add('',x, y,xaxis_interval = 0,xaxis_rotate = 30,is_label_show = True)
bar
整部小说出现最多的词语TOP15中出现了哈利、赫敏、罗恩、邓布利多、魔杖、魔法、马尔福、斯内普和小天狼星等字眼。
我们自己串一下,大概可以知道《哈利波特》的主要内容了,就是哈利在小伙伴赫敏、罗恩的陪伴下,经过大法师邓布利多的帮助与培养,利用魔杖使用魔法把大boss伏地魔k.o的故事。当然啦,《哈利波特》还是非常精彩的。
#统计人物名字TOP20的词语
bar = Bar('主要人物Top20',background_color = 'white',title_pos = 'center',title_text_size = 20)
x = nameswords_count[:20].index.tolist()
y =nameswords_count[:20].values.tolist()
bar.add('',x, y,xaxis_interval = 0,xaxis_rotate = 30,is_label_show = True)
bar
整部小说按照出场次数,我们发现哈利作为主角的地位无可撼动,比排名第二的赫敏远超13000多次,当然这也是非常正常的,毕竟这本书是《哈利波特》,而不是《赫敏格兰杰》。
#整本小说的词语词云分析
name = bookwords_count.index.tolist()
value = bookwords_count.values.tolist()
wc = WordCloud(background_color = 'white')
wc.add("", name, value, word_size_range=[10, 200],shape = 'diamond')
wc
#人物关系分析
names = {}
relationships = {}
lineNames = []
with codecs.open('哈利波特.txt','r','utf8') as f:n = 0for line in f.readlines(): n+=1print('正在处理第{}行'.format(n))poss = pseg.cut(line)lineNames.append([])for w in poss:if w.word in set(nameswords):lineNames[-1].append(w.word)if names.get(w.word) is None:names[w.word] = 0relationships[w.word] = {} names[w.word] += 1
for line in lineNames:for name1 in line:for name2 in line:if name1 == name2:continueif relationships[name1].get(name2) is None:relationships[name1][name2]= 1else:relationships[name1][name2] = relationships[name1][name2]+ 1
node = pd.DataFrame(columns=['Id','Label','Weight'])
edge = pd.DataFrame(columns=['Source','Target','Weight'])
for name,times in names.items():node.loc[len(node)] = [name,name,times]
for name,edges in relationships.items():for v, w in edges.items():if w > 3:edge.loc[len(edge)] = [name,v,w]
处理之后,我们发现同一个人物出现了不同的称呼,因此合并并统计,得出88个节点。
node.loc[node['Id']=='哈利','Id'] = '哈利波特'
node.loc[node['Id']=='波特','Id'] = '哈利波特'
node.loc[node['Id']=='阿不思','Id'] = '邓布利多'
node.loc[node['Label']=='哈利','Label'] = '哈利波特'
node.loc[node['Label']=='波特','Label'] = '哈利波特'
node.loc[node['Label']=='阿不思','Label'] = '邓布利多'
edge.loc[edge['Source']=='哈利','Source'] = '哈利波特'
edge.loc[edge['Source']=='波特','Source'] = '哈利波特'
edge.loc[edge['Source']=='阿不思','Source'] = '邓布利多'
edge.loc[edge['Target']=='哈利','Target'] = '哈利波特'
edge.loc[edge['Target']=='波特','Target'] = '哈利波特'
edge.loc[edge['Target']=='阿不思','Target'] = '邓布利多'
nresult = node['Weight'].groupby([node['Id'],node['Label']]).agg({'Weight':np.sum}).sort_values('Weight',ascending = False)
eresult = edge.sort_values('Weight',ascending = False)
nresult.to_csv('node.csv',index = False)
eresult.to_csv('edge.csv',index = False)
有了节点node以及边edge后,通过gephi对《哈利波特》的人物关系进行分析:
(节点的大小表示人物的出场次数,线的粗细表示人物之间的交往关系)
书籍分析实例:哈利波特的分词及人物关系相关推荐
- python 分析人物关系_基于共现发现人物关系的python实现
基于共现发现人物关系的python实现 1.共现关系 在文献计量学中,关键词的共词方法常用来确定该文献集所代表学科中各主题之间的关系.而在这里,我们需要通过分析一篇小说或剧本,来分析剧中各个角色之间的 ...
- 【用matplotlib,wordcloud和pyecharts分析三国的分词,词频,词性,小说人物出场次数排序小说人物关系】
前言 为了顺利完成作业,经过几天的网上查阅完成了[根据第1部分自然语言处理教学内容,请选择一本你喜欢的小说,利用上课讲的但不限于授课内容,对该小说进行分析.比如分析该小说的分词,词频,词性,小说人物出 ...
- 利用gensim里word2vec训练实例——分析三国里人物关系
前言 万物皆可Embedding 入坑cs224N后看完第二周和相关论文.觉得word2vec非常有意思,将一段具有上下文关系的短文(实体)词语学习嵌入到语义空间成为一个向量,然后判断两个词语(实体) ...
- python 求连线相似度_Python分析《都挺好》中的人物关系,苏大强与蔡根花是真爱?...
如今大火的电视剧<都挺好>源于阿耐的同名小说,今天我们来对这部小说使用python分析一下人物关系.本文主要使用google推出的word2vec进行分析.使用的库主要有jieba.gen ...
- NLP分析小说人物关系,找找主人公的真爱。
思路 基于共现来挖掘人物之间的关系. 准备好三个存储器 names 存放的是人物出现次数,用来后面刻画节点的大小.names类似'叶三姐': 8, '马鞍': 6, relationships 存放人 ...
- python红楼梦人物统计_Python分析红楼梦,宝玉和十二钗的人物关系
红楼梦出场人物很多,人物关系极其复杂,这次我们用Python来分析主人公贾宝玉和他的姐妹们,金陵十二钗之间的关系,做一个简要的分析. 出场率 由于我们只统计宝玉和十二钗(正册)这些人物,因此我们需要实 ...
- python实现对小说的文本分析(人物关系图,人物词云等)
文本分析 0.效果图 这里有些"二人"."不会"等词语没用筛选掉,手动筛选即可. 1.整体思路: 调用的库:jieba,matplotlib,networkx, ...
- python 小说人物分析_用python分析小说人物关系(二)——实战篇
用到的工具jieba jieba分词,最好用的开源中文分词工具.他最主要的两个功能是分词和关键词的抽取.在这里我们需要用他的分词功能来提取文本中的人名. gephi gephi是一个开源的复杂网络数据 ...
- 创新教育实例之“三国人物关系模型”
最近与一位从事高校软件工程教育的同仁(挚友)聊天,谈到如何提高学生的创新性思维,两人不免大肆吐槽一番,有谈到过目前高校教育体制.学校的培养方案等等等等,但是这些东东无论是作为我们老师还是学生,只有微不 ...
最新文章
- MVC、JSP实现mysql的增删改查功能的封装和简陋的界面交互
- 持续集成之路——Maven
- 容量和速度是选购闪存盘的关键
- mysql 图形化工具
- js实现反恐精英+曲线图+饼状图
- 不热衷黄金、地产的美国人喜欢投资什么?
- linux修改ip地址方法如何保存_修改电脑IP地址方法
- 序列化的高阶认识-绕开 transient 机制的办法
- 利用Asp.net中的AJAX制作网页上自动选取开始日期及结束日期的用户自定义控件...
- html清除图片缓存
- 2019牛客多校四 E. triples II (容斥)
- 【mysql的编程专题①】流程控制与其他语法
- 数据结构系列,二叉平衡树的构建
- matlab 收敛,MATLAB:svds()没有收敛
- java 导出word文档
- 计算机快捷键任务管理器,任务管理器快捷键,教您win10怎么打开任务管理器
- 第三章 半导体中载流子的统计分布
- Cesium中的相机—HeadingPitchRoll
- 常垒·视频:股权投资的终极思维
- MySQL中如何设置外键
热门文章
- 未能加载文件或程序集“Oracle.DataAccess”或它的某一个依赖项。试图加载格式不正确的程序。...
- 线程1-线程常用方法
- (C#)xml的简单理解创建和读取
- 51 nod 1006 最长公共子序列Lcs
- Linux kernel进行编译时提示No rule to make target `menconfig'
- 2010年3月份第二周51aspx发布源码
- 使用MSIL 汇编程序 (Ilasm.exe) 2 强签名
- 暑假快来了,又该何去何从
- 添加git 忽略文件
- 小程序--按钮返回上页