Illustrations by Leon movprint

作者:文建华,小文的数据之旅,数据分析爱好者,不想当码农的伪码农。博客:zhihu.com/c_188462686

先简单介绍一下jieba中文分词包,jieba包主要有三种分词模式:

  • 精确模式:默认情况下是精确模式,精确地分词,适合文本分析;

  • 全模式:把所有能成词的词语都分出来, 但是词语会存有歧义;

  • 搜索引擎模式:在精确模式的基础上,对长词再次切分,适合用于搜索引擎分词。

jieba 包常用的语句:

  • 精确模式分词:jieba.cut(text,cut_all = False),当cut_all = True时为全模式

  • 自定义词典:jieba.load_userdict(file_name)

  • 增加词语:jieba.add_word(seg,freq,flag)

  • 删除词语:jieba.del_word(seg)

《哈利·波特》是英国作家J·K·罗琳的奇幻文学系列小说,描写主角哈利·波特在霍格沃茨魔法学校7年学习生活中的冒险故事。下面将以《哈利波特》错综复杂的人物关系为例,实践一下jieba包。

#加载所需包import numpy as npimport pandas as pdimport jieba,codecsimport jieba.posseg as pseg  #标注词性模块from pyecharts import Bar,WordCloud

#导入人名、停用词、特定词库renmings = pd.read_csv('人名.txt',engine='python',encoding='utf-8',names=['renming'])['renming']stopwords = pd.read_csv('mystopwords.txt',engine='python',encoding='utf-8',names=['stopwords'])['stopwords'].tolist()book = open('哈利波特.txt',encoding='utf-8').read()jieba.load_userdict('哈利波特词库.txt')

#定义一个分词函数def words_cut(book):    words = list(jieba.cut(book))    stopwords1 = [w for w in words if len(w)==1]  #添加停用词    seg = set(words) - set(stopwords) - set(stopwords1) #过滤停用词,得到更为精确的分词    result = [i for i in words if i in seg]    return result

#初次分词bookwords = words_cut(book)renming = [i.split(' ')[0] for i in set(renmings)] #只要人物名字,出掉词频以及词性nameswords = [i for i in bookwords if i in set(renming)]  #筛选出人物名字

#统计词频bookwords_count = pd.Series(bookwords).value_counts().sort_values(ascending=False)nameswords_count = pd.Series(nameswords).value_counts().sort_values(ascending=False)bookwords_count[:100].index

经过初次分词之后,我们发现大部分的词语已经ok了,但是还是有小部分名字类的词语分得不精确,比如说'布利'、'罗恩说'、'伏地'、'斯内'、'地说'等等,还有像'乌姆里奇'、'霍格沃兹'等分成两个词语的。

#自定义部分词语jieba.add_word('邓布利多',100,'nr')jieba.add_word('霍格沃茨',100,'n')jieba.add_word('乌姆里奇',100,'nr')jieba.add_word('拉唐克斯',100,'nr')jieba.add_word('伏地魔',100,'nr')jieba.del_word('罗恩说')jieba.del_word('地说')jieba.del_word('斯内')

#再次分词bookwords = words_cut(book)nameswords = [i for i in bookwords if i in set(renming)]bookwords_count = pd.Series(bookwords).value_counts().sort_values(ascending=False)nameswords_count = pd.Series(nameswords).value_counts().sort_values(ascending=False)bookwords_count[:100].index

再次分词之后,我们可以看到在初次分词出现的错误已经得到修正了,接下来我们统计分析。

#统计词频TOP15的词语bar = Bar('出现最多的词语TOP15',background_color = 'white',title_pos = 'center',title_text_size = 20)x = bookwords_count[:15].index.tolist()y = bookwords_count[:15].values.tolist()bar.add('',x, y,xaxis_interval = 0,xaxis_rotate = 30,is_label_show = True)bar

整部小说出现最多的词语TOP15中出现了哈利、赫敏、罗恩、邓布利多、魔杖、魔法、马尔福、斯内普和小天狼星等字眼。

我们自己串一下,大概可以知道《哈利波特》的主要内容了,就是哈利在小伙伴赫敏、罗恩的陪伴下,经过大法师邓布利多的帮助与培养,利用魔杖使用魔法把大boss伏地魔k.o的故事。当然啦,《哈利波特》还是非常精彩的。

#统计人物名字TOP20的词语bar = Bar('主要人物Top20',background_color = 'white',title_pos = 'center',title_text_size = 20)x = nameswords_count[:20].index.tolist()y =nameswords_count[:20].values.tolist()bar.add('',x, y,xaxis_interval = 0,xaxis_rotate = 30,is_label_show = True)bar

整部小说按照出场次数,我们发现哈利作为主角的地位无可撼动,比排名第二的赫敏远超13000多次,当然这也是非常正常的,毕竟这本书是《哈利波特》,而不是《赫敏格兰杰》。

#整本小说的词语词云分析name = bookwords_count.index.tolist()value = bookwords_count.values.tolist()wc = WordCloud(background_color = 'white')wc.add("", name, value, word_size_range=[10, 200],shape = 'diamond')wc

#人物关系分析names = {} relationships = {} lineNames = []with codecs.open('哈利波特.txt','r','utf8') as f:    n = 0    for line in f.readlines():         n+=1        print('正在处理第{}行'.format(n))        poss = pseg.cut(line)        lineNames.append([])        for w in poss:            if w.word in set(nameswords):                lineNames[-1].append(w.word)                if names.get(w.word) is None:                    names[w.word] = 0                    relationships[w.word] = {}                 names[w.word] += 1for line in lineNames:    for name1 in line:        for name2 in line:            if name1 == name2:                continue            if relationships[name1].get(name2) is None:                relationships[name1][name2]= 1            else:                relationships[name1][name2] = relationships[name1][name2]+ 1node = pd.DataFrame(columns=['Id','Label','Weight'])edge = pd.DataFrame(columns=['Source','Target','Weight'])for name,times in names.items():        node.loc[len(node)] = [name,name,times]for name,edges in relationships.items():        for v, w in edges.items():            if w > 3:                edge.loc[len(edge)] = [name,v,w]

处理之后,我们发现同一个人物出现了不同的称呼,因此合并并统计,得出88个节点。

node.loc[node['Id']=='哈利','Id'] = '哈利波特'node.loc[node['Id']=='波特','Id'] = '哈利波特'node.loc[node['Id']=='阿不思','Id'] = '邓布利多'node.loc[node['Label']=='哈利','Label'] = '哈利波特'node.loc[node['Label']=='波特','Label'] = '哈利波特'node.loc[node['Label']=='阿不思','Label'] = '邓布利多'edge.loc[edge['Source']=='哈利','Source'] = '哈利波特'edge.loc[edge['Source']=='波特','Source'] = '哈利波特'edge.loc[edge['Source']=='阿不思','Source'] = '邓布利多'edge.loc[edge['Target']=='哈利','Target'] = '哈利波特'edge.loc[edge['Target']=='波特','Target'] = '哈利波特'edge.loc[edge['Target']=='阿不思','Target'] = '邓布利多'nresult = node['Weight'].groupby([node['Id'],node['Label']]).agg({'Weight':np.sum}).sort_values('Weight',ascending = False)eresult = edge.sort_values('Weight',ascending = False)nresult.to_csv('node.csv',index = False)eresult.to_csv('edge.csv',index = False)

有了节点node以及边edge后,通过gephi对《哈利波特》的人物关系进行分析:

(节点的大小表示人物的出场次数,线的粗细表示人物之间的交往关系)

最 近 热 门 推 荐

用Python分析NBA球员技术

深度解读Python深拷贝与浅拷贝问题

好嗨哦!用Python进行诗歌接龙

Python技术知识清单(数据科学)

欢迎您与Python中文社区公众号进行合作!

▼ 点击下方阅读原文

免费成为社区注册会员,会员可以享受更多权益

Python 带你走进哈利波特的魔法世界相关推荐

  1. Python:带你走进哈利波特的魔法世界

    最近有将近一个月的时间没更新了,并不是小文有心地偷懒,而是实在是有太多的砖要搬了(不多说了,等会还要继续搬-_-!!)......因为最近的项目涉及到文本分析(jieba包)以及人物关系分析(geph ...

  2. 世界最强五百企业你都知道嘛 ?python带你走进它们的数据~

    导入模块 import pandas as pd from pyecharts.charts import * from pyecharts import options as opts from p ...

  3. 十三、写了两年多Python文章的我,带你走进Python数据分析

    @Author : By Runsen @Date : 2020/5/13 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件.导致翘 ...

  4. 【密码学】一万字带您走进密码学的世界(下)

    引文 密码学是研究编制密码和破译密码的技术科学.研究密码变化的客观规律,应用于编制密码以保守通信秘密的,称为编码学:应用于破译密码以获取通信情报的,称为破译学,总称密码学. 在<一万字带您走进密 ...

  5. 还在熬夜干论文——Python带你一键起飞!【内附演示视频】

    项目背景 话不多说,我们先来安利一下本期文章演示视频 写论文,这个工具爱了爱了  学习爬虫,我们可以做些什么? 这个问题从我开始开设<Python爬虫语法知识详解>就已经介绍的很清楚了,爬 ...

  6. 带你走进T-Pot多蜜罐平台革命:简述、安装、使用、优化、更新

    带你走进T-Pot:多蜜罐平台革命 T-Pot 19.03 T-Pot 19.03 runs on Debian (Sid), is based heavily on docker, docker-c ...

  7. 阿里的27个项目资源带你走进Github世界!

    阿里的27个项目资源带你走进Github世界! 1.设计语言 & 前端框架 Ant Design https://github.com/ant-design/ant-design ★ 1488 ...

  8. 带你走进虚拟化世界之kvm(转载)

    http://chuck.blog.51cto.com/10232880/1720953 带你走进虚拟化世界之kvm 2015-12-08 23:10:46 标签:云计算 虚拟化 kvm 原创作品,允 ...

  9. 带你走进MySQL数据库(MySQL入门详细总结一)

    导读:关于MySQL用三篇文章带你进入MySQL的世界. 带你走进MySQL数据库(MySQL入门详细总结二) 带你走进MySQL数据库(MySQL入门详细总结三) 文章目录 1.MySQL 2.My ...

最新文章

  1. Java JDK1.8安装
  2. 【网络安全】域渗透之完全绕开安全组件
  3. Cookie实现用户登录记住密码,实现自动登录
  4. aes加密结果不一样_医生告诉你:家用血糖仪和静脉血糖结果不一样,应该相信哪一个?...
  5. b丅151组成的充电器电路_555时基电路制作简单的水流控制开关
  6. 【转】细说.NET中的多线程 (六 使用MemoryBarrier,Volatile进行同步)
  7. Android.mk 使用 环境 小结
  8. sever2008 ad用户和计算机不见,windows-server-2008 – 当我使用Powershell将用户添加到安全组时,它们不会显示在AD中...
  9. 秀拍客电脑版 v1.0正式版
  10. 实景三维的基石-osgb
  11. 用友凭证打印页面边距设置会同步
  12. 用Python画填色的中国分省地图(数据+源代码)
  13. 年轻人,你为什么要来阿里搞技术?
  14. 【办公实用网站收集】免费模板
  15. Win7 64位系统下思维导图XMind的Java环境配置
  16. 基于51单片机火灾报警器设计智能火灾报警系统(水泵灭火功能)项目设计与制作
  17. 零数科技受邀加入中国信通院隐私计算联盟
  18. 实战内容(3)- 未能打开文稿“*.mp4”,文件与QuickTime Player不兼容
  19. linux7.0安装中文包,Centos7使用yum命令安装中文语言包
  20. ELF Format DIY For Android

热门文章

  1. 记录代码生成2020-7-8这种日期格式的代码
  2. html+css3实现动画demo
  3. JAVA虚拟机JVM工作原理
  4. 动态路由协议-OSPF原理与推举实验
  5. 2020年互联网大厂中秋礼盒PK!阿里走情怀,腾讯更复古,最走心的是......
  6. PHP 是最好的语言吗?
  7. linux标准发音视频,Linux的标准发音
  8. java语言程序设计郑莉课后答案_java语言程序设计 第2版 (郑莉)课后习题答案.doc...
  9. 【C语言】文件管理<2>
  10. 前端使用setInterval定时器,使用clearInterval()清除时,清楚不彻底的原因。