python关键词共现图谱_Python简单实战项目:《冰与火之歌1-5》角色关系图谱构建——人物关系可视化...
作者:AlanLauPython爱好者社区专栏作者
图中每个节点代表一个角色,节点与节点之间的连线代表共现,而连线的粗细表示共现的频次多少。节点的大小以及颜色深浅表示度的大小,即一个角色参与共现的总频次。
现在说说这张图的实现步骤:
1.对挖掘获取的语料进行角色抽取
2.对出现同一章节的角色进行合并
3.使用步骤2中的数据进行共现矩阵计算
4.利用UCINET、NETDRAW、Gephi对共现矩阵实现可视化。
1.对挖掘获取的语料进行角色抽取
先前原本使用的是jieba和nlpir两种自然语言处理包进行角色抽取的,但是后面发现效果特别差,所有后面则从百度百科上档了一批角色列表下来,那这个与原文本进行比对,实现角色的抽取。
2.对出现同一章节的角色进行合并
写爬虫的时候就实现一边爬一边对角色进行抽取。
3.使用步骤2中的数据进行共现矩阵计算
读取数据库,使用关键词共现矩阵算法构建矩阵。
算法请参考python构建关键词共现矩阵
http://blog.csdn.net/alanconstantinelau/article/details/69258443
共现矩阵
4.利用UCINET、NETDRAW、Gephi对共现矩阵实现可视化
本博客的重点在这里~
点击打开UCINET
点击file→Open→选择csv格式的共现矩阵数据
成功导入数据后,然后点击file→Save as,将数据保存为.##h后缀格式文件。
打开netdraw,依次如下图点击,打开刚刚保存的.##h文件
这个时候其实已经可以发现,netdraw已经把共现网络绘制出来了,但是效果太low了,所以这里使用gephi绘制更好的效果。
使用gephi之前,需要将netdraw打开的文件另存为.net文件。
打开运行gephi,使用gephi直接打开刚刚保存的.net后缀文件。
由于是对角色进行简单抽取,角色和角色之间不存在方向传递的性质,因此这里选择无向的。
如果是中文文本的话,下方的字体也需要改成中文的字体。比如黑体、宋体等。
滤波的作用是对结果进行筛选,这里设置度来作为筛选条件。
python关键词共现图谱_Python简单实战项目:《冰与火之歌1-5》角色关系图谱构建——人物关系可视化...相关推荐
- python简单实战项目:《冰与火之歌1-5》角色关系图谱构建
前两天<权力的游戏>第七季发布了第二弹预告片,思索的第七季也快要来了,正想着脑子突然一热,要不弄个<权利的游戏>的角色共现图谱吧.故事里面的人物关系复杂程度也是出了名了的,如果 ...
- python关键词共现图谱_如何用知网导出的关键词 几秒 生成共现矩阵及图谱 》完整版...
自编软件使用技能视频演示(一) 最新整理完整版的,从收集数据 到 共词矩阵 到 图谱. 在做社会网络分析时,首先需要得到共现矩阵,如关键词共现矩阵.作者共现矩阵.机构共现矩阵等. 可是如何把从知网里导 ...
- python简单实战项目:《冰与火之歌1-5》角色关系图谱构建——数据库设计
在弄任何一个数据之前,肯定是要先设计数据库的.这里打算将<冰与火之歌>(以下称<冰火>)的文本数据先存入到数据库中,后续在使用python读取数据来处理. 前期准备 需要工具: ...
- python关键词共现_python 共现矩阵的实现
1.前言 最近在学习python词库的可视化,其中有一个依据共现矩阵制作的可视化,感觉十分炫酷,便以此复刻. 2.项目背景 本人利用爬虫获取各大博客网站的文章,在进行jieba分词,得到每篇文章的关键 ...
- CiteSpace关键词共现图谱含义详细解析
CiteSpace关键词共现图谱含义详细解析 本文以CiteSpace软件做的关键词共现分析为例,进行关键词共现图谱含义详细解析. 关键词是一篇论文的核心概括,对论文关键词进行分析可对文章主题窥探一二 ...
- 如何用VOSviewer分析CNKI关键词共现?
用VOSviewer尝试CNKI中文文献关键词共现(keyword co-occurence)分析时,你可能会踩到一个大坑.本文帮助你绕开这个坑,或是从坑里爬出来. (由于微信公众号外部链接的限制,文 ...
- 【NLP】关键词共现/属性共现矩阵
[NLP]关键词共现/属性共现矩阵 [共现]理解起来无非是两个词语同时出现的频次作为一个指标,构造矩阵.矩阵的第一列和第一行都是词语列表中的所有词,因此对角线一般设置为0--即不把自己和自己共现算进去 ...
- 绘制作者共现和关键词共现图教学
需要的作者共现.关键词共现次数 使用到的工具包括python和gephi 注意:gephi的安装需要java支持. 步骤 1.数据准备 1.1 作者词频 1.2 作者共现 2.形成gephi可读的数据 ...
- 关于高频关键词共现,ACA(作者同被引)等的范式
这篇随笔是写在看了若干篇关于高频关键词共现和ACA的文章之后的一个总结,这些论文大多是2010年之前发表的,这与这种方法是传统方法有很大关系.同时,这些文章不仅限于图书情报领域. 下面是正文: ①大多 ...
- CiteSpace系列——关键词共现图重叠很多怎么办?
假设我们正在进行关键词共现可视化: 方法一:在控制面板调整字体大小,将字体调小在一定程度上可以减少重叠 方法二: 在工具栏上找到Labels,点选最小化重叠按钮
最新文章
- 为什么Python是数据科学领域最受欢迎的语言
- mysql 非自然月统计_技本功|统计信息对SQL执行效率的影响
- 安装提示卸载office_office2010 卸载工具
- linux ssh Unused,安装openssh-portable时遇到的问题及解决办法
- angular 字符串转换成数字_Angular日期在TypeScript中格式化转换应用
- 遇到一个Linux文件系统因bios时间错误变成只读的问题
- java与jsp的关系_浅谈servlet与jsp的关系
- 基于阿里云实现简单的语音识别功能
- 使用opencv中函数实现基于Harris算法的图像角点检测
- python基础语法学习常见小问题
- 一些实用但不为人知的Unix命令
- 遇到一个难题:如何从java中调用到C的功能
- oracle 数据库模式对象,索引,序列,同义词,查看用户拥有的表,聚簇,数据库链接
- python macd底背离_MACD的“底背离”狠不狠?回测告诉你结果
- matlab拟合度R方,...1),问题是什么是拟合优度?、R^2大于多少说明拟合度很好,R^2在...-拟合度-数学-冀群是同学...
- 多目标进化优化-SPEA/R
- 微盟WOS新商业操作系统正式公测
- 小学计算机应用到英语课教案,信息技术与小学英语教学有效融合(转载)
- 帝国php漏洞,帝国CMS(EmpireCMS) v7.5 后台XSS漏洞分析
- hloj#168“倒牛奶”解题讨论