在用命名实体识别工具提取出人名后,我们要构建一个知识图谱,还需要知道人物间的关系,而人物间的关系是基于人物共现来提取的,"共现"指的是两个人物在文章中某一部分共同出现,这个“部分”就是所谓的共现窗口的大小,可以是一个段落,也可以是一个句子,共现窗口越小,人物的共现频次可能就越高。

因此,本步骤的目的是得到人物间的共现关系,我采用的方法是用爬虫爬取免费小说网站上的数据,按章节爬取,将数据保存到数据库中。

数据来源

虽然我有本地数据,但我设定的共现窗口为一个章节,本地数据是整篇小说在一个文档中,无法区分出章节,所以我想到用爬虫到网上爬取数据。
经过一番选择,最后选定了一个免费小说网站,里面有我想要的《雪山飞狐》小说,并且是按章节来分的。

获取数据


爬虫代码已上传至github——代码

共现关系

将上一步骤得到的共现人名进行提取,存储到excel文件中

每一行表示在一个章节中共现的人物

参考文章

参考的一位大佬系列文章:
个人博客主页

金庸小说人物知识图谱构建——获取共现关系相关推荐

  1. 金庸小说人物知识图谱构建——图谱可视化

    读取上步得到的共现矩阵,将人物间的共现频次提取处理,形成如下CSV文件 这一步的代码如下 import xlrddef readxls(path):xl = xlrd.open_workbook(pa ...

  2. 金庸小说人物知识图谱构建——以《雪山飞狐》为例

    先看一下最终效果图 做成这样一张图,大概需要以下几步: 人名提取 获取共现关系 构建共现矩阵 图谱可视化 各步骤详细实现参考此专栏后续博文

  3. 金庸小说人物知识图谱构建——人名提取

    本步的思路是运用命名实体识别工具来提取小说中的人名 我用的工具是stanfordcorenlp,当然还有其他的工具可以选择,如snownlp,THULAC等,我将提取的人名保存在txt文件中,经过人工 ...

  4. python爬取金庸小说人物

    python 爬虫 python爬取金庸小说人物 ''' 通过http://www.jinyongwang.com/data/renwu/来获取金庸小说中的人物 输出结果为 小说1 人物1 人物2 人 ...

  5. 金庸小说人物关系表年表

  6. 知识图谱构建:py2neo的实体关系以及节点显示图片

    简单示例 py2neo 节点可以显示图片.你可以将图片作为节点的属性存储在 Neo4j 数据库中,然后使用 py2neo 读取这些属性并在应用程序中显示.举个例子,你可以这样创建一个节点: from ...

  7. 一、概述(知识图谱构建射雕人物关系)

    如何快速梳理<射雕三部曲>中的人物关系,或者查看哪些人会什么武功?通常的思路是通过原著和网络上的解读分析,将人物,武功,门派等信息提取出来,并构建一个模型存储,提问时通过查询这个模型来获得 ...

  8. 把金庸小说数据化——关于语言的思一点考

    先看几道有关金庸小说的问题: 第一题: 1.一男性角色叫她姑姑,但二者没有血缘关系: 2.她的师父是女性,师父的师父也是女性: 3.她于人情世故所知甚少,更习惯生活在原来的的环境中. 4.曾经有一位武 ...

  9. 知识图谱从入门到应用——知识图谱的获取与构建:知识工程与知识获取

    分类目录:<知识图谱从入门到应用>总目录 知识工程发展历史 在前面的文章中,曾介绍过早期的人工智能有一个流派称为符号主义.符号主义认为智能的本质就是符号的操作和运算.符号主义在后来几大流派 ...

最新文章

  1. 【新手宝典】一篇博文带萌新建站并了解建站体系流程和对萌新友好的便捷方式,这篇博文很有可能是你的启蒙文
  2. 联想rd650怎么装系统win7_Lenovo g50重装win7系统|U盘重装联想g50笔记本系统
  3. JMS学习四(ActiveMQ消息过滤)
  4. spring boot + vue + element-ui全栈开发入门——前端编辑数据对话框
  5. 将mnist获得的数据还原成图片形式
  6. WSL2:我在原生的Win10玩转Linux系统
  7. python unrar问题_Python提取/unrar RAR文件错误
  8. 简单图片隐写术练习题
  9. 游戏设计入门——游戏程序框架设计
  10. 小学数学四年级上册计算机教案,四年级信息技术人教版上册教案
  11. 【技术综述】一文道尽传统图像降噪方法
  12. 悉尼大学计算机研究生学制,悉尼大学研究生一般读几年?九大领域研究生学制盘点!...
  13. android 图片存取方法,6种备份Android照片的方法
  14. Python实验报告 实验16 - Python计算生态
  15. 城市信息模型基础平台(CIM)产品白皮书
  16. 【偶遇小bug】浏览器无法翻译此网页解决
  17. Android中的Activity
  18. cv2.contourArea、cv2.arcLength、cv2.approxPolyDP、cv2.convexHull、cv2.boundingRect、cv2.minAreaRect
  19. 利用curl进行ftp的下载和上传
  20. 支付宝扫码验签实例php,PHP 支付宝支付,支付宝回调

热门文章

  1. 云班课计算机题答案,云班课答案获取
  2. 工厂IT人员如何自学ERP系统
  3. NB-IOT开发|nbiot开发教程《三》AT指令类模组驱动-STM32实现AT指令状态机
  4. c 语言 蒙特卡洛程序,蒙特卡洛步骤学习(一)
  5. 微课登陆显示服务器繁忙,老师为什么教别人孩子容易,教自家孩子却这么难?| 公益微课...
  6. ubuntu16.04下安装网易云音乐(官网已经换为18.04)
  7. FICO凭证错误:BKPFF$PRDCLN800在FI中达到的项目最大编号
  8. WebForm水印照片
  9. 前端微服务化解决方案
  10. python多核运行程序_python单进程能否利用多核cpu的测试结论