一、前言

关于知识图谱的概念,这里不加赘述,可以参考:知识图谱简介
下文会基于上市公司的基本数据,如:行业、地区、高管等,进行一个简单的实战。

二、构建步骤

1、数据抽取

上市公司的信息可以从很多地方获取到,包括证监会或各类财经网站,或者工商局官网等等,基于获取难度与项目要求,使用以下网站:
新浪财经
巨潮资讯网

(1)上市公司基本数据

这里从新浪财经获取,基本没有难度,笔者已经拥有一份数据,这里就不加介绍了,总共包含3000+的上市公司信息,结构如下:

(2)上市公司高管数据

高管数据从新浪也可以直接找到,这里使用巨潮资讯网的数据,可以看到网站提供了高管和股权结构等数据,如下:

网页结构很简单,将股票代码通过网站的接口:http://www.cninfo.com.cn/search/searchzx.jsp,转化为默认结构,再通过:http://www.cninfo.com.cn/information/management/*.html,请求数据即可,获取得到的数据直接存在mongo中,如下:

上述两个网站得到的数据都是结构化数据,可以很轻易的确定实体,及实体关系。

2、数据融合

这里只有两个互不相关的数据源,数据基本可以直接使用,忽略数据源的错误。
对于每一个实体,我们希望实体是唯一的,对于上市公司,可以直接使用股票代码,而人物,这里用简单“出生日期+性别+姓名”的哈希码来确定。如下:

hash_md5(person[u'出生年份']+person[u'性别']+person[u'姓名'])

考虑到数据源简单,行业与地区都直接使用名称即可,对原始数据进行处理,分别提取出人物、公司、行业、地区的实体。

3、本体概念确定

上文定义了四个概念:人物、公司、行业、地区,同时分别确定了概念下拥有的属性,如:姓名、学历、股票代码、上市日期等,按照这个规则,我们定义了行业图谱下的本体库。

4、关系图谱搭建

前面的数据都存在mongo中,图数据库拥有更加友好的可视化界面及关系计算功能,接下来将数据转为三元组,导入到neo4中。
关于neo4j不做介绍,详情请自行了解:neo4j教程

(1)连接创建

对于neo4j的操作使用python库py2neo,如下:

from py2neo import Graph, Node, Relationship
Graph = Graph(NEO4J_SERVER, username=NEO4J_USR, password=NEO4J_PWD)
(2)创建节点

在neo4j中,需要为每一个实体创建节点:

for person in persons:node = Node("Person", **person)Graph.create(node)

Node的name属性自动成为浏览器界面中节点的名称,如图:

(3)创建关系

在上文中定义了四个概念,概念间存在“公司–人物”,“公司–行业”,“公司–地区”这三种关系,需要为每一种关系进行创建:

   node = Node("Company", **company)neo4j.Graph.create(node)industry = company['industry']if industry:r_node = neo4j.Graph.find_one("Industry", "name", industry)company_r_industry = Relationship(node, "Profit", r_node)neo4j.Graph.create(company_r_industry)

对于人物与公司之间定义了“Manage”关系,找到公司对应的高管在neo4j中的实体节点,然后构建关系;
公司与行业之间定义了“Profit”关系,同上;
公司与地区之前定义了“Located”关系,同上;

三、实例

通过上述步骤,一个简单的行业知识图谱就已经构造完成了,

查询公司关联

通过构建完毕的图谱,可以查询上市公司之间的关联关系,如:

上述便是简单的浦发银行通过高管与其他公司的关联关系,如果要更加深入,将关系维度扩大即可。

其他

(1)企业实际控制人查询,增加股权结构关系,通过法人持有股份最终追踪到实际控制人
(2)企业风险评估、企业社交图谱等等

知识图谱:行业图谱实战相关推荐

  1. 线下课程推荐 | 知识图谱理论与实战:构建行业知识图谱 (第四期)

    知识,是智能的前提. 2012年,Google推出"Google Knowledge Graph",并利用其在搜索引擎中增强搜索结果,这便是"知识图谱"名称的由 ...

  2. 2020年中国面向人工智能“新基建”的知识图谱行业白皮书

    全文共计1379字,预计阅读时间8分钟 来源 | 艾瑞咨询(经授权转载) 编辑 | 蒲蒲 日前,认知智能国家重点实验室&艾瑞咨询联合发布<2020年面向人工智能"新基建&quo ...

  3. 【报告分享】2020年中国知识图谱行业研究报告.pdf(附下载链接)

    今天给大家分享的报告是艾瑞于2020年3月份发布的<去往认知海洋的一艘船-2020年中国知识图谱行业研究报告.pdf>,报告包含如下四大部分: 1.知识图谱技术概述: 2.中国知识图谱市场 ...

  4. 知识图谱之《海贼王-ONEPICE》领域图谱项目实战(含码源):数据采集、知识存储、知识抽取、知识计算、知识应用、图谱可视化、问答系统(KBQA)等

    项目设计集合(人工智能方向):助力新人快速实战掌握技能.自主完成项目设计升级,提升自身的硬实力(不仅限NLP.知识图谱.计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户 ...

  5. 虚拟专题:知识图谱 | 事件图谱的构建、推理与应用

    来源:<大数据> 事件图谱的构建.推理与应用 胡志磊1,2,3, 靳小龙1,2,3, 陈剑赟4, 黄冠利5 1 中国科学院网络数据科学与技术重点实验室 2 中国科学院计算技术研究所 3 中 ...

  6. 智源论坛 | 知识与认知图谱(5月30日,活动报名)

    活动亮点 智源论坛,AI技术前沿精粹尽览 独家经验分享,顶尖学者零距离 探讨前沿技术,亦分享职业经验 助你成为更好的研究者.工程师 活动报名及报告摘要请扫描文末二维码,或点击"阅读原文&qu ...

  7. 【随手小结】简述行业图谱怎么画

    "任何时候对自己以及自己所处的环境都要有一个清晰的认识" -引用螃蟹哥名言 为什么调研? 之前学习一篇调研专题课程时,记得老师说过一句话,"调研是为了帮助客户回答问题&q ...

  8. 全球及中国知识付费行业商业模式与发展盈利分析报告2022版

    全球及中国知识付费行业商业模式与发展盈利分析报告2022版 HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS-- [修订日期]:2021年11月 [搜索鸿晟 ...

  9. 知识付费的本质是什么?现在入行知识付费行业晚吗?

    知识付费本质上是教育.出版和传媒三个行业的整合,是新物种的创造. 在"所有人对话所有人"的时代,知识付费的最大意义,是能够刺激大多数普通人贡献出自己的认知盈余,它重新定义了知识生产 ...

最新文章

  1. android Spinner 例子
  2. vivado----fpga硬件调试 (五) ----找不到ila核问题及解决
  3. ButterKnife Zelezny导入不成功遇到的问题
  4. 配置WINDOWS群集
  5. Kubernetes通过一行shell命令给pod中的zk节点添加权限
  6. POJ 1451 T9 (字典树好题)
  7. javaweb基础----使用ajax校验用户名是否重复
  8. MVC3基础嵌套总结
  9. 自定义AlertDialog
  10. 在reader中勾选pdf复选框_adobe reader pro dc
  11. C# 节约里程法实现
  12. (Web前端)十分优秀的后台管理框架收集
  13. EXIF App for Mac(EXIF查看器)
  14. 计算机网络——域名系统
  15. icon小图标集合网站
  16. QCC30xx CSR867x sink工程配置后级耳放在通话中的问题
  17. 读书感受 之 《学会提问》
  18. java pdf输出图片_Java PDF转换成图片并输出给前台展示
  19. 【IT项目管理】第七章课后习题
  20. 一个北京24岁女孩的征男友要求!

热门文章

  1. 高校和科研院所“合并”!一所新大学成立
  2. 闲置iPhone这么用
  3. spring学习之将类交给spring管理,bean的注入,scope,集合注入,自动装配,生命周期,迟加载
  4. Orderless Recurrent Models for Multi-label Classification (CVPR2020)
  5. 小学学校计算机使用情况登记表,锦归小学计算机室使用情况登记表(2个表)
  6. 盛唐诗人三杰,儒释道的代表
  7. Python爬虫之正则 BeautifulSoup4解析HTML
  8. 将文件流(InputStream)写入文件 将上传文件MultipartFile写到文件
  9. flash写保护原理_NOR Flash擦写和原理分析 (二)
  10. MySQL Memory 存储引擎浅析