来源:知链数据

知识图谱和图分析与可视化”这个题目看起来比较大,我尝试基于本人的一些图数据可视化与分析经验,对知识图谱图分析与可视化之间的关系进行简单梳理,并分享一些以知识图谱为代表的图数据与图可视化、图分析结合进行数据洞察的一些经验。

当一些朋友看到节点以及边构成的可视化图时,还在疑问这个是否就是“知识图谱”?答案是否定的。如下图中节点与边构成的可视化网络图,在有的领域与场景下会被称作“知识地图”(教育领域也有个知识可视化研究方向,里面就有提到这个),更多的时候这个图可以被看做图数据的一种可视化展示形式。而知识图谱是数据层面的概念,从某种程度上看就是一种结构化数据。

我先尝试分别描述图分析与可视化,知识图谱的一些特点:

  • 图是相互关联的事物及其关系的一种结构化表示。

  • 图分析能够解释复杂的关系,从数据中获得高度独特而有价值的见解。

  • 图的可视化是此过程的核心。以可视化的方式看到关系对于理解关系十分关键。

例如最为常见的社交网络,每个节点是一个账户,我们可以定义账号之间的关注关系或者其他关系为边,由这个规则就可以构成一种社交网络。或者我们定义节点为VC,VC之间有合作投资,就形成了边,由这个规则就可以构成一种投资机构合作网络。

我们可以利用图分析的算法对其进行分析与挖掘,不管是进行社群发现,还是节点重要度排序,都可以帮助我们产生新的洞见。在这个过程中,对于网络的可视化会扮演一个重要的角色。

  • 知识图谱(以及事理图谱)以结构化的形式描述客观世界中概念、实体、事件、属性及其关系,将信息表达成更接近人类认知世界并且可以被计算机处理的形式,提供了一种更好地组织、管理和理解海量信息的能力。

  • 知识图谱的数据结构主要以图的形式进行体现,因此在对知识图谱数据进行分析的时候与图分析进行结合是一种自然而然的选择。

知识图谱数据更多的会以图数据库进行存储,这也从侧面说明其图结构的数据本质。而同时,复杂性科学中存在一种重要的研究手段,就是复杂网络,可以把现实世界中的各种问题与研究对象抽象成为节点与边,构建为图的结构,再利用复杂网络的各种方法进行分析与研究。刚好,图数据(知识图谱)与对应的分析方法(图分析与可视化)可以天然进行结合。

知识图谱图分析与可视化到底是什么关系?

知识图谱是图分析与可视化所基于的图数据中的重要组成部分。

知识图谱是一种数据形式,基于这种结构化的数据可以支持从数据分析、智能问答、反欺诈等一系列智能应用。

而图分析与可视化是一种基于复杂网络的可视化形式与分析手段,其数据基础是各种图数据,知识图谱只是图数据中的一种。除了知识图谱数据,还可以从其他角度得到不同的图数据。各对象间的信息、资源、资金或人员流动与传播的数据,例如如下图左侧的AI大牛流动网络,是根据AI大牛在公司之间的流动方向构建的有向图;

还可以根据各个对象间的特征进行相似度计算,从而生成对象间的相似度网络,并进行展示与分析,例如下图中间的区块链相关文献相似度图谱,是根据文献摘要间的文本相似度构建相似度网络,进而利用图挖掘算法进行分析。

我们可以基于以上不同规则定义,通过不同手段得到的图数据,进行展示与分析。例如:

图左边是一个人才流动网络,中间是一个区块链领域的文献文本相似度网络,右边是一个VC合作网络。不同类型的数据,通过不同的规则,都构建成为图数据,并且以图可视化的形式表现出来,支持分析。

可以具体来看:

人才流动网络中节点定义为公司,当公司与公司之间存在人才流动的时候,就将不同的公司进行连接,以这个规则构建了企业间人才流动网络,来说明领域企业间的人才与资源流动趋势。基于AI领域主要大牛跳槽信息构建的人工智能领域主要人才流动网络如下。

文献相似网络中每个节点代表一篇文献(文本),利用文献摘要计算文献间的文本相似度,当相似度大于一定阈值,将两篇文献连接起来。这个网络可以帮助我们从相对宏观的数据,发现文献之间研究话题的相似性。

按照这个规则,以区块链领域文献为基础,可以构建如下文本相似度网络。对网络进行聚类,就可以发现不同的细分研究领域,并可以配合不同的角度进行“文献综述”。

细分研究领域:

细分研究领域时间分布:

主要研究国家与主要研究领域:

主要研究机构与主要研究领域:

VC合作图谱中每个节点代表一家投资机构,如果不同的机构投资了同一家创业公司,那么我们定义这些机构间产生了合作关系,就把这些机构通过边连接起来。这个网络代表了投资机构间的信息、资源与资金互通基本情况,可以从这个角度对投资领域的各个机构进行宏观的群体划分。

按照这个规则,以2017年的部分一级市场数据,可以构建如下VC合作网络。并且可以从中找到联系紧密的一些投资机构社群以及重要的投资机构节点。

进行图可视化与分析的时候,需要注意的问题:

布局算法

在进行图可视化分析的时候,针对组建好的网络,如何将节点位置进行合适的排列,从而能从视觉上可以最有效的获取网络的特征,这是图可视化分析的基础。

有些网络是放射性的,可以采取胡一凡布局;有些网络是具有层次特征的,就可以采取层次布局;更多时候,节点之间可以划分出较为明显的社群,可以采取类似力引导布局。

说到这点就需要提到图可视化的局限性,目前局限于硬件性能以及布局算法,在性能稍好的个人PC上能够流畅展示的网络节点规模也就10万级别(个人经验)。如果我们的真实分析应用用到的图数据节点数超过这个量级,那么我们必须对图数据采取预先的计算、筛选或者在可视化的时候采取分层下钻的操作。所以其实从另外一个角度看,可视化图分析是人机结合进行洞察与模式发现的过程,之后,当我们确切的知道需要对特定的图数据做哪些挖掘的时候,就可以一定程度抛开可视化图分析,单纯进行图计算,进行数据发现。

除了对网络进行布局,从视觉直接捕捉网络特征,还需要通过网络结构本身的特征、节点与边蕴含的信息再配合图交互探索进行更进一步的分析。

络结构本身的特征挖掘:

对于复杂网络来说,网络结构本身代表了对数据以及关系的抽象,通过对其进行挖掘与模式发现,可以帮助我们从数据内部结构的特征来得到洞察,是数量统计挖掘之外的重要数据洞察方法。特别是对于类似意见领袖、社群、传播等数据分析,复杂网络挖掘的方法是必须的基础(当然前提是有数据支持)。

具体的可以在不同的网络类型上采取各种社群发现(聚类)算法、节点重要性程度算法(PageRank等)、传播模式发现等方法进行数据的分析挖掘。

节点与边蕴含的信息挖掘:

网络结构本身是抽象的,具有通用性。但是我们也需要配合不同网络中节点与边所蕴含甚至关联的数据进行更进一步的针对性分析。

例如在社交关注网络中,账号的发帖回帖内容,账号的点赞与关注量;在文本相似度网络中,文本的关键词,发布时间,作者等;在人才流动网络中,具体的流动人员,时间等信息。这些都是进行针对性分析必须考虑的因素。

以上提到的对于网络结构本身的特征挖掘、节点与边蕴含的信息挖掘甚至因为网络规模过大而必须进行的筛选下钻,这些都最好基于图交互探索提供给用户。这样分析师才可以与所要分析的数据、以及分析方法进行快速交互迭代,从而对数据进行洞察。

到这里,不知道大家是否注意到一点,我举的例子中,构成网络的节点类型都是同质的,实际上这种网络是同质网络。在我的经验中我分析过网络节点类型最多的也就是个二部图,例如投资机构-创业公司组成的投融资网络。目前在网络结构挖掘,甚至网络布局算法方面对于更多节点类型的网络也就是异质网络的支持并不好。所以至少目前的分析更多的是对同质网络的分析与挖掘,即使对于由各种节点类型构成的知识图谱,想要对其进行图分析与可视化,在很多时候还是要取一个“切片”进行分析。目前学术界有在对异质网络进行更多分析与探索,希望从具有更丰富信息的异质网络中得到更多信息(对异质网络感兴趣的朋友可以关注北邮石川老师的研究)。

以上就是我的经验分享,基本总结了我这4年对于知识图谱与图分析与可视化的一些认识。感兴趣的小伙伴可以加微信交流!

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

知识图谱和图分析与可视化相关推荐

  1. 除了知识图谱,图还能做什么?

    作者:鲍翰林 TigerGraph高级解决方案顾问 摘要:本文将围绕三个方面,重点介绍图数据库和图分析的价值,并列举一些图分析应用的场景.工具和路径等. 提到图,大家可能不怎么了解,但是提到知识图谱( ...

  2. 知识图谱-基于图数据库的知识表示常用结构以及Nebula Graph的实现

    目录 一.知识图谱的表示方式 1.1 特定领域的知识图谱 特点 1.2 简单的通用知识图谱 特点 补充 1.3 可自定义本体的通用知识图谱 特点 补充 二.图数据库选型 三.基于Nebula Grap ...

  3. 远程监督关系抽取漫谈:结合知识图谱和图神经网络

    远程监督关系抽取是一种用知识图谱去对齐朴素文本的标注方法,属于半监督学习算法,自然而然提取特征的时候就会出现很多噪声.比如两个实体之间还有别的关系或者是没有关系,这样的训练数据会对关系抽取器产生影响. ...

  4. 知识图谱和图神经网络

    知识图谱 理论知识 知识图谱嵌入模型 TransE DistMult 知识图谱的抽取与构建 知识图谱工程 知识抽取--实体识别与分类 知识抽取--实体关系抽取与属性补全 知识图谱的推理 常见知识图谱推 ...

  5. 知识图谱与图神经网络_biji

    图表示学习侧重于图结构的处理.知识图谱嵌入模型和规则学习等更加侧重于语义和逻辑结构特征的学习,更好的知识图谱表示学习方法需要综合利用好语义,逻辑结构的特征学习和图结构的特征学习等多种方法 RGCN: ...

  6. 会议交流 | 人工智能与机器学习创新峰会 - 知识图谱与图神经网络分会

    人工智能与机器学习创新峰会力邀 HBAT 等大厂资深研发专家做分享和技术展望 时间:9月4日下午1:30 地点:浦东海神诺富特大酒店 OpenKG 开放知识图谱(简称 OpenKG)旨在促进中文知识图 ...

  7. 【Neo4j × 知识图谱】图形化数据库基本操作: 创建节点与关系、添加属性、查询节点 | 附:可视化 构建四大名著 知识图谱(含源代码)| word2vec实战: 构造斗罗大陆人物关系

    给研究生的真诚建议(将会分篇发布) [2]躺平摆烂和emo解决不了任何问题,打起精神来,只有付出才有回报,只有主动行动 去解决问题,问题才能被解决! [3]研究生课程都集中在研一,研二(几乎)就不再上 ...

  8. 【知识图谱】——图卷积神经网络(GCN)

    一.前言 深度学习一直都是被几大经典模型给统治着,如CNN.RNN等等,它们无论再CV还是NLP领域都取得了优异的效果,那这个GCN是怎么跑出来的?是因为我们发现了很多CNN.RNN无法解决或者效果不 ...

  9. [知识图谱]-Neo4j图数据库安装及药材图谱实现

    参考:https://blog.csdn.net/Eastmount/article/details/83268410 (一)Neo4j图数据库安装 可以从官方网站下载Neo4j对应的版本,包括网页版 ...

最新文章

  1. python 记录日志到日志服务器_Python日志模块的使用与思考:服务器程序将每日日志写入每日日志文件,logging,及,把,每天,到,当天,中...
  2. java编写自动化脚本生成apk_Unity3D研究院之Android全自动打包生成apk(六十九)
  3. Windows内核实验002 中断现场
  4. james-2.3.2中的配置
  5. jQuery 对象与Dom 对象互转
  6. 真正的门槛 - 全干工程师
  7. LaTeX使用小结2
  8. 现在Web前端培训,哪个机构比较好?
  9. WiFi测试规范总结
  10. 利用Jscript实现淘宝购物车的全选框功能
  11. 成年人改名字要哪些步骤和手续?
  12. 海信E8H Mini LED 电视评测
  13. 【CZY选讲·Triangle】
  14. 长安大学微型计算机原理与接口技术答案,长安大学考研专业课《815微机原理与接口技术》真题解析 考点 冲刺.pdf...
  15. linux 内核链表
  16. Oracle中的commit与rollback
  17. iCloud__Redmine(云服务器安装redmine)
  18. arcgis根据7参转坐标_ArcGIS和COORD进行坐标七参数转换国家2000方法(可下载坐标转换工具)...
  19. 这才是世界上最健康的作息时间表
  20. 用vb编了个数独计算器

热门文章

  1. “人文清华”讲坛——陈国青 大数据:颠覆的力量(附视频)
  2. 近期活动盘点:大咖云集,中国AI创新者论坛(3.21)
  3. 剑指offer:二叉树镜像
  4. 可构建AI的“AI”诞生:几分之一秒内,就能预测新网络的参数
  5. 台大喊你来上课,深度学习优化,免费的哟
  6. 【卷积神经网络结构专题】一文详解LeNet(附代码实现)
  7. SAP RETAIL MM42维护商品采购信息记录数据的缺陷
  8. 让静态知识动起来:从知识图谱到事理图谱
  9. 人工智能的人文主义,如何让AI更有爱
  10. 关于机器学习算法的16个技巧