OpenKG地址:http://openkg.cn/tool/gbuilder

网站地址:http://gbuilder.gstore.cn


知识图谱能够让机器去理解和认知世界中的事物和现象,并解释现象出现的原因,推理出隐藏在数据之间深层的、隐含的关系,使得知识图谱技术从最初谷歌用来提升搜索引擎的结果来增强用户体验,到现在已经被金融、公安、能源、教育、医疗等领域众多行业进行大量运用。

知识图谱作为大数据和人工智能时代的关键技术已经让越来越多的人意识到它的重要性和价值。知识图谱的应用现在处于“百花齐放”的状态。

知识图谱全生命周期分为构建、存储管理、应用三个阶段。

知识图谱的应用已经受到业内广泛关注,知识图谱的存储管理也有众多解决方案。例如我们前期研发的开源知识图谱图数据库系统gStore(http://www.gstore.cn/pcsite/index.html#/)就是知识图谱存储的工具。gStore在OpenKG上也有介绍 (http://www.openkg.cn/tool/gstore )

然而知识图谱构建却鲜有统一化的平台工具,但是这是知识图谱生命周期的技术难点之一。

这是由于知识图谱构建是一项需要花费大量的人力和时间,却不直接体现价值的工作,但知识图谱构建却是最基础、最关键的工作,是解决“巧妇难为无米之炊”窘境的核心手段。

北京大学王选计算机研究所和大数据分析与应用技术国家工程实验室(北京大学)邹磊教授团队通过两年时间,打造了知识图谱自动化构建平台gBuilder。gBuilder基于机器学习、自然语言处理、图数据库等技术可以实现对结构化数据和非结构化数据的知识抽取,并转化为知识图谱三元组。

Schema设计

无论是结构化项目还是非结构化项目,均需首先设计知识图谱Schema。知识图谱Schema一方面可以描述知识图谱中的实体类型、实体属性和关系等信息,另一方面也是知识图谱查询和分析的重要参考,相当于关系型数据库的表结构。

同现有的Schema设计方法不一样的是,gBuilder的Schema设计模块是一个轻量级的Web平台,以图的方式来表述知识图谱Schema,用户可以通过拖拽的方式在画布上设计类、类属性和关系。

结构化数据抽取

对于结构化项目而言,其知识抽取流程设计就是将结构化表及字段,与Schema中的实体类型、属性、关系等进行映射,并形成映射文件。

gBuilder自动化构建平台结构化数据抽取基于D2RQ平台,让用户显式地、可视化地处理结构化数据抽取的所有步骤,摆脱复杂的映射语言,易于使用。当前gBuilder能从MySQL、Oracle、SQL Server、PostgreSQL、达梦等关系型数据库中将数据100%准确的映射为RDF三元组数据。

非结构化数据抽取

对于非结构化数据抽取而言是当前知识图谱图谱构建的重难点,例如给下图一段文字,如何将里面的实体以及实体之间的关系准确抽取出来是一个关键问题。当前业内对于非结构数据的自动抽取产品还是较为欠缺。

对于非结构化项目而言,需要通过加载数据集、设计构建流程、开始构建、构建结束步骤。在构建流程中gBuilder通过可视化拖拽的方式来自定义构建非结构化数据知识图谱构建流程。同时gBuilder提供了大量的可选模型,它们有着不同的特性,以及在不同的数据上预训练,用户可以根据需求,挑选出最合适的模型作为构建模型,也可以使用自己的数据训练模型进行图谱构建。构建过程中可以随时使用系统自带的流程检查功能和测试功能来测试流程的正确性与构造效果。完成构建后,可以查看构建的结果,从非结构化数据集中抽取出了构建知识图谱所需要的三元组。

具体抽取流程示例如下,用户首先根据实际业务场景需要通过拖拽算子的方式构建数据抽取流程,然后输入非结构化数据,最后抽取出RDF三元组数据。例如输入“小明是小王的爸爸”测试数据,通过流程的一步步运行,最终抽取出“<小明> <父亲> <小王> ”三元组数据。

在gBuilder平台的非结构化数据抽取详细操作如下面动图所示:

最后通过gBuilder抽取的RDF三元组数据同gBuilder团队研发的gStore图数据库系统无缝衔接,再加上该团队研发的面向知识图谱自然语言问答引擎gAnswer,形成了覆盖知识图谱构建、知识图谱存储管理和知识图谱应用的完整生命周期的知识图谱一体化解决方案。

gBuilder整体采用微服务架构,主要模块包括可视化Flowline工具库,数据管理模块,项目管理模块、模型库和任务中心;其中模型库与任务中心等高负载组件采用多云融合方案,为用户提供弹性、实时和可扩展的知识图谱构建服务。

系统框架图

gBuilder具有可视化、易于使用、高扩展、高延伸、灵活性以及支持多种语言(英语、中文)的特性,有力的支撑知识图谱的构建,打破“巧妇难为无米之炊”的窘境。后续gBuilder也将支持更多数据模型的知识图谱构建以丰富知识图谱构建生态和实际业务需要。也期待更多同行者加入我们一起打造和完善图谱生态。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

图谱实战 | 知识图谱构建的一站式平台gBuilder相关推荐

  1. 图谱实战 | 知识图谱在美团搜索酒旅场景认知中的应用

    分享嘉宾:陈骐 美团 高级算法专家 编辑整理:毛佳豪 中国平安浙江分公司(实习) 出品平台:DataFunTalk 导读:知识图谱凭借能够以图模型描述知识和世界万物关联关系的特性,在各行业领域大放异彩 ...

  2. 虚拟专题:知识图谱 | 医学知识图谱构建关键技术及研究进展

    来源:<大数据> 医学知识图谱构建关键技术及研究进展 谭玲1, 鄂海红1, 匡泽民2, 宋美娜1, 刘毓1, 陈正宇1, 谢晓璇1, 李峻迪1, 范家伟1, 王晴川1, 康霄阳1 1 北京 ...

  3. 【知识图谱】知识图谱构建技术一览

    [知识图谱]知识图谱构建技术一览 一.什么是知识图谱 二.知识图谱的分层架构 三.知识图谱构架技术 (一)数据获取(Data Acquisition) (二)信息抽取(Information Extr ...

  4. 【知识图谱】知识图谱概论

    文章目录 一.知识图谱与语义技术概述 1.知识图谱的概念演化 2.重点 3.应用 4.KG的本质 二.典型知识图谱 三.知识图谱技术概览 1.KG技术体系 2.知识表示 (1)概述 (2)语义网知识表 ...

  5. 虚拟专题:知识图谱 | 频谱知识图谱:面向未来频谱管理的智能引擎

    来源:通信学报 频谱知识图谱:面向未来频谱管理的智能引擎 孙佳琛, 王金龙, 丁国如, 陈瑾, 龚玉萍 陆军工程大学通信工程学院 摘要:针对当前频谱管理中表征方式较单一.管理方式对人的经验依赖性较强. ...

  6. 知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱的概念,与传统语义网络的区别

    知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱的概念,与传统语义网络的区别 知识图谱的概念,与传统语义网络的区别 狭义概念 作为语义网络的内涵 与传统语义网络的区别 优点 缺点 与 ...

  7. 事理图谱-下一代知识图谱

    一.人工智能与认知智能 当前人工智能时代下,机器与人类之间的博弈一直在进行着.如图1所示,从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在若干人工智能领域大规模应用的如今,人工智能已经走 ...

  8. Python neo4j建立知识图谱,药品知识图谱,neo4j知识图谱,知识图谱的建立过程,智能用药知识图谱,智能问诊必备知识图谱

    一.知识图谱概念 知识图谱的概念是由谷歌公司在2012年5月17日提出的,谷歌公司将以此为基础构建下一代智能化搜索引擎,知识图谱技术创造出一种全新的信息检索模式,为解决信息检索问题提供了新的思路.本质 ...

  9. 【知识图谱】知识图谱应用

    知识图谱怎么用 知识图谱应用场景 辅助搜索--精准回答 eg: 辅助问答--人机互动 eg: 辅助数据集成--智能数据整合 eg: 辅助决策--智能决策 知识图谱和各种AI技术综合使用能更好地发挥AI ...

最新文章

  1. 证明矩阵添加一列(行),则其秩或不变,或增加1
  2. bootstrat 设置 select option 选项的值
  3. 在centOS7中装mysql_在 CentOS7 上安装 MySQL5.7
  4. 电脑技巧:电脑卡顿的4个优化小技巧,太有用了!
  5. Java 8的烹调方式–拼图项目
  6. Spring初始化:org.springframework.we...ContextLoaderListener的作用
  7. Linux系统编程38:多线程之什么是线程同步以及条件变量函数
  8. python核心编程五——映像和集合
  9. 国外问答网站Quora数据的爬虫 Java
  10. python监听键盘库_python监听、操作键盘鼠标库pynput详细教程|python基础教程|python入门|python教程...
  11. redis高并发数据错乱_redis总结:1T以上海量数据+10万以上QPS高并发+99.99%高可用...
  12. c语言期末考试题库大题及详解答案,C语言期末复习题答案.doc
  13. 51单片机最小系统原理图、PCB及组成原理详解
  14. Codeforces 760B Frodo and pillows【贪心+二分】
  15. 使用valgrind测试gluster fuse内存泄漏问题
  16. 交叉销售功能介绍-配置
  17. mysql if 多个,mysql if条件中的多个条件
  18. qq修改实名认证已达上限_和平精英解除防沉迷怎么弄 和平精英实名认证修改教程...
  19. 高斯过程回归(六)核函数
  20. 暮色方舟如何在电脑上玩 暮色方舟模拟器玩法教程

热门文章

  1. .NET中得到计算机硬件信息
  2. 困扰多年的PCB散热问题终于可以解决了!
  3. 通信教程 | 串口丢数据常见的原因
  4. 搞懂C++为什么难学,看这篇就够了!
  5. BUG_ON()、panic()、dump_stack()几种内核调试手段
  6. rk3188开机失败(ump_file_open() 251)
  7. linux下usb调试工具,LINUX USB调试
  8. Cortex M3 NVIC与中断控制
  9. python从入门到大神系列手机_python从入门到大神---2、和Python编程相遇的日子
  10. JS数据结构与算法——插入排序