作者 | 郑毅

封图| CSDN│下载于视觉中国

出品 | CSDN云计算(ID:CSDNcloud)

随着AI技术的发展和普及,当今社会已经进入了智能化时代。与以往不同的是,在这一波浪潮中,企业不仅是向数字化转型,更是向知识化转型。那么,如何助力企业破解智能化知识挖掘和管理难题,实现知识化转型?

3月13日下午14:00起举行的华为开发者大会2020(Cloud)第三期华为DevRun Live开发者沙龙中,华为云自然语言处理技术专家郑毅将分享《企业级知识计算平台的技术解读和案例实践》,带你了解华为云知识计算平台及相关技术、知识图谱构建流程及方法,以及知识计算行业案例。下文主要讲述“知识图谱构建流程及方法”,让我们先睹为快。

什么是知识图谱?

知识图谱是由实体、关系和属性组成的一种数据结构。以下图为例,“刘德华”是一个人物类型的实体,“刘德华”有自己的身高、国籍等信息,这些信息便称之为实体的属性。同样,“无间道”是一个电影类型的实体。我们知道“刘德华”是“无间道”这部电影的主演,所以“刘德华”与“无间道”之间有“主演”关系。通过实体、关系、属性,就能够把我们人可以理解的知识有效地组织起来。知识图谱的构建与应用涉及数据库、自然语言处理(NLP)和语义网络等技术。

图1 知识图谱示例

通用知识图谱or行业知识图谱?

按照知识图谱的用途,知识图谱可分为通用知识图谱和行业知识图谱。通用知识图谱侧重构建常识性的知识,并用于搜索引擎和推荐系统等。行业知识图谱(也可称企业知识图谱)主要面向企业业务,通过构建不同行业、企业的知识图谱,对企业内部提供知识化服务。华为云知识图谱服务可用于以上两类知识图谱的构建、管理和服务,更侧重面向企业知识图谱。

如何构建知识图谱?

知识图谱构建主要分为自顶向下(top-down)与自底向上(bottom-up)两种构建方式。自顶向下构建方式需要先定义好本体(Ontology或称为Schema),再基于输入数据完成信息抽取到图谱构建的过程。该方法更适用于专业知识方面图谱的构建,比如企业知识图谱,面向领域专业用户使用。自底向上构建方式则是从开放的Open Linked Data中抽取置信度高的知识,或从非结构化文本中抽取知识,完成知识图谱的构建。该方式更适用于常识性的知识,比如人名、机构名等通用知识图谱的构建。本文侧重介绍自顶向下构建方式的相关流程和技术,并用于构建企业知识图谱。

目前业界暂无知识图谱云服务,也没有统一标准的自顶向下构建流程。当前业界主流的知识图谱构建方式是基于企业内部数据、公开数据,图谱服务商以解决方案形式帮助客户定制构建知识图谱。这样的方式无疑成本非常高并且效率很低,通常需要很长的周期才能完成。同时,企业没有参与感,图谱构建也可能存在很大偏差,难以用于实际业务中。

站在用户角度,我们通过抽象知识图谱构建流程及相关技术,推出华为云知识图谱云服务(图2),为不同行业、不同企业提供快速构建知识图谱能力的平台,赋能大中小型企业构建属于自己的知识图谱。

图2 华为云知识图谱云服务

华为云知识图谱云服务提供流水线式图谱构建能力,将图谱构建抽象为如下基本流程:本体构建、数据源配置、信息抽取、知识映射以及知识融合。

图3 知识图谱构建基本流程

进一步通过将每一个流程模块抽象成插件形式,并通过组合配置生成图谱构建任务。面向不同的行业和领域,只需要修改插件配置即可完成企业知识图谱的构建。同时,基于流水线设计,知识图谱云服务可以在只修改数据源的前提下完成知识图谱的更新操作,非常适用于需要频繁更新的知识图谱。

2.1 如何构建知识图谱的本体?

知识图谱构建的第一步需要完成图谱本体(Ontology)的设计和构建。本体是图谱的模型,是对构成图谱的数据的一种模式约束。对于企业知识图谱的构建,一般是由垂直领域的行业专家和知识图谱专家合作完成。

本体的构建和设计对于知识图谱的构建至关重要。可以通过梳理领域知识、术语词典、专家的人工经验等作为本体构建的基础,结合知识图谱的应用场景来完善图谱的构建,最终获得实体类别、类别之间的关系、实体包含的属性定义。华为云知识图谱云服务提供图形化本体设计工具,可以通过拖拽编辑灵活完成企业知识图谱本体的构建。

图4 华为云知识图谱云服务-本体设计界面

2.2 如何配置数据源?需要做哪些准备

在配置数据源之前,需要将不同类型、不同格式的数据进行初步的整理。比如:针对本地非电子化文档,需要先进行扫描电子化,结合OCR等技术将扫描件转换成文本文档。再比如:针对本地电子化文档,需要将本地文档按文档类型、格式进行归档解析整理成规范的格式,或者针对网络资源,需要根据网站特点,开发相应的爬虫,对数据进行爬取,并存储到本地数据库等等。还有一些第三方资源,需要获取相应的数据访问接口,并通过接口获取相应数据。

整理好的数据上传到华为云OBS对象存储服务后,知识图谱云服务就可以进行数据源的配置,包括指定格式的针对结构化数据和非结构化文本的配置等。

2.3 什么是信息抽取?怎样抽取?

信息抽取的目的是根据不同的数据源、不同的数据格式,完成实体、属性、关系这种知识的抽取。这是知识图谱构建流程中非常关键的一环,信息抽取的质量决定了知识图谱的质量。实体之间的关系以及实体的属性值,都可以用三元组(主语、谓词、宾语)来表示,所以信息抽取又可以简单叫做三元组抽取。华为云知识图谱云服务支持结构化Key-Value格式和非结构化文本的三元组抽取。针对结构化数据,可以通过配置预置函数的组合,完成字段的处理。与之对应的,针对非结构化文本,云服务提供算法模型抽取能力,支持业界前沿的基于机器阅读理解(Machine Reading Comprehension,MRC)的三元组抽取方法,通过使用多轮对话的思想进行三元组抽取,先抽取主语(Subject),然后根据抽取结果和候选谓词对应的模板构造问句抽取宾语(Object),最终组成(主语,谓词,宾语)三元组。该框架模型效果可以达到当前业界最好水平(state-of-the-art)。华为云知识图谱服务支持基于该算法的模型训练、预测以及管理功能,同时以插件形式完成流水线中信息抽取部分。

图5 基于机器阅读理解(MRC)的三元组抽取方法

信息抽取中模型训练推理功能是基于华为云一站式AI开发管理平台ModelArts完成的,该平台提供高效的AI计算、模型训练、推理及部署能力,同时为了方便训练三元组抽取模型,额外提供三元组标注工具,用户可以基于该工具快速获得训练数据,完成信息抽取以及知识图谱构建工作。

图6 三元组标注工具示例

2.4 知识融合是如何完成的?

所谓知识融合,就是对多个数据源进行知识抽取后的大量三元组数据进行对齐合并。举个例子:百度百科有明星刘德华,互动百科有明星刘德华,我们构建的知识图谱不能有两个明星刘德华吧?这时候就需要把他们识别出来放在一起,然后合并成一个实体,这就是实体的对齐以及知识的融合。这其中关键的问题是怎样高效的完成实体对齐,技术路线基本可以分为两类:基于实体属性相似度的框架、基于联合表征的深度学习框架。考虑到基于联合表征的深度学习框架依赖大量标注数据,并且模型与行业及数据强相关,无法提供很好的通用化能力,因此,华为云知识图谱服务当前支持基于实体属性相似度的框架,可以通过定义相似度度量及组合,完成实体对齐以及知识融合。

除此之外,华为云知识图谱云服务还提供图谱可视化服务,可以直观地观察分析实体及关系。

图7 病毒蛋白知识图谱可视化示例

知识图谱需要怎样的存储方式?

经过知识图谱构建,我们现在已经有了大量的三元组知识。那么要怎样来存储这些三元组知识呢?

最直接的方式是使用表格式的存储方式,如关系型数据表,三元组以三列数据或多列数据的形式存储。这种方法在图谱规模比较小的时候是可行的,但是如果图谱规模变大了,是否依然可行呢?举个例子,假使我们有了娱乐明星+电影这样一个娱乐图谱,其中包括了大量的明星人物、电影以及他们之间的关系。如果想查询“刘德华和梁朝伟共同演过的电影中,年龄最大的导演是谁?”,就需要对关系型数据库中知识图谱结果表做2-3次自连接操作,如果三元组的数量是千万、亿、十亿规模的话,显而易见,这样的查询效率极低,基本不可行。

华为云知识图谱服务采用的是业界主流的图数据库方式存储知识图谱,直接把数据或知识图谱以图的形式存储,可以非常高效地完成多跳关系、属性的查询。具体的,我们使用华为云图引擎服务,包括图存储、图计算一体的架构设计,不仅可以提供高效的查询性能,同时也可以提供多种预置的图深度学习算法,使用起来非常方便,欢迎大家前来试用。

图8 华为云图引擎服务产品优势

华为云知识计算案例介绍

中国石油基于华为云知识计算服务的知识建模、油气图谱构建、图谱存储、自然语言处理、机器学习等能力构建了业界首个油气知识计算平台。以油气勘探开发数据为基础,通过知识计算技术的应用,为油气勘探开发增储上产、降本增效提供智能辅助和决策。

图9 油气知识计算的价值和意义

华为知识计算解决方案提供丰富的知识应用,从解决企业痛点、提升企业效率、提供知识化服务的角度全面赋能企业,体现了知识计算在各行业中的智能化价值,让各行业的企业可以快速、低成本、高效率地管理,通过应用企业知识、实现知识化转型,释放知识化带来的红利,全面提升企业在智能化时代的竞争力。

想要get知识图谱全流程能力?更多精彩干货请收看3月13日的DevRun Live直播!

DevRun Live是华为开发者大会2020(Cloud)旗下的线上开发者沙龙活动,以直播的形式分享前沿科技和应用实践,开发者可以了解技术趋势、学习最新实践应用、获取最新开发工具。

点击阅读原文,预约观看直播

前沿技术探秘:知识图谱构建流程及方法相关推荐

  1. 技术动态 | 知识图谱构建的研究已走入下半场,但大规模落地应用仍需时间

    本文转载自公众号:AI前线. 作者 | 李冬梅 采访嘉宾 | 唐杰 知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融.电商.医疗.政务等众多领域,经过短短几年的发展,热度依旧不减 ...

  2. 知识图谱构建的实验方法

    知识图谱构建的实验方法包括以下几种: 人工构建: 通过专家知识或文献研究手动构建知识图谱. 爬虫爬取: 使用爬虫技术爬取网络上的知识信息. 半自动构建: 通过机器学习或自然语言处理技术对爬取的知识信息 ...

  3. 知识图谱构建流程与技术简记

    文章目录 零.图谱类型 一.模式定义 1.1 实体类别和概念分级 1.2 关系和属性 二.信息抽取 1.1 命名实体识别 1.2 关系抽取 1.3 属性抽取 1.4 实体对齐 1.5 实体链接 三.图 ...

  4. 虚拟专题:知识图谱 | 流程工业控制系统的知识图谱构建

    来源:智能科学与技术学报 流程工业控制系统的知识图谱构建 牟天昊1, 李少远1,2 1 上海交通大学电子信息与电气工程学院 2 上海交通大学系统控制与信息处理教育部重点实验室 摘要:近年来,工业控制系 ...

  5. 一站式了解多模态、金融、事理知识图谱构建指南 | AI ProCon 2020

    整理 | 许爱艳 出品 | AI科技大本营(ID:rgznai100) [导读]7 月 3-4 日,由 CSDN 主办的第三届 AI 开发者大会(AI ProCon 2020)在线上举行.本次大会有超 ...

  6. 图谱实战 | 知识图谱构建的一站式平台gBuilder

    OpenKG地址:http://openkg.cn/tool/gbuilder 网站地址:http://gbuilder.gstore.cn 知识图谱能够让机器去理解和认知世界中的事物和现象,并解释现 ...

  7. 公开课 | 知识图谱构建与应用概述

    本文转载自公众号:博文视点Broadview. AI是新的生产力,知识图谱是AI进步的阶梯.随着近年来人工智能的进一步发展,知识图谱也取得了一系列新的进展,并在各个行业中落地应用. 知识图谱的相关技术 ...

  8. 信息抽取在知识图谱构建中的实践与应用

    编者按 坦率地讲,各行各业对如何落地知识图谱这个问题,或多或少都心存一丝疑惑.人类知识和机器可理解的知识有什么区别?知识图谱如何突破自身局限性,从"万事通"转为"科学家& ...

  9. 知识图谱构建实验笔记(二):知识图谱搭建过程与总结

    文章目录 引言 命名实体识别 1. 数据预处理 2. 构建模型并预测 3. 总结 关系抽取 1. 数据预处理 2. 模型构建并预测 3. 总结 数据入库 load csv方式 neo4j-admin ...

最新文章

  1. Eclipse Theme
  2. icoding复习7, 8
  3. C++持有Object-C对象时容易内存泄露
  4. 如何优化android内存,Android内存优化
  5. 中绘制折线_统计图之折线图的结构和制作过程
  6. SQL Server 2008及以上版本出现”SQL Server 复制需要有实际的服务器名称才能连接到服务器...“的问题解决...
  7. mysql 中的neq_标准中的Eqv、Idt和Neq分别代表什么 详细
  8. 思科与华为常用交换机产品线介绍
  9. 30.STM32 DS18B20
  10. 3000字《软件测试》从入门到精通全套学习路线整理,零基础入门
  11. word中批量插入图片
  12. C#简易计算器(加减乘除三角函数运算)
  13. jmeter配置远程运行
  14. 厌倦只是一瞬间的事 2012-03-29 09:54:01 明明该有许多话要交代下去有许多事要汇报上去,明明有很多事情要去做,可是偏偏都不想去。可是突然还是打算留在电脑前漫无目的地把时间都耗费在了
  15. 由祖冲之圆周率洞悉——古中国数学家的计算力真是惊人
  16. The Complete Guide To Rooting Any Android Phone
  17. php如何在图片上写字,php在图片上写字并生成图片
  18. fails sanity check错误的解决方法
  19. 基于深度学习的自动识别夹取机械臂
  20. Spring Bean 的注入方式

热门文章

  1. 数据中心建设“优劣”在于这几个关键问题
  2. iOS网络-NSURLSessionDataTask大文件离线断点下载
  3. Android系统移植与调试之-------如何修改Android设备添加重启、飞行模式、静音模式等功能(一)...
  4. 正则表达式实现最小匹配
  5. mysql 从零开始_MySQL从零开始:01 数据库简介
  6. LibreOffice使用笔记
  7. emmmmmm(官宣?)
  8. Java8内存模型—永久代(PermGen)和元空间(Metaspace)
  9. Mysql 多表使用 Case when then 遇到的坑
  10. Vue报错:Uncaught RangeError: Maximum call stack size exceeded