知识图谱构建流程与技术简记
文章目录
- 零、图谱类型
- 一、模式定义
- 1.1 实体类别和概念分级
- 1.2 关系和属性
- 二、信息抽取
- 1.1 命名实体识别
- 1.2 关系抽取
- 1.3 属性抽取
- 1.4 实体对齐
- 1.5 实体链接
- 三、图谱补全
- 四、功能图谱的嵌入与结合
- 事件图谱
零、图谱类型
- 概念图谱:关系均为isa。
- 关系图谱:设定固定的关系类别schema,其中spo三元组中的s和o都是实体,这也是最经典的图谱,因为真正满足数据结构。
- 属性图谱:spo三元组中,p和o都是开放的,o甚至可以是图像,音频等任意描述头实体的属性信息。
- 事件谱图:存储事件信息,其中事件元素都应该是实体。
一、模式定义
- 模式也就是知识图谱的本体,是整个项目的骨架,直接决定知识图谱的应用范围。
这个阶段,需要根据知识图谱的应用场景,确定图谱的领域,进一步定义知识图谱的实体类别(概念)、概念分级、关系类别、属性类别等一系列数据规范。
1.1 实体类别和概念分级
- 一个实体的类别,也称作实体的上位词,每个上位词就是一个概念。这实际上就是我们通常意义上的分类。对不同层级的分类,相对而言有粗粒度和细粒度的描述。
1.2 关系和属性
- 关系是描述实体与实体之间的说明符,对知识图谱而言,关系连接的是图中的两个结点。而属性只是描述单个实体,在知识图谱中属性值不是独立的结点。属性类别在本体定义中只是一个可选项。
- 属性在数据结构上可能不同于实体。属性是一个具体的值,它可以是一个字符串、一个链接、图片等单个值。
二、信息抽取
- 完成第一阶段的模式定义后,剩下的就是通过信息抽取填充上色。但在目前而言的实际工作中,第一阶段的任务往往是十分困难的,通常需要仔细的调研需求并进行设计。但是在一些领域(通用领域、医学领域等),已经有较为完备的本体定义(具体待补充),可以对这些工作加以利用。
1.1 命名实体识别
- 最常规:序列标注方法
- 嵌套实体:基于阅读理解(MRC)、指针等。(待补充)
1.2 关系抽取
- 数据方面
- 远监督
- snow ball
- 模型方面
- 单纯的关系分类,输入为实体对
- 实体关系联合抽取(结合序列标注和文本分类等技术,设计pipline、end2end模型)
1.3 属性抽取
- 数据方面主要是利用搜索引擎,可以快速获取大量实体的基础属性。
- 从非结构化文本中进行属性抽取,技术方案与关系抽取类似。
1.4 实体对齐
实体对齐是判断多源异构数据中的实体是否指向真实世界同一对象的过程。如果多个实体表征同一个对象,则在这些实体之间构建对齐关系,同时对实体包含的信息进行融合和聚集。
1.5 实体链接
- 实体链接,也称为实体消岐
- 通常分为候选实体召回和候选实体排序两个阶段。(也可根据情况划分为多级,目的是为了平衡性能和准确率,类似计算机体系中的多级缓存结构)
- 召回(尽可能覆盖目标实体、候选集尽可能小):
- 规则匹配
- 简单高性能的机器学习方法
- 排序
- 文本相似度法:通过计算mention和候选实体特征的关联度
- 知识表示法(transE、transH等):对知识库中所有的实体学习一个向量表示。
三、图谱补全
- 补全包括属性补充、关系补充等。主要是通过在现有的不完整的知识图谱上挖掘规律。例如,只是哭中对于实体苹果,有颜色这个属性,因为苹果是水果,所以可以推理所有的水果都有颜色这一个属性。
- 对于关系抽取也有类似的方法。
- 补全的方法,基于知识表示、(待补充)
四、功能图谱的嵌入与结合
事件图谱
- 事件抽取的要素,通常是关系图谱中的实体,从而实现对一个事件语义层面的解析。
- 事理图谱:描述事物之间的逻辑关系
- 时序图谱:将常规的三元组增加一个事件戳,变成四元组,从而可以描述时间发展,并能提供丰富的时间维度的操作。
知识图谱构建流程与技术简记相关推荐
- 前沿技术探秘:知识图谱构建流程及方法
作者 | 郑毅 封图| CSDN│下载于视觉中国 出品 | CSDN云计算(ID:CSDNcloud) 随着AI技术的发展和普及,当今社会已经进入了智能化时代.与以往不同的是,在这一波浪潮中,企业不仅 ...
- 虚拟专题:知识图谱 | 流程工业控制系统的知识图谱构建
来源:智能科学与技术学报 流程工业控制系统的知识图谱构建 牟天昊1, 李少远1,2 1 上海交通大学电子信息与电气工程学院 2 上海交通大学系统控制与信息处理教育部重点实验室 摘要:近年来,工业控制系 ...
- 虚拟专题:知识图谱 | 医学知识图谱构建关键技术及研究进展
来源:<大数据> 医学知识图谱构建关键技术及研究进展 谭玲1, 鄂海红1, 匡泽民2, 宋美娜1, 刘毓1, 陈正宇1, 谢晓璇1, 李峻迪1, 范家伟1, 王晴川1, 康霄阳1 1 北京 ...
- 一站式了解多模态、金融、事理知识图谱构建指南 | AI ProCon 2020
整理 | 许爱艳 出品 | AI科技大本营(ID:rgznai100) [导读]7 月 3-4 日,由 CSDN 主办的第三届 AI 开发者大会(AI ProCon 2020)在线上举行.本次大会有超 ...
- 图谱实战 | 知识图谱构建的一站式平台gBuilder
OpenKG地址:http://openkg.cn/tool/gbuilder 网站地址:http://gbuilder.gstore.cn 知识图谱能够让机器去理解和认知世界中的事物和现象,并解释现 ...
- 公开课 | 知识图谱构建与应用概述
本文转载自公众号:博文视点Broadview. AI是新的生产力,知识图谱是AI进步的阶梯.随着近年来人工智能的进一步发展,知识图谱也取得了一系列新的进展,并在各个行业中落地应用. 知识图谱的相关技术 ...
- 小白入门知识图谱构建与应用
知识图谱的构建技术与应用研究 知识图谱的概念在2012年由Google正式提出,其目的是以此为基础构建下一代智能化的搜索引擎,改善搜索结果质量.知识图谱技术是人工智能技术的重要组成部分,也是当 ...
- 信息抽取在知识图谱构建中的实践与应用
编者按 坦率地讲,各行各业对如何落地知识图谱这个问题,或多或少都心存一丝疑惑.人类知识和机器可理解的知识有什么区别?知识图谱如何突破自身局限性,从"万事通"转为"科学家& ...
- 知识图谱问答的实践技术分享的书面版本
公众号 系统之神与我同在 编者按:随着互联网软硬件相关技术的飞速发展,人们逐渐从信息时代进入智能时代.知识图谱作为承载底层海量知识并支持上层智能应用的重要载体,在智能时代中扮演了极其重要的角色.而利用 ...
最新文章
- JAVA中的list去重复
- Silverlight实用窍门系列:61.Silverlight中的Trigger触发器,自定义翻页触发器
- java Scanner具有神奇的作用可惜大部分java开发人员不知
- ​HealthKit开发快速入门教程之HealthKit数据的操作
- 关于JavaScript中的同步(SYNC)和异步(ASYNC)
- 优化PhoneGAP的Splashscreen 类
- Heap与Stack的区别- -
- Lucene查询(搜索)语法示例
- Java List<T>去重方法,引用类型集合去重
- java 日期只计算年月日大小_Java 计算两个日期相差多少年月日
- 二叉树经典题之二叉树最近公共祖先(LeetCode)
- Linux文件下载和上传工具lrzsz
- php文章管理系统_PHP-小程序:(1)开发环境搭建
- html5的service worker,GitHub - w3c/ServiceWorker: Service Workers
- Win32汇编——过程控制(进程调试和进程隐藏)
- 毕设题目:Matlab语音处理
- 成功解决 遇到3dmax模型文件出错,找回并修复出错文件
- C++内部链接与外部链接
- java短信生成6位数的校验码
- ZXing之生成条形码
热门文章
- Python:(使用matplotlib画图)次坐标轴,两个坐标轴
- Android进阶:手把手教你5G时代Webview的正确使用姿势,完整PDF
- python z3库学习
- xpath语法和指令系统
- 秒懂Kotlin之协变(Covariance)逆变(Contravariance)与抗变(Invariant)
- 莱姆病的传播媒介生物-肩突硬蜱(Ixodes scapularis)基因组测序
- 为什么我不再使用「支付宝」?
- excel怎么批量插行_如何快速批量合并多个Excel表格,分享给大家
- ZUUL 文件上传限制
- C++ 静态数据成员使用易错点