知识图谱核心技术(一):知识图谱的概述
知识图谱核心技术(一):知识图谱的概述
前言: 知识图谱作为一项新的研究领域,极大地推动了人工智能的智能化发展,传统意义上的人工智能大多以数据驱动为核心,但离智能化还有一定的差距。知识图谱作为以知识为驱动的核心,将促使人工智能应用以知识赋能,促使计算机更具有推理力、解释性。博主经过多年的研究,结合自身的论文阅读和科研经历,并借助复旦大学知识工场团队编写的《知识图谱概念与技术(肖仰华)》作为理论支撑,编写《知识图谱核心技术》博客文章。
一、知识图谱概念
知识图谱在最初是属于谷歌公司的一个智能搜索的产品名称,其由谷歌于2012年提出,而随着知识图谱的发展,其慢慢成为一个研究领域和工程。以此,知识图谱的概念可划分为狭义和广义两个层面:
- 狭义层面上:知识图谱是一种知识表示,本质上属于大规模语义网络;
- 广义层面上:知识图谱是一种工程技术的总称,是一种新兴的学科或研究领域。
1.1 狭义的知识图谱概念
知识图谱狭义层面上其本质是大规模的语义网络,或者说是图数据结构,其包含实体(Entity)、概念(Concept)以及关系(Relation) 。因此经过科学家们的研究和总结,知识图谱是一种以图结构来描述结构化知识的表示方式,其基本元素由结点和边组成。
- 实体:在哲学中,实体指能够独立存在的,作为一切属性的基础和万物本质的东西。实体是属性赖以存在的基础,是相互独立的客观存在。在计算机领域内,实体可以认为是一种可以明确指定的人、事物等。例如“北京”可以作为一个实体。现阶段实体可以基本分为人名、地名、机构名、时间、数字等;
- 概念:概念则属于实体之上抽象而成的类别,可以理解为一类实体的总称。例如实体“北京”、“纽约”都可以统称为概念“首都”。因此概念是无法指向具体的客观存在的事物,但是可以指代一类事物;
- 属性与值:每个实体都具有一个属性以及属性值,当然实体也可能作为另一个实体的属性。例如实体“中国”的属性“首都”对应的值是“北京”;
- 关系与属性:关系是用来构建实体与实体、实体与概念以及概念与概念之间的语义逻辑关系,下面总结实体、概念和值之间的组合
实体与实体:语义关系,可以是预定义的关系,也可以是自由文本描述。例如实体“Obama”与“US”的关系可以是“president”
实体与值:属性关系,关系可以作为一种特殊的属性,例如实体“中国”与“北京”的关系可以是属性“首都”,“姚明”的属性“身高”的值是“226cm”;
概念与概念:通常是包含与被包含的关系,即subclassOf,例如概念“唯心主义哲学家”是属于“哲学家”;
实体与概念:因为概念是实体的一类总称,因此类比面向对象的程序设计思想,概念相当于类,实体相当于类实例化的一个对象,因此实体与概念之间的关系成为实例化(instanceOf),例如实体“北京”是概念“首都”的一个实例。
知识图谱的基本单元是三元组(Triple),也被称为事实(Fact),是描述结构化知识的基本组成部分。对于实体与实体之间组成的三元组,通常可以表示为 (h,r,t)(h,r,t)(h,r,t) ,其中 h,r,th,r,th,r,t 分别代表头实体、关系和尾实体;对于概念与概念或概念与实体,则可以描述为 (s,p,o)(s,p,o)(s,p,o) ,其中 s,p,os,p,os,p,o 分别代表主语、谓语和宾语。
1.2 知识图谱与语义网的区别
知识图谱的本质是语义网,但又区别于传统的语义网络,其相比语义网络的优势可以体现在如下几个方面:
- 规模巨大:知识图谱的规模巨大,是大规模的语义网,其涵盖的概念、实体以及关系数量是大规模的;
- 语义丰富:知识图谱中的语义关系丰富,建模方式多样;
- 高质量:多样化大规模的知识图谱涵盖的知识具有一定的准确性,其可以依赖于专家、众包,或启发式的海量数据统计等方法来对知识进行质量保证;
- 结构友好:知识图谱的基本单位是三元组,可以保存为资源描述框架(Resource Description Framework,RDF),或采用关系型或图形数据库存储,其次其可以高效的转化为计算机可读数据,并实现计算与推理;
知识图谱也有一些不足之处,相比语义网络体现在:
- 模式的缺失:知识图谱通常在一个预先设置的模式下完成,例如对于属性“身高”会预先设置值域,但现实中无法保证所有人的身高一定不会不在值域范围内;
- 不完整性:知识图谱通常限制于封闭世界,而可能造成知识的不完整,不全面问题;
- 构建的条件:目前构建知识图谱分为自上而下的人工构建和自下而上的自动构建。前者精度高但过度依赖于专家和人工标注,且很难实现大规模;后者则精度会下降,且依赖于海量数据,对小样本少量数据的自动构建更加困难。
1.3 知识图谱与本体的区别
本体源于哲学的本体论,其侧重于对客观事物的规定和刻画。例如我们要构建一个汽车领域的知识图谱(参考博客:汽车知识图谱),那么“汽车”可以作为一个概念,其具体的实例实体可以有“特斯拉”、“奥迪”等等。因此我们可以为概念“汽车”定义一个本体,其包含定义好的属性“车型”、“年限”、“排量”等,以及与之相连的一些其他实体和关系。在给定一个具体的实例“特斯拉”时,则可以依据事先定义的本体来分别从海量数据中,或通过专家来获取相应的值。
因此,计算机领域内的本体侧重表达认知的概念框架,表达概念之间的语义关系,伴随着刻画概念的公理系统。本体可以理解为一种语义网络的预先定义的框架或模式,依据事先定义的框架和模式而为具体实例化的实体构建相关的结构化知识。换句话说,本体相当于程序设计语言中的接口,已经实现实现了各个接口之间的继承等关系,而相应的类与类之间的关系都需要以实现定义的接口为基础。
1.4 广义的知识图谱概念
广义上,知识图谱是属于一种新兴的学科或研究领域,是一种工程。例如在基于深度学习的知识图谱综述中,知识图谱视为一种工程,其包含数据获取、信息抽取、知识融合和知识加工等几个流水线步骤。知识图谱也隶属于知识工程,其从属关系由小到大可以表达为:
知识图谱<知识表示<知识工程<人工智能知识图谱<知识表示<知识工程<人工智能知识图谱<知识表示<知识工程<人工智能
知识工程源于符号主义,传统的知识工程主要依赖于专家与人工规则,其基本流程可以表示为下图:
二、 知识图谱的价值
知识图谱带来的价值和意义可以总结为:
- 机器认知能力的核心是“理解”和“解释”,知识图谱可以促进机器的认知;
- 知识图谱可以引入大规模、语义丰富、结构友好和高质量的背景知识;
- 知识图谱带来更强的解释性,更像人类一样利用概念、属性、关系去解释现象和事实;
- 知识图谱可以起到增强作用:包括数据增强、语义增强等,引入外部知识库可以提升模型的综合性能;
- 知识图谱在包括智能搜索、问答系统、推荐系统等工业领域内有巨大的应用价值;
三、知识图谱的分类
从知识的角度来分类,可以分为:
- 事实知识(Fact Knowledge):其表示关于某个特定实体的基本事实,主要以DBpedia、Freebase等为主;
- 概念知识(Taxonomy Knowledge):表达概念与概念之间的知识(例如subclassOf)和实体与概念之间的知识(isA),典型的知识库有YaGo;
- 词汇知识(Lexical Knowledge):包括实体与词汇以及词汇与词汇之间的关系,通常是一种描述语法、词法方面的知识库,例如WordNet;
- 常识知识(世界知识)(Commonsense Knowledge):是一些广为人知但很少被提及的知识,比如人类是动物,鸟会飞等,典型的知识库有Cyc、ConceptNet
从领域特性角度来分类,可以分为:
- 领域知识图谱(Domain KG):即特定行业或领域的知识,表达的知识内容更为具体;
- 通识知识图谱(General KG):通常涵盖范围没有限制,但包含的深度和粒度较为粗浅;
知识图谱核心技术(一):知识图谱的概述相关推荐
- 知识图谱 01:知识图谱概述
前言 本内容主要介绍 知识图谱(Knowledge Graph) 的发展.定义.构建和应用. 1.1 知识图谱的发展 知识图谱(Knowledge Graph)的起源可以追溯到 1960 年, ...
- 知识图谱(三)——知识体系构建和知识融合
知识图谱不仅包含具体的实例知识数据,还包括对知识数据的描述和定义.该部分对数据进行描述和定义的"元"数据被称为知识体系(Schema)或本体(Ontology). 知识融合主要方法 ...
- 图谱实战 | 医学知识图谱的价值与应用场景
转载公众号 | OMAHA联盟 随着技术的进步和市场的逐渐成熟,人工智能在医疗等领域的应用日益广泛和深入.而知识图谱技术作为一种从海量文本和图像中抽取结构化知识的手段,正在成为推动人工智能发展的核心驱 ...
- 从零学习知识图谱——01(知识图谱技术介绍)
今年研一,导师给的大范围是知识图谱.从零开始学习知识图谱相关知识,内容大多为笔记和心得,仅供参考.欢迎各位大牛来指导. 知识图谱 (Knowledge Graph,KG) 以结构化的形式描述客观世界中 ...
- 大数据知识图谱项目——基于知识图谱的医疗知识问答系统(详细讲解及源码)
基于知识图谱的医疗知识问答系统 一.项目概述 知识图谱是将知识连接起来形成的一个网络.由节点和边组成,节点是实体,边是两个实体的关系,节点和边都可以有属性.知识图谱除了可以查询实体的属性外,还可以很方 ...
- 知识图谱入门——认识知识图谱
知识图谱是知识工程的分支,在人工智能领域有重要的作用.我们日常使用的搜索引擎背后的工作逻辑****.电商平台的智能推荐等都运用了知识图谱,本文主介绍知识图谱的基本概念.相关技术,以及知识图谱构建流程. ...
- 【知识图谱】 | 《知识图谱——方法、实践与应用》阅读笔记
<知识图谱--方法.实践与应用>的阅读笔记 知识图谱--方法.实践与应用 第1章 知识图谱概述 1.1 什么是知识图谱 1.2 知识图谱的发展历史 1.3 知识图谱的价值 1.4 国内外典 ...
- 知识图谱与金融——基于知识图谱的风险监控与决策支持
作者:禅与计算机程序设计艺术 1.简介 知识图谱(KG)是一种用来表示大量互相关联数据的多维网络结构,它通过三元组(subject-predicate-object)的方式来表述实体之间的关系.它经常 ...
- neo4j 知识图谱_知识图谱里的知识存储:neo4j的介绍和使用
一般情况下,我们使用数据库查找事物间的联系的时候,只需要短程关系的查询(两层以内的关联).当需要进行更长程的,更广范围的关系查询时,就需要图数据库的功能. 而随着社交.电商.金融.零售.物联网等行业的 ...
最新文章
- python大众点评网应该涉及哪些参考文献及其出版社_python小练习(052):爬取大众点评网美食版块+数据库储存+大数据分析(二)...
- SAP Spartacus RouteReducer
- PWM实现语音播放原理
- 华为交换机默认vlan都是通的吗_【思唯网络学院】华为交换机常用的三种vlan划分方法...
- vb.net 读写文件
- sql server限制查询条数_18. Django 2.1.7 查询集 QuerySet
- java的scanner使用步骤
- 一文读完C语言基础语法
- 一文搞懂HTTPProxy丨含基础、高级路由、服务韧性
- c语言小球碰壁,小球碰壁效果
- 微信小程序聊天功能 WebSocket 实现发送文字,图片,语音以及WebSocket 常见问题解决方案
- 揭秘“菲住布渴”中运用的黑科技:除了check in、坐电梯、开门...全部刷脸之外,还有什么?...
- Java生鲜电商平台-技术方案与文档下载
- Camera驱动基础--硬件接口相关知识介绍
- 精度解析百思不得姐流行框架之精华版
- oracle插入日期异常,Oracle插入日期数据常见的2个问题和解决方法
- 新版创梦仿鸟云IDC模板虚拟主机管理系统+修复版
- 历史上的今天:Win10 七周年;微软和雅虎的搜索协议;微软发行 NT 4.0
- 如何在vim创建脚本内添加固定的抬头信息?
- 台式计算机蓝牙完成配对,一分钟让台式电脑实现蓝牙多功能应用的方法!-电脑蓝牙怎么用...