知识图谱(Knowledge Graph)的概念由谷歌于2012年正式提出,旨在实现更智能的搜索引擎,并且于 2013 年以后开始在学术界和业界普及,并在智能问答、情报分析、反欺诈等应用中发挥重要作用。

声明:我们这里谈及到的所有关于知识图谱的概念及技术都是问答系统方向的

知识图谱本质上是一种叫做语义网络(semantic network)的知识库,是一个有向图结构的一个知识库,其中图的结点代表实体(entity)或者概念(concept),而图的边代表实体/概念之间的各种语义关系,例如两个实体之间的上下位关系。

现有的语义网标准数据通常是由RDF三元组数据存储形式构成,即:<主语,谓语,宾语>。还有加入本体信息结构的OWL数据,其中包含本体的基本概念,例如类(Class),属性(Property ),实例(Individual)等。这段看不懂没有关系,可以理解成知识图谱的存储符合一种叫做RDF的规范,这个规范简单来说是由很多很多<主语,谓语,宾语>这样的三元组组成

直观理解就是上图这样的,每个节点代表一个实体(具有可区别性且独立存在的某种事物),每条边代表各个节点之间的联系,这种联系可以分为两类:若边连接的两端都是实体称这种联系为关系,即<实体,关系,实体>,如:<中国,首都,北京 >;若边连接的一端是实体另一端是字符串称这种联系为属性,即<实体,属性,属性值>,如:<姚明,身高,226cm>。

知识图谱的逻辑结构

知识图谱在逻辑上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的Neo4j、Twitter的FlockDB、sones的GraphDB等。模式层构建在数据层之上,是知识图谱的核心,通常采用本体库来管理知识图谱的模式层。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。

如果你是刚开始了解知识图谱的话,不了解模式层、本体库也没有关系,可以将其理解为对数据的一种规范,让数据只能按照我定义好的方式去书写、去存储,这样做有什么好处呢,这样方便了我们之后在本体的基础上对数据进行推理,让系统具有推理能力,例如:“姚明的妻子的丈夫是谁” 这样的问题,问答系统想给出正确的答案正是基于这样的推理能力

知识图谱的体系架构

知识图谱的体系架构是其指构建模式结构,如上图所示。其中虚线框内的部分为知识图谱的构建过程,也包含知识图谱的更新过程。知识图谱构建从最原始的数据(包括结构化、半结构化、非结构化数据)出发,采用一系列自动或者半自动的技术手段,从原始数据库和第三方数据库中提取知识事实,并将其存入知识库的数据层和模式层,这一过程包含:信息抽取、知识表示、知识融合、知识推理四个过程,每一次更新迭代均包含这四个阶段。

知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。

自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体知识加入到知识库。这种构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如Freebase项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。

自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。目前,大多数知识图谱都采用自底向上的方式进行构建,其中最典型就是Google的Knowledge Vault和微软的Satori知识库。现在也符合互联网数据内容知识产生的特点。也就是说我们通过爬虫等方法获取了相关的知识三元组之后才构建本体

代表性知识图谱库

代表性的大规模知识图谱包括 DBpedia,Freebase,KnowItAll,WikiTaxonomy 和 YAGO,以及 BabelNet,ConceptNet,DeepDive, NELL,Probase,Wikidata, XLore, Zhishi.me 等。这些知识图谱遵循 RDF 数据模型, 包含数以千万级或者亿级规模的实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),并且这些实体被组织在成千上万的由语义类体现的客观世界的概念结构中。

知识图谱技术

我们将知识图谱技术分为三个部分 : 知识图谱构建技术、知识图谱查询和推理技术,以及知识图谱应用。

知识图谱构建

1.知识表示与建模

知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。从有人工智能的历史开始,就有了知识表示的研究。 知识图谱的知识表示以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,为理解互联网内容提供了基础支撑

传统的知识表示方法主要是以RDF(Resource Description Framework资源描述框架)三元组SPO(subject,property,object)来符号性描述实体之间的关系。这种表示方法通用简单,受到广泛认可,但是其在计算效率、数据稀疏性等方面面临诸多问题。近年来,以深度学习为代表的以深度学习为代表的表示学习技术取得了重要的进展,可以将实体的语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义

代表模型

知识表示学习的代表模型有距离模型、单层神经网络模型、双线性模型、神经张量模型、矩阵分解模型、翻译模型等。

我这边只研究过翻译模型,其他模型目前没有接触,大家有兴趣可以自己找一些论文来看,关于翻译模型,最经典的莫过于TransE模型,这个模型在我的另一篇博客中已经介绍:https://blog.csdn.net/weixin_40871455/article/details/83341561  此外,还有TransH、TransR、TransD、TransG、KG2E模型等

2.实体识别与链接

实体是客观世界的事物,是构成知识图谱的基本单位(这里实体指个体或者实例)。实体分为限定类别的实体(如常用的人名、地名、组织机构等)以及开放类别实体(如药物名称、疾病等名称)。实体识别是识别文本中指定类别的实体。实体链接是识别出文本中提及实体的词或者短语(称为实体提及),并与知识库中对应实体进行链接。

实体对齐 (entity alignment) 也称为实体匹配 (entity matching)或实体解析(entity resolution)或者实体链接(entity linking),主要是用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。

在大数据的环境下,受知识库规模的影响,在进行知识库实体对齐时,主要会面临以下3个方面的挑战:1) 计算复杂度。匹配算法的计算复杂度会随知识库的规模呈二次增长,难以接受;2) 数据质量。由于不同知识库的构建目的与方式有所不同,可能存在知识质量良莠不齐、相似重复数据、孤立数据、数据时间粒度不一致等问题;3) 先验训练数据。在大规模知识库中想要获得这种先验数据却非常困难。通常情况下,需要研究者手工构造先验训练数据。

基于上述,知识库实体对齐的主要流程将包括:1) 将待对齐数据进行分区索引,以降低计算的复杂度;2) 利用相似度函数或相似性算法查找匹配实例;3) 使用实体对齐算法进行实例融合;4) 将步骤2)与步骤3)的结果结合起来,形成最终的对齐结果。对齐算法可分为成对实体对齐与集体实体对齐两大类,而集体实体对齐又可分为局部集体实体对齐与全局集体实体对齐。

3.实体关系学习

实体关系描述客观存在的事物之间的关联关系,定义为两个或多个实体之间的某种联系,实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。实体关系抽取分类预定义关系抽取和开放关系抽取。预定义关系抽取是指系统所抽取的关系是预先定义好的,比如知识图谱中定义好的关系类别,如上下位关系、国家—首都关系等。开放式关系抽取。开放式关系抽取不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系。实体关系识别是知识图谱自动构建和自然语言理解的基础。

4.事件知识学习

事件是促使事物状态和关系改变的条件,是动态的、结构化的知识。目前已存在的知识资源(如谷歌知识图谱)所描述多是实体以及实体之间的关系,缺乏对事件知识的描述。针对不同领域的不同应用,事件有不同的描述范畴。一种将事件定义为发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。一种将事件认为是细化了的主题,是由某些原因、条件引起,发生在特定时间、地点,涉及某些对象,并可能伴随某些必然结果的事情。事件知识学习,即将非结构化文本文本中自然语言所表达的事件以结构化的形式呈现,对于知识表示、理解、计算和应用意义重大。

知识图谱中的事件知识隐含互联网资源中,包括已有的结构化的语义知识、数据库的结构化信息、半结构化的信息资源以及非结构化资源,不同性质的资源有不同的知识获取方法。

知识图谱查询和推理计算

1.知识存储和查询

知识图谱以图(Graph)的方式来展现实体、事件及其之间的关系。知识图谱存储和查询研究如何设计有效的存储模式支持对大规模图数据的有效管理,实现对知识图谱中知识高效查询。因为知识图谱的结构是复杂的图结构,给知识图谱的存储和查询带来了挑战。当前目前知识图谱多以三元存在的 RDF 形式进行存储管理,对知识图谱的查询支持 SPARQL 查询。

2.知识推理

知识推理从给定的知识图谱推导出新的实体跟实体之间的关系。知识图谱推理可以分为基于符号的推理和基于统计的推理。在人工智能的研究中,基于符号的推理一般是基于经典逻辑(一阶谓词逻辑或者命题逻辑)或者经典逻辑的变异(比如说缺省逻辑)。基于符号的推理可以从一个已有的知识图谱推理出新的实体间关系,可用于建立新知识或者对知识图谱进行逻辑的冲突检测。基于统计的方法一般指关系机器学习方法, 即通过统计规律从知识图谱中学习到新的实体间关系。知识推理在知识计算中具有重要作用,如知识分类、知识校验、知识链接预测与知识补全等。

知识图谱应用

1.通用和领域知识图谱

知识图谱分为通用知识图谱与领域知识图谱两类,两类图谱本质相同,其区别主要体现在覆盖范围与使用方式上。通用知识图谱可以形象地看成一个面向通用领域的结构化的百科知识库,其中包含了大量的现实世界中的常识性知识,覆盖面广。领域知识图谱又叫行业知识图谱或垂直知识图谱,通常面向某一特定领域,可看成是一个基于语义技术的行业知识库,因其基于行业数据构建,有着严格而丰富的数据模式,所以对该领域知识的深度、知识准确性有着更高的要求。

2.语义搜索

知识图谱是对客观世界认识的形式化表示,将字符串映射为客观事件的事务(实体、事件以及之间的关系)。当前基于关键词的搜索技术在知识图谱的知识支持下可以上升到基于实体和关系的检索,称之为语义搜索。语义搜索利用知识图谱可以准确地捕捉用户搜索意图,借助于知识图谱, 直接给出满足用户搜索意图的答案,而不是包含关键词的相关网页的链接。

3.基于知识的问答

问答系统(Question Answering, QA)是指让计算机自动回答用户所提出的问题, 是信息服务的一种高级形式。不同于现有的搜索引擎,问答系统返回用户的不再是基于关键词匹配的相关文档排序,而是精准的自然语言形式的答案。华盛顿大学图灵中心主任 Etzioni 教授 2011 年曾在 Nature 上发表文章《Search Needsa Shake-Up》 ,其中明确指出:“以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜索引擎的基本形态” [Etzioni O., 2011]。因此,问答系统被看做是未来信息服务的颠覆性技术之一, 被认为是机器具备语言理解能力的主要验证手段之一。

技术地图概览

由上图可以看出知识图谱涉及的技术非常多,每一项技术都需要专门去研究,而且已经有很多研究成果。

参考文献:

  1. 徐增林, 盛泳潘, 贺丽荣,等. 知识图谱技术综述[J]. 电子科技大学学报, 2016, 45(4):589-606.
  2. 知识图谱发展报告2018

知识图谱综述及技术地图概览(智能问答系统)相关推荐

  1. 知识图谱实战应用12-食谱领域智能问答系统,实现菜谱问答

    大家好,我是微学AI,今天给大家介绍一下知识图谱实战应用12-食谱领域智能问答系统,实现菜谱问答,本项目基于py2neo和neo4j图数据库,将知识图谱应用于菜谱领域.通过构建菜谱知识图谱,实现简单的 ...

  2. 知识图谱的关键技术及其智能应用(附PPT)

    来源:专知 本文约1000字,建议阅读5分钟. 本文为你介绍北京大学赵东岩老师在<知识图谱的关键技术及其智能应用>讲座上的主要内容. [ 导读 ]随着自然语言处理等相关技术的发展,知识图谱 ...

  3. 知识图谱 ppt_PPT|知识图谱的关键技术及其智能应用

    [导读]随着自然语言处理等相关技术的发展,知识图谱已经成为工业界开展下一代人工智能应用的重要基础. 几周前,北京大学的赵东岩老师,在计算所做了名为<知识图谱的关键技术及其智能应用>的讲座, ...

  4. 人工智能学习--知识图谱的关键技术及其智能应用

    本文为你介绍北京大学赵东岩老师在<知识图谱的关键技术及其智能应用>讲座上的主要内容. [ 导读 ] 随着自然语言处理等相关技术的发展,知识图谱已经成为工业界开展下一代人工智能应用的重要基础 ...

  5. 论文浅尝 - 计算机工程 | 知识图谱可视化查询技术综述

    本文转载自公众号:计算机工程. 知识图谱可视化查询技术综述 王鑫, 傅强, 王林, 徐大为, 王昊奋 知识图谱作为符号主义发展的产物,是人工智能技术和系统中的重要组成部分,其在百科知识.生物信息.社交 ...

  6. 知识图谱入门 (一) 知识图谱与语义技术概览

    欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 知识图谱与语义技术概览.主要介绍知识表示.知识抽取.知识存储.知识融合.知识推理.知识众包.语义搜索 ...

  7. 虚拟专题:知识图谱 | 医学知识图谱构建关键技术及研究进展

    来源:<大数据> 医学知识图谱构建关键技术及研究进展 谭玲1, 鄂海红1, 匡泽民2, 宋美娜1, 刘毓1, 陈正宇1, 谢晓璇1, 李峻迪1, 范家伟1, 王晴川1, 康霄阳1 1 北京 ...

  8. A Survey on Knowledge Graphs___Representation, Acquisition and Applications.知识图谱综述:表示,获取,应用

    知识图谱综述:表示.获取及应用 这是研究生第一篇综述文章,第一次读也是花了好几天的时间. 摘要:人类的知识提供了对世界的一种形式的理解.表征实体之间结构关系的知识图已成为认知和人的智能研究的热门方向. ...

  9. 基于深度学习的知识图谱综述

    基于深度学习的知识图谱综述 摘要:随着现如今计算机设备的更新,计算能力的不断提高促使深度学习再一度推上热门技术,深度学习已经广泛应用于图像处理.文本挖掘.自然语言处理等方面,在医学.交通.教育.旅游等 ...

最新文章

  1. 人工智能时代下的视觉合成
  2. win32 api 消息解释
  3. ceph编译_Ceph编译:L版本及其之后的版本
  4. 最近一月的娱乐生活:看电影,玩游戏
  5. C#中的正则表达式(1)
  6. java 线程等待_代码分析Java中线程的等待与唤醒
  7. 设计模式:java及spring观察者模式(有利于代码解耦)
  8. 41.Linux/Unix 系统编程手册(下) -- 共享库基础
  9. 【图像分割】基于matlab GUI多种阈值图像分割(带面板)【含Matlab源码 733期】
  10. xp sp3不让dword shoot
  11. 查看python包的版本
  12. 2019ZIF郑州工博会 盛大起航
  13. MyBatis中insert用法
  14. android recovery 和reboot
  15. linux系统微内核,微内核操作系统的定义及用微内核设计的系统,附Linux是单内核结构介绍...
  16. 友价T5商城系统一键生成SiteMap网站地图插件【chajian_sitemap_builder.php】
  17. vs2022最新版本安装MVC4详细教程
  18. 七上八下猜数字_车上互动游戏
  19. 16位二进制补码 c语言,2,16进制原码补码反码问题
  20. 同步电复律英文_同步电复律操作规程

热门文章

  1. JS将下拉框的disable变为able的方法
  2. outer和left outer join有什么区别??
  3. 关于model层建VO和PO,实体类(VO,DO,DTO)的划分
  4. 啪嗒砰2 刷材料 附如何刷高级素材+BOSS弱点
  5. 正好杠杆炒股五粮液主力资金净流入居首
  6. sqlite引用SQLite.Interop.dll出错
  7. c++ 左值 广义左值 右值 纯右值 将亡值
  8. 微信小程序登陆验证机制理解及实现
  9. Vue项目的登录和注册界面
  10. 主流微服务配置中心对比 config,nacso和Apollo对比