知识图谱最新研究综述
来自:AI自然语言处理与知识图谱
知识图谱研究综述
知识图谱研究综述
论文:A Survey on Knowledge Graphs: Representation, Acquisition and Applications
导 语
知识图谱的最新研究综述包含了最新研究进展,覆盖各个方面,对于了解前沿发展最佳。本人阅读了这篇论文,整理相关内容,希望对想要了解图谱研究的同学有所帮助,另外,由于本文为综述,所以只从大方向着手,各个模块的细节不在此阐述。
一、导读/相关介绍
1、论文概述
本文对知识图谱进行了全面的综述,涵盖了知识表示学习(knowledge graph representation learning)、知识获取与补全(knowledge acquisition and completion)、时序知识图(temporal knowledge graph)、知识感知的应用(knowledge-aware applications)等方面的研究课题,并总结了最近的一些突破和未来的研究方向。
本文阐述采用全视图分类和新的分类法,知识图嵌入从表示空间、得分函数、编码模型和辅助信息四个方面进行组织。对知识获取,特别是知识图的补全、嵌入方法、路径推理和逻辑规则推理进行了综述。本文进一步探讨了几个新兴的主题,包括元关系学习、常识推理和时序知识图谱。为了方便未来对知识图谱的研究,还提供了关于不同任务的数据集和开源库的管理集合。最后,对几个有前景的研究方向进行了深入的展望。
2、知识图谱与知识库
知识图谱的形式与知识库是同义的,只是稍微略有不同。当考虑图谱的图结构时,知识图谱可以看作是一个图。当它涉及到形式语义时,它可以作为解释和推断事实的知识库。一些简单的例子可以从下图看到(图来源于原论文)。
3、知识图谱发展史
老生常谈,知识图谱经历了从Semantic Net到Semantic Web再到目前知识图谱的过程,本文也在此进行了梳理,可以直接看下面的知识图谱时间线图(图来源于原论文)。
4、知识图谱研究分类
上文提到,本文将按照新的分类视图进行阐述,总共有四大模块,各个模块下面有各自的子集,从下面的分类图中可以明显的看到各个模块的划分以及包含的相应子集,对了解目前的动态十分有益(图来源于原论文)。
二、知识表示学习
知识表示学习(knowledge graph representation learning, KRL)也称之为图嵌入(knowledge graph embedding, KGE), 多关系学习(multi-relation learning), 统计关系学习(statistical relational learning),是核心也是基础,将从以下四个方面概述。
1、表示空间(representation space)
表示学习的关键问题是学习实体和关系低维分布式嵌入空间。在这里主要采用的是point-wise space、complex vector space、Gaussian space、Manifold and Group space。
point-wise space是使用最多的,以翻译模型TransE和其变种模型TransX系列为代表,遵循h(头实体) + r(关系) ≈ t(尾实体) 的原则。
complex vector space的代表模型是plEx、RotatE以及QuatE。
Gaussian space是受到高斯分布的启发,以KG2E、TransG为代表性模型。
Manifold流形是一个拓扑空间,也是为了解决point-wise space中的嵌入问题,以ManifoldE、TorusE和DihEdral为代表性模型。
几种表示空间如下图所示(图来源于原论文)。
2、评分函数(scoring function)
评分函数用于度量事实的可信性,在基于能量的学习框架中也称为能量函数。评分函数有两种典型类型,基于距离和基于相似性的函数。
基于距离的评分函数通过计头尾算实体之间的距离来衡量事实的可信性,其中使用较多的是带有h(头实体) + r(关系) ≈ t(尾实体)关系的翻译。
基于语义相似度的评分方法是通过语义匹配来衡量事实的可信性,通常采用乘法矩阵公式。
可以看下图(图来原论文)。
3、编码模型(encoding models)
编码模型主要包括线性/双线性模型(Linear/Bilinear Models)、因式分解模型(Factorization Models)和神经网络(Neural Networks),目的是对实体和关系进行编码的模型。
线性模型通过将头部实体投射到接近尾部实体的表示空间中,将关系表示为线性/双线性映射。
因子分解的目的是将关系数据分解为低秩矩阵进行表示学习。
神经网络用非线性神经激活函数和更复杂的网络结构来编码实体关系数据,包括MLP、CNN、RNN、Transformer、GNN等。几种神经模型如下图所示(图来源于原论文)。
4、辅助信息(auxiliary information)
为了促进更有效的知识表示,多模态嵌入将外部信息如文本描述、类型约束、关系路径和可视化信息与知识图谱本身结合在一起。
三、知识获取
知识获取的目的是从非结构化文本中构造知识图谱,补全已有的知识图谱,发现识别实体和关系。在此处,将对知识获取技术的三个方面进行回顾,即知识获取技术、实体发现技术和关系提取技术。
1、知识图谱补全(KGC)
基于知识图谱不完备的问题,采用知识图谱补全为知识图谱增加新的三元组,典型的子任务包括链路预测、实体预测和关系预测。对KGC的初步研究主要集中在学习低维嵌入的方式用于三元组预测,即基于嵌入的方法(Embedding-based Models)。然而,基于嵌入的补全方法大多数都没有捕捉到多步的关系。因此,最近的工作转向探索多步的关系路径和整合逻辑规则,分别称为基于关系路径推理(Relation Path Reasoning)和基于规则的推理(Rule-based Reasoning)。除此之外,基于强化学习(RL-based Path Finding)和元关系学习(Meta Relational Learning)的方法也有研究。下面有几个图表示(图来源于原论文)。
2、实体发现
实体发现这里主要包含几个任务的细分,即实体识别、实体消歧、实体类型和实体对齐。
实体识别是NLP的基础任务,主要的模型是LSTM、CRF等,以及最近的MGNER模型。
实体类型包括粗粒度和细粒度类型,而后者使用树形结构类型类别,通常被视为多类别和多标签分类,典型的模型是PLE。
实体消歧或实体链接是将实体与知识图谱中相应的实体进行链接进而统一的任务,代表模型是DSRM、EDKate等。
上述任务涉及到从文本或单个知识图谱中发现实体,而实体对齐(EA)旨在融合异类知识图谱之间的知识。
3、关系抽取
关系抽取是从纯文本中抽取未知的关系事实并将其加入到知识图谱中,是自动构建大规模知识图谱的关键。目前来说,都在采用神经网络进行关系抽取的研究,如下图(图来源于原论文)。
四、时序知识图谱
当前的知识图谱研究大多集中在静态图谱上,事实不随时间的变化而发生变化,而对图谱的时序动态研究较少。然而,时间信息是非常重要的,因为结构化的知识只在一个特定的时期内,事实的演变遵循着时间序列。因此,最近的研究开始将时间信息引入到KRL和KGC中,与之前的静态知识图谱相比,称为时序知识图谱。同时对时序嵌入和时序关系嵌入进行研究。除此之外,还对实体动态和时序逻辑推理展开研究。
五、知识图谱应用
丰富的结构化知识对人工智能应用程序非常有用。但是如何将这些知识集成到现实世界应用程序的计算框架中仍然是一个挑战。这里主要涉及到一些下游应用,包括自然语言理解(Natural Language Understanding, NLU)、推荐系统(Recommender Systems)和问答(Question Answering)方面的应用。
六、未来展望
为了解决知识表示及其相关应用的挑战,人们做了很多努力。但仍存在一些难以解决的问题和有希望的未来方向。
更加复杂的推理
统一框架展开研究
可解释性,神经网络老生常谈
可扩展性,对于大规模的知识图谱十分必要
知识的信息聚合
图谱的自动构建
添加个人微信,备注:昵称-学校(公司)-方向,即可获得
1. 快速学习深度学习五件套资料
2. 进入高手如云DL&NLP交流群
记得备注呦
知识图谱最新研究综述相关推荐
- 知识图谱最新权威综述论文解读:时序知识图谱部分
从最近一两年有关知识图谱的顶会论文中可以发现,越来越多的国内外研究者开始关注动态时序知识图谱,可见时序知识图谱已经成为了一大研究趋势,相信之后会有更多相关研究出来.因此,这期我们对综述论文的时序知识图 ...
- 知识图谱最新权威综述论文解读:关系抽取
上期我们介绍了2020年知识图谱最新权威综述论文<A Survey on Knowledge Graphs: Representation, Acquisition and Applicatio ...
- 知识图谱最新权威综述论文解读:知识图谱补全部分
上期我们介绍了2020年知识图谱最新权威综述论文<A Survey on Knowledge Graphs: Representation, Acquisition and Applicatio ...
- 知识图谱最新权威综述论文解读:实体发现
上期我们介绍了2020年知识图谱最新权威综述论文<A Survey on Knowledge Graphs: Representation, Acquisition and Applicatio ...
- 知识图谱最新权威综述论文解读:知识表示学习部分
知识图谱最新权威综述论文解读:知识表示学习部分 知识图谱表示学习 1 表示空间 1.1 Point-wise空间 1.2 复数向量空间 1.3 高斯分布 1.4 流形和群 2 打分函数 2.1 基于 ...
- 知识图谱最新权威综述论文解读:开篇部分
论文地址:http://arxiv.org/abs/2002.00388 这篇综述是数据科学权威 Philip S. Yu 团队对知识图谱领域的最新综述论文,论文从知识图谱的发展历史.知识表示学习.知 ...
- 知识图谱最新权威综述论文解读:知识图谱应用部分
知识图谱在人工智能的许多领域都发挥了重要作用,综述论文的这一章引入多个最新的基于深度学习的知识驱动方法,主要包括的应用领域有自然语言理解,推荐系统和问答系统. 1 自然语言理解 知识感知的自然语言理解 ...
- 论文浅尝 | 5 篇顶会论文带你了解知识图谱最新研究进展
本文转载自公众号:PaperWeekly. 精选 5 篇来自 ICLR 2019.WSDM 2019.EMNLP 2018.CIKM 2018和IJCAI 2018 的知识图谱相关工作,带你快速了解知 ...
- 文献阅读:知识图谱数据管理研究综述
目前,知识图谱数据管理的理论.方法.技术与系统处于快速发展和开发完善阶段.数据库学术和产业界对知识图谱数据管理研发投入正在不断增加.本节将未来的研究方向归纳如下. (1) 知识图谱数据模型与查询语言 ...
- 研究综述 | 知识图谱划分算法研究综述
作者 | 王鑫,天津大学智能与计算学部 来源 | 计算机学报 知识图谱划分是大规模知识图谱分布式处理的首要工作,是知识图谱的分布式存储.查询.推理和挖掘的基础支撑.从知识图谱和图划分的定义出发,系统性 ...
最新文章
- 德哥的PostgreSQL私房菜 - 史上最屌PG资料合集
- hibernate 序列_Hibernate身份,序列和表(序列)生成器
- 分享几个Python小技巧函数里的4个小花招
- 前端程序猿必知:单页面应用的核心
- 【Oracle】ORA-00054: resource busy and acquire with NOWAIT specified or timeout expired
- c++ memset 语言_C/C++ 中memset() 函数详解及其作用介绍
- CentOS安装虚拟打印机
- 程序员常见常用的英语单词
- 扫描器可发现远程服务器,服务器扫描发现漏洞-可通过HTTP获取远端WWW服务信息...
- goldendb基于mysql_实战 | 追求卓越,砥砺前行 ——中信银行 GoldenDB 分布式数据库转型实践...
- 双十一屡获冠军!TCL空调的爆品密码是什么?
- ExcelKit导出
- 求一元二次方程ax2+bx+c=0的根
- 基于PyTorch的TinyMind 汉字书法识别部分代码详解
- Vue3+vite+TS
- 如何实现SIMOTION设备与CF卡的绑定
- java大数据分析技术栈,字节跳动算法工程师面试总
- 【ParaView教程】第四章 常见问题 —— 2D速度矢量怎样在ParaView中绘制流线?
- 亚马逊跟卖僵尸listing无主asin采集软件工具爬虫运营软件
- 博闻科技:富贵逼人 控股架构优势尽显