A Survey on Knowledge Graphs Representation, Acquisition and Applications

  • 前言
  • Abstract
  • 1. INTRODUCTION
  • II. OVERVIEW
    • A. A Brief History of Knowledge Bases
    • B. Definitions and Notations
    • C. Categorization of Research on Knowledge Graph
    • D. Related Surveys
  • III. KNOWLEDGE REPRESENTATION LEARNING
    • A. Representation Space
    • B. Scoring Function
    • C. Encoding Models
    • D. Embedding with Auxiliary Information
    • E. Summary
  • IV. KNOWLEDGE ACQUISITION
    • A. Knowledge Graph Completion
    • B. Entity Discovery
    • C. Relation Extraction
    • D. Summary
  • V. TEMPORAL KNOWLEDGE GRAPH
    • A. Temporal Information Embedding
    • B. Entity Dynamics
    • C. Temporal Relational Dependency
    • D. Temporal Logical Reasoning
  • VI. KNOWLEDGE-AWARE APPLICATIONS
    • A. Language Representation Learning
    • B. Question Answering
    • C. Recommender Systems
  • VII. FUTURE DIRECTIONS
    • A. Complex Reasoning
    • B. Unified Framework
    • C. Interpretability
    • D. Scalability
    • E. Knowledge Aggregation
    • F. Automatic Construction and Dynamics
  • VIII. CONCLUSION
  • References
  • 阅读总结

前言

一篇关于知识图谱的综述,虽然文章的结构略显混乱,很多概念略微抽象,许多工作的内容需要自己脑补外,关于知识图谱的结构,发展,未来走向的讲述还是很清晰的,我认为这篇文章不值得一板一眼得看,大致浏览一遍就好,每节的内容看summary部分就可以了,不然会大把时间浪费在一些抽象的概念上,得不偿失,那么我们开始吧!


Abstract

当前,表示实体之间结构关系的知识图谱已成为认知和人类智能领域日益流行的研究方向。本文涵盖的主题包括:

  1. 知识图谱表示学习
  2. 知识获取和补全
  3. 时序知识图谱
  4. 知识图谱应用

文章总结了知识图谱领域最近的突破和前景方向。知识图谱图嵌入(Embedding) 由四个部分组成:表征空间、得分函数、编码模型和辅助信息。知识获取回顾了知识图谱补全、Embedding方法路径推理和逻辑规则推理,此外文章进一步探索了包括元关系学习常识推理时序知识图谱在内的新兴主题,最后文章提供了针对不同任务的精选数据集和开源库。

1. INTRODUCTION

知识图谱: 是对事实的结构化表示,由实体、关系和语义描述组成。

实体可以是是真实世界的对象和抽象概念,关系表示实体之间的联系以及实体的语义描述,实体间关系包含具有明确定义含义的类型和属性。

属性图(Property graphs or attributed graphs) 被广泛使用,其中的节点和关系都有各自的特性和属性。
知识图谱知识库(knowledge base) 几乎同义,前者更为突出图的结构,当涉及到形式语义时,知识图谱可以作为对事实进行解释和推理的知识库。二者的区别如下图所示:

基于资源描述框架(RDF),知识可以被描述为三元组形式,通常可以表示为 (h, r, t),其中 h , r , t 分别代表头实体、关系和尾实体;对于概念与概念或概念与实体,则可以描述为 (s, p, o),其中 s , p , o分别代表主语、谓语和宾语。
基于知识图谱的最新进展侧重于知识表示学习(KRL)或知识图谱嵌入(KGE),通过把实体和关系映射到低维向量中捕获它们的语义信息来实现。
具体的知识获取任务包括知识图谱补全(KGC)、三元组分类、实体识别(NER)和关系抽取。另外,知识感知模型受益于异构信息的集成、丰富的知识表示本体和语义以及多语言知识。

为什么要构建知识图谱?
文章中并没有直接提到这一点,但是引言部分还是有所涉及的,首先最直接的一点,就是知识图谱将事实结构化可以促进机器的认知;第二它引入了大规模、语义丰富、结构友好和高质量的背景知识,这一点不论是对机器还是对人类,都可以提高对相关实体或者概念的认知;第三知识图谱带来更强的解释性,更像人类一样利用概念、属性、关系去解释现象和事实;最后一点也是很重要的一点,知识图谱的落地可以提高搜索引擎、问答系统、推荐系统的性能和质量,在工业界需求量大。

文章的贡献:

  1. 对知识图谱领域进行了全面的调查。
  2. 提出对知识图谱的全面分类,以及细粒度的分类方法。
  3. 涵盖了当前领域的最新进展和新兴主题。
  4. 对未来的展望与总结,突出了有前途的研究方向。

II. OVERVIEW

A. A Brief History of Knowledge Bases

知识表示在AI和逻辑领域历史悠久。下图是知识库的发展史:

通用知识库和领域特定知识库罗列在附录F-A1和附录F-A2中。

B. Definitions and Notations

根据前人的工作,本文将知识图谱定义为: G = { ε , R , F } \mathcal{G} =\{\varepsilon,\mathcal{R}, \mathcal{F} \} G={ε,R,F},其中 ε , R , F \varepsilon,\mathcal{R}, \mathcal{F} ε,R,F分别代表实体、关系、事实的集合。事实被描述成一个三元组 ( h , r , t ) ∈ F (h,r,t) \in \mathcal{F} (h,r,t)F。经典的两个定义如下:

定义1: 知识图谱获取信息并将其整合本体库中,同时应用推理机制来推导新知识。
定义2: 知识图谱是由实体和关系组成的多关系图, 实体和关系分别被视为节点和不同类型的边。

两个定义都没有错,只不过是从不同角度去描述知识图谱。定义一侧重知识图谱获取和迭代更新的方式,后者侧重于从知识图谱结构化角度描述实体和关系之间的联系。二者结合起来可能会更全面。

本文符号和说明如下表所示:

C. Categorization of Research on Knowledge Graph

当前有关知识图谱的研究技术包括知识表示学习,知识获取,时序知识图谱和知识图谱应用,如下所示:

知识表示学习: KRL可以分为表征空间,得分函数,编码模型,辅助信息四个方面,为知识获取和下游应用铺平了道路。每个方面具体包括:

  • 表征空间涉及实体和关系如何表示,包括point-wise空间、流形、复数的向量空间、高斯分布以及离散空间;
  • 得分函数衡量事实三元组的合理性,一般基于距离、相似度匹配的算法;
  • 编码模型用于学习表征和关系交互,涉及线性模型、因式分解、神经网络;
  • 辅助信息以Embedding形式融入到KG中,主要包括文本、类型、视觉信息。

知识获取: 任务分为三类,知识补全、关系抽取和实体发现。KGC用于扩展现有的知识图谱,NER和RE用于从文本中挖掘新的知识。KGC任务包括基于embedding的排序、关系路径推理、基于规则的推理以及元关系学习。实体发现包括识别、消歧、类型和对齐,关系抽取利用attention机制、GCNs、对抗学习、强化学习、残差学习以及迁移学习来抽取关系。
时序知识图谱: 融合了时间信息进行表征学习。可以分为四个领域,包括时序Embedding,动态实体,时序关系依赖和时间逻辑推理。
知识感知应用:即知识图谱的下游应用,包括自然语言理解(NLU),问答,推荐系统,以及其它真实世界的任务,这些任务通过注入知识去提高表征学习的能力。

D. Related Surveys

以往关于知识图谱的调查主要集中在统计关系学习、知识图谱细化、中文知识图谱构建、知识推理、KGE或KRL。本文对KRL的调查更加深入和全面,此外本文全面回顾了知识获取和感知应用,并讨论了几个新兴主题。

III. KNOWLEDGE REPRESENTATION LEARNING

KRL在其他文献中又名KGE,多关系学习和统计关系学习。本节从四个部分回顾了具有丰富实体和关系语义信息的分布式表征学习的最新进展。

A. Representation Space

表征学习的关键问题是学习实体和关系间的低纬分布式嵌入。当前领域主要使用实值点空间(包括向量、矩阵和张量空间),复杂向量空间,高斯空间和流形空间(manifold space)。

  • 点空间(Point-Wise Space): 逐点欧几里得空间广泛应用于表征实体和关系,将Embedding投影到向量或矩阵空间,或者捕获关系交互。TransE代表了实体和关系在d维向量空间的表示,即 h , t , r ∈ R d \mathbf{h,t,r} \in \mathbb{R}^d h,t,rRd,并确保Embeddings服从平移原则 h + r ≈ t \mathbf{h+r \approx t} h+rt。为了解决实体和关系的单一空间不足的问题,TransR进一步为实体和关系引入了各自单独的空间,将 h , t ∈ R k \mathbf{h,t} \in \mathbb{R}^k h,tRk通过投影矩阵 M r ∈ R k × d \mathbf{M_r } \in \mathbb{R}^{k×d} MrRk×d投影到关系空间 r ∈ R d \mathbf{r} \in \mathbb{R}^d rRd,NTN通过双线性张量神经网路层对多个维度的实体进行建模。此外,HAKE在不使用笛卡尔坐标系的情况下,通过将实体映射到极坐标系来捕获语义层信息。
  • 复杂向量空间(Complex Vector Space): 实体和向量表示在复杂的空间而不是实数空间,其中 h , t , r ∈ C d \mathbf{h,t,r} \in \mathbb{C}^d h,t,rCd。以头实体为例, h = R e ( h ) + i I m ˚ ( h ) \mathbf{h}=\rm{Re}(\mathbf{h})+i\r{Im}(\mathbf{h}) h=Re(h)+iIm˚(h),由实部和虚部组成。ComplEx首次引入复杂向量空间,它可以捕获对称和反对称关系。Hermitian 点积用于对关系、头实体和尾实体的共轭进行组合。受到欧拉公式 e i θ = c o s θ + i s i n θ e^{i\theta}={\rm cos}\theta+i{\rm sin}\theta eiθ=cosθ+isinθ的启发,RotatE提出了一个旋转模型,它将关系视为复杂空间中头实体到尾实体的旋转, t = h ∘ r \mathbf{t=h\circ r} t=hr,其中 ∘ \circ 代表元素维度的Hadmard乘积。QuatE进一步将复数空间扩展到了超负数空间 h , t , r ∈ H d \mathbf{h,t,r} \in \mathbb{H}^d h,t,rHd,表示为具有三个虚部的方程 Q = a + b i + c j + d k Q=a+b\mathbf{i}+c\mathbf{j}+d\mathbf{k} Q=a+bi+cj+dk,四元组的内积,即 h ⊗ r \mathbf{h\otimes r} hr,用作头实体和关系的算子。RotatE是可以捕获反转和组合模式以及对称性和反对称性。QuatE可以捕获实体和关系的四维空间内的潜在相互依赖关系,并获得比RotatE更具表现力的旋转能力。
  • 高斯分布(Gaussian Distribution): 受到高斯词嵌入的启发,基于密度的嵌入模型KG2E引入高斯分布来处理实体和关系的确定和不确定性。它将实体和关系嵌入到多维高斯分布 H ∼ N ( μ h , Σ h ) \mathcal{H} \sim \mathcal{N}(\mu_h,\Sigma_h) HN(μh,Σh)T ∼ N ( μ t , Σ t ) \mathcal{T} \sim \mathcal{N}(\mu_t,\Sigma_t) TN(μt,Σt)中。均值向量 u \mathbf{u} u表示实体和关系的位置,协方差矩阵 Σ \mathbf{\Sigma} Σ模拟它们的确定性和不确定性。遵循平移原则,实体变换的概率分布 H − T \mathcal{H} -\mathcal{T} HT表示为 P e ∼ N ( μ h − μ t , Σ h − Σ t ) \mathcal{P_e} \sim \mathcal{N}(\mu_h-\mu_t,\Sigma_h-\Sigma_t) PeN(μhμt,ΣhΣt)。类似的TransG用高斯分布表示实体,用混合高斯分布表示关系Embedding,其中关系 r \mathbf{r} r的第m个平移向量部分表示为 u r , m = t − h ∼ N ( u t − u h , ( σ h 2 + σ t 2 ) E ) \mathbf{u_{r,m}}= \mathbf{t}-\mathbf{h} \sim \mathcal{N}(\mathbf{u_t-u_h},(\sigma^2_h+\sigma^2_t)\mathbf{E}) ur,m=thN(utuh,(σh2+σt2)E)
  • 流形空间(manifold space): 流形空间是拓扑空间, 集合论中定义为一组具有邻域的点。先前逐点建模是一个不适定的代数系统,其中得分方程的数量远远大于实体和关系的数量。此外,尽管应用了某些子空间投影的方法,Embedding也被限制在过于严格的几何形式中。为了解决上述问题,ManifoldE将逐点Embedding延伸为基于流形的Embedding,有两种基于流形Embedding的设置,即球体和超平面。对于球体的设置,再生希尔伯特核空间(Reproducing Kernel Hilbert Space)用于表示流形函数。超平面设置可以增强具有交互Embedding的模型。当流形函数和关系特定的流形参数设置为零时,流形坍缩为一个点。双曲空间是一个具有恒定负曲率的多维黎曼流形空间,因其捕获层次信息的能力而备受关注。TorusE通过嵌入一个紧李群n维环面空间解决了TransE的正则化问题。和TransE类似,它也在环面空间根据关系平移学习Embedding信息。即 [ h ] + [ r ] ≈ [ t ] \mathbf{[h]+[r] \approx [t]} [h]+[r][t]。最近,DihEdral提出一个保留二维多边形的二面角对称群。它利用有限非阿贝尔群来有效地保持对阵或斜对称、翻转和合成的关系性质与二面角群中的旋转和反射性质。

可以看到这几个空间的内容基本上就是原文中内容的翻译结果,因为这几个空间涉及到太多的专业数学知识,单纯的进行翻译也无法很好地理解其中的含义,需要结合具体的例子来理解,所以这里我不敢贸然提炼其中的关键,也不敢贸然总结,毕竟对于我来说,相关知识的储备是不完善的,还请读者见谅。

B. Scoring Function

得分函数用于衡量事实的合理性,在基于能量的学习框架中也称为能量函数。基于能量的学习旨在学习能量函数 ε θ ( x ) \varepsilon_\theta(x) εθ(x),其中 θ \theta θ为参数, x x x为输入,确保正样本比负样本具有更高的分数。典型的得分函数分为基于距离和基于相似性的函数。前者通过计算实体之间的距离来衡量事实的合理性,关系的加性转换 h + r ≈ t \mathbf{h+r \approx t} h+rt被广泛使用。后者如基于语义相似性的得分通过语义匹配衡量事实的合理性。它通常采用乘法公式在表示空间中变化靠近尾实体的头实体,即 h ⊤ M r ≈ t ⊤ \mathbf{h^{\top}M}_r \approx \mathbf{t^{\top}} hMrt

  • 基于距离的得分函数: 一种直观的方法是计算实体之间关系投影的欧氏距离。结构化Embedding(SE)使用两个投影矩阵和 L 1 L_1 L1距离来学习SE,即:
    f r ( h , t ) = ∣ ∣ M r , 1 h − M r , 2 t ∣ ∣ L 1 f_r(h,t)=||\mathbf{M_{r,1}h-M_{r,2}t}||_{L_1} fr(h,t)=∣∣Mr,1hMr,2tL1
    更常用的策略是基于转换的得分函数,旨在通过将关系表征为头实体到尾实体的转换来学习Embeddings。TransE中假设添加的 h + r \mathbf{h+r } h+rEmbedding应该接近于 t \mathbf{t} t的Embedding,得分函数在 L 1 L_1 L1L 2 L_2 L2约束下定义如下:
    f r ( h , t ) = ∣ ∣ h + r − t ∣ ∣ L 1 / L 2 f_r(h,t)=||\mathbf{h+r-t}||_{L_1/L_2} fr(h,t)=∣∣h+rtL1/L2
    之后大量关于TransE的变体和扩展被提出,它们的工作大多如表征空间中介绍的对Embedding的表示空间进行扩展,在得分函数部分,TransA将欧氏距离替换为马氏距离,从而实现更具自适应性的度量学习。以前的方法使用加法得分函数,TransF放宽了严格的转换而使用点积。为了平衡头尾实体约束,进一步提出了灵活的转换得分函数。最近,ITransF通过稀疏注意力向量来学习关系和概念之间的关联,从而实现隐藏概念发现和统计强度转移,得分函数定义为:
    f r ( h , t ) = ∣ ∣ α r H ⋅ D ⋅ h + r − α r T ⋅ D ⋅ t ∣ ∣ ℓ f_r(h,t)=||\alpha^H_r\mathbf{·D·h+r-}\alpha^T_r\mathbf{·D·t}||_{\ell} fr(h,t)=∣∣αrHDh+rαrTDt
    其中 D ∈ R n × d × d \mathbf{D} \in \mathbb{R}^{n×d×d} DRn×d×d是实体和关系的堆叠概念投影矩阵, α r H , α r T ∈ [ 0 , 1 ] n \alpha^H_r,\alpha^T_r \in [0,1]^n αrH,αrT[0,1]n是通过稀疏softmax计算的attention向量,TransAt将关系注意机制与平移嵌入相结合,TransMS传输具有非线性函数和线性偏置向量的多向语义,得分函数为:
    f r ( h , t ) = ∣ ∣ − t a n h ( t ∘ r ) ∘ h + r − t a n h ( h ∘ r ) ∘ t + α ⋅ ( h ∘ t ) ∣ ∣ ℓ 1 / 2 f_r(h,t)=||\rm{-tanh}\mathbf{(t\circ r)\circ h+r}-\rm{tanh}\mathbf{(h\circ r)\circ t}+\alpha·\mathbf{(h\circ t)}||_{\ell_{1/2}} fr(h,t)=∣∣tanh(tr)h+rtanh(hr)t+α(ht)1/2
    表征在高斯空间的KG2E和流形空间的ManifoldE也使用基于平移距离的得分函数。前者使用两种得分方法,非对称KL散度和对称预期似然。而ManifoldE的得分函数定义为:
    f r ( h , t ) = ∣ ∣ M ( h , r , t ) − D r 2 ∣ ∣ 2 f_r(h,t)=||\mathcal{M}(h,r,t)-D^2_r||^2 fr(h,t)=∣∣M(h,r,t)Dr22
    其中 M \mathcal{M} M是流形函数, D r D_r Dr是关系特定的流形参数。

  • 语义匹配(Semantic Matching): SME提出对单独实体关系对 ( h , r ) (h,r) (h,r)( r , t ) (r,t) (r,t)进行语义上的匹配。得分函数由线性块和双线性块定义,即:
    f r ( h , t ) = g l e f t ( h , r ) ⊤ g r i g h t ( r , t ) f_r(h,t)=g_{\rm left}(\mathbf{h,r})^{\top}g_{\rm right}(\bf{r,t}) fr(h,t)=gleft(h,r)gright(r,t)
    其中线性和双线性匹配块分别定义为:
    g l e f t ( h , t ) = M l , 1 h ⊤ + M l , 2 r ⊤ + b l ⊤ , g l e f t ( h , r ) = ( M l , 1 h ) ∘ ( M l , 2 r ) + b l ⊤ g_{\rm left}(h,t)={\bf M}_{l,1}{\bf h^\top}+{\bf M}_{l,2}{\bf r^\top}+{\bf b}_l^{\top},g_{\rm left}({\bf h,r})=({\bf M}_{l,1}{\bf h})\circ ({\bf M}_{l,2}{\bf r})+{\bf b}_l^{\top} gleft(h,t)=Ml,1h+Ml,2r+bl,gleft(h,r)=(Ml,1h)(Ml,2r)+bl
    通过将关系矩阵 M r M_r Mr限制为对角矩阵,以便表示多关系表征学习,DistMult提出了一个简化的双线性公式如下:
    f r ( h , t ) = h ⊤ d i a g ( M r ) t f_r(h,t)={\bf h}^{\top}{\rm diag}({\bf M}_r){\bf t} fr(h,t)=hdiag(Mr)t
    为了捕获关系数据中的有效交互并进行高效计算,HolE引入了循环相关Embedding,可以学习到组合的表示。通过对循环相关与关系嵌入进行语义匹配,HolE的得分函数可定义为:
    f r ( h , t ) = r ⊤ ( h ⋆ t ) f_r(h,t)={\bf r}^{\top}(h \star t) fr(h,t)=r(ht)
    扩展的全息Embedding模型HolEx内嵌了HoIE和全张量积的方法。ANALOGY专注于多关系推理,对关系数据的类比结构进行建模。得分函数如下所示:
    f r ( h , t ) = h ⊤ M r t f_r(h,t)={\bf h}^{\top}{\bf M}_r{\bf t} fr(h,t)=hMrt
    关系矩阵限制为正规矩阵用于类别推理,正规矩阵满足 M r ⊤ M r = M r M r ⊤ {\bf M}_r^{\top}{\bf M}_r={\bf M}_r{\bf M}_r^{\top} MrMr=MrMr。CrossE引入了交叉交互,它通过一个交互矩阵 C ∈ R n r × d {\bf C} \in \mathbb{R}^{n_r×d} CRnr×d模拟实体和关系之间的双向交互。特定的关系交互通过查找交互矩阵 c r = x r ⊤ C {\bf c}_r= {\bf x}^{\top}_r{\bf C} cr=xrC获得。通过结合交互表示和尾实体Embedding匹配, 得分函数可以定义为:
    f r ( h , r , t ) = σ ( t a n h ( c r ∘ h + c r ∘ h ∘ r + b ) t ⊤ ) f_r(h,r,t)=\sigma({\rm tanh}({\bf c}_r \circ {\bf h}+{\bf c}_r \circ {\bf h}\circ {\bf r}+{\bf b}){\bf t}^{\top}) fr(h,r,t)=σ(tanh(crh+crhr+b)t)
    语义匹配的原理在神经网络编码部分进一步讨论。
    III-A4中提到的两个群也同样遵循语义匹配原则。TorusE的得分函数定义如下:
    m i n ( x , y ) ∈ ( [ h ] + [ r ] ) × [ t ] ∣ ∣ x − y ∣ ∣ i {\rm min}_{(x,y) \in ([h]+[r])×[t]}||x-y||_i min(x,y)([h]+[r])×[t]∣∣xyi
    通过将2L关系建模为组元素,DihEdral的得分函数定义如下:
    f r ( h , t ) = h ⊤ R t = ∑ l = 1 L h ( l ) ⊤ R ( l ) t ( l ) f_r(h,t)={\bf h}^{\top}{\bf R}{\bf t}=\sum_{l=1}^L{\bf h}^{(l)\top}{\bf R}^{(l)}{\bf t}^{(l)} fr(h,t)=hRt=l=1Lh(l)R(l)t(l)
    关系矩阵 R {\bf R} R定义为块对角形式, R ( l ) ∈ D K {\bf R}^{(l)}\in{\mathbb{D}_K} R(l)DK,实体嵌入到实数空间, h ( l ) , t ( l ) ∈ R 2 {\bf h}^{(l)},{\bf t}^{(l)}\in \mathbb{R}^2 h(l),t(l)R2

得分函数部分我也基本上全部翻译,希望日后的自己能够慢慢理解。因为这个部分是在表示空间的基础上进行的,得分函数主要分为基于距离计算和基于相似性,距离计算从原理上更为简单,只是距离表示的方法不同罢了,但是在不同的表示空间中,距离计算公式有所不同,这就造成了理解上的困难。基于相似性的方法相比下要复杂一些,这里主要关注语义相似性的匹配,如何用公式表示语义是个问题,通常会用关系矩阵来存储交互信息,而交互信息中就包含了语义的信息。最后谈一谈个人的理解,在我看来,两种方法都很重要,从不同角度表示两个实体之间的联系与不同,距离度量更偏向于内容上的不同,相似性度量更偏向于结构上的不同,如果将两个方法结合起来,也许对知识图谱中三元组的合理性有更好的解释。

C. Encoding Models

本节介绍通过特定的模型架构对实体和关系的交互进行编码,包括线性、双线性、分解模型和神经网络。线性模型将头实体经过关系的线性或双线性映射到尾实体的表征空间。因子分解旨在将关系数据分解为低秩矩阵进行表示学习,神经网络通过匹配实体和关系的语义相似性,使用非线性激活函数和复杂网络结构对关系数据进行编码。

  • 线性/双线性模型(Linear/Bilinear Models): 应用线性运算对实体和关系的交互编码:
    g r ( h , t ) = M r T ( h t ) g_r({\bf h,t})={\bf M}_r^T \binom{\bf h}{\bf t} gr(h,t)=MrT(th)
    线性或双线性编码的模型包括SE,SME,DistMult,ComplEx,ANALOGY。Wang等人研究了各种双线性模型,提出多个线性模型的集成可以提高实验的预测表现。为解决实体向量在规范化的Polyadia分解中的独立嵌入问题,SimplE在计算得分函数时引入了关系的逆:
    f r ( h , t ) = 1 2 ( h ∘ r t + t ∘ r ′ t ) f_r(h,t)=\frac{1}{2}({\bf h} \circ {\bf rt}+{\bf t}\circ {\bf r't}) fr(h,t)=21(hrt+trt)
    其中 r ′ \bf r' r是关系逆的Embedding,分解函数遵循语义匹配的模式。
  • 因子分解模型(Factorization Models): 因子分解模型将KRL问题建模成了三向张量 X \mathcal{X} X分解。
    X h r t ≈ h ⊤ M r t \mathcal{X}_{hrt} \approx \bf{h}^{\top}\bf{M}_r \bf{t} XhrthMrt
    三向秩r分解RESCAL作用在知识图谱张量的每一个关系切片上。对于关系集合m中的第k个关系, X \mathcal{X} X作用在k上的分解为:
    X k ≈ A R k t \mathcal{X}_{k} \approx {\bf A}{\bf R}_k \bf{t} XkARkt
    作者进一步扩展以高效处理实体的属性。双线性结构潜在因子模型LFM,通过分解 R k = ∑ i = 1 d α i k u i v i ⊤ {\bf R}_k=\sum^d_{i=1}{\bf \alpha}_i^k{\bf u}_i{\bf v}_i^{\top} Rk=i=1dαikuivi进一步扩展了RESCAL。TuckER引入三向Tucker张量分解,通过输出核张量和Embedding向量来学习嵌入。LowFER提出了一种多模态分解双线性池机制以更好融合实体和关系。它推广了TuckER模型,并且由于低秩近似有很高的计算效率。

  • 神经网络(Neural Networks): 神经网络用于编码语义匹配在最近的研究取得了显著的预测性能。神经网络代表模型包括MLP、神经张量网络(NTN)以及神经关联模型(NAM)。它们通常将实体和关系喂入到深度神经网络中来计算语义匹配得分。MLP将实体和关系一起编码到全连接层,得分函数如下:
    f r ( h , t ) = σ ( w ⊤ σ ( W [ h , r , t ] ) ) f_r(h,t)=\sigma({\bf w}^{\top}\sigma({\bf W[h,r,t]})) fr(h,t)=σ(wσ(W[h,r,t]))
    其中, W ∈ R n × 3 d {\bf W}\in{\mathbb{R}^{n×3d}} WRn×3d是权重矩阵, [ h , r , t ] {\bf [h,r,t]} [h,r,t]是三个向量的堆叠。NTN把实体Embedding作为输入,同时与关系张量相关联,输出预测得分如下:
    f r ( h , t ) = r ⊤ σ ( h T M ^ t + M r , 1 h + M r , 2 t ) + b r f_r(h,t)={\bf r}^{\top}\sigma({\bf h}^T{\bf{\widehat{M}t}}+{\bf M}_{r,1}{\bf h}+{\bf M}_{r,2}{\bf t}){\bf +b}_r fr(h,t)=rσ(hTM

    t+Mr,1h+Mr,2t)+br
    其中 b r ∈ R k {\bf b}_r\in{\mathbb{R}}^k brRk是关系r的偏差, M r , 1 {\bf M}_{r,1} Mr,1M r , 2 {\bf M}_{r,2} Mr,2是特定关系权重矩阵。NTN可以视为MLP和双线性模型的组合。NAM将隐藏编码和尾实体Embedding关联,提出关系调制神经网络(RMNN)。

  • 卷积神经网络(Convolutional Neural Networks): CNN用于学习深度表征。ConvE使用二维卷积作用于Embeddings和多层非线性特征,将头实体和关系的交互重塑为二维矩阵。
    f r ( h , t ) = σ ( v e c ( σ ( [ M h ; M r ] ∗ ω ) ) W ) t f_r(h,t)=\sigma({\rm vec}(\sigma{\bf ([M}_h;{\bf M}_r]*\omega)){\bf W}){\bf t} fr(h,t)=σ(vec(σ([Mh;Mr]ω))W)t
    其中 ω \omega ω是卷积滤波器(多个卷积核堆叠的三维矩阵), v e c \rm vec vec是将张量重塑为矩阵的矢量化操作。ConvE可以通过多个非线性层特征学习来表达语义信息。ConvKB在不reshaping的情况下采用CNN对实体和关系的连接进行编码,其得分函数定义为:
    f r ( h , t ) = c o n c a t ( σ ( [ h , r , t ] ∗ ω ) ) ⋅ w f_r(h,t)={\rm concat}(\sigma({\bf [h,r,t]}*\omega))·{\rm w} fr(h,t)=concat(σ([h,r,t]ω))w.
    卷积生成的特征映射集的连接增加了模型的潜在特征学习能力。ConvE捕获的是局部特征, 而ConvKB保持了数据形状可以表现更好的性能。

  • 循环神经网络(Recurrent Neural Networks): RNN可以捕获知识图谱中的长程依赖关系。Gardner和Neelakantan等人基于关系路径提出RNN模型,分别学习没有实体信息和有实体信息时向量的表示。RSN设计了一种循环skip机制,通过区分关系和实体来增强语义表示学习。采用随机游走生成实体和关系交替排列的关系路径 ( x 1 , x 2 , . . . , x T ) (x_1,x_2,...,x_T) (x1,x2,...,xT),并进一步用于计算递归隐藏状态 h t = t a n h ( W h h t − 1 + W x x t + b ) {\bf h}_t={\rm tanh}({\bf W}_h{\bf h}_{t-1}+{\bf W}_x{\bf x}_{t}+{\bf b}) ht=tanh(Whht1+Wxxt+b)。skipping操作定义如下:
    h ′ t = { h t x t ∈ ε S 1 h t + S 2 x t − 1 x t ∈ R {\bf h'}_t=\begin{cases}{\bf h}_t \qquad \qquad \qquad x_t \in \varepsilon \\ {\bf S}_1{\bf h}_t+{\bf S}_2{\bf x}_{t-1} \,\,\,\,\,x_t \in \mathcal{R} \end{cases} ht={htxtεS1ht+S2xt1xtR
    其中 S 1 {\bf S}_1 S1S 2 {\bf S}_2 S2是权重矩阵。

  • Transformers: 基于Transformer的模型促进了上下文的文本表示学习。为利用知识图谱中上下文信息,CoKE使用transformer对边和路径序列进行编码。KG-BERT采用类似BERT的双向编码器表示作为实体和关系的编码器。

  • 图神经网络(Graph Neural Networks): GNN基于编码器-解码器结构学习连接架构。R-GCN提出特定关系转换来建模知识图谱的有向性,前向传播部分定义为:

    其中 x i ( l ) ∈ R d ( l ) x^{(l)}_i\in \mathbb{R}^{d(l)} xi(l)Rd(l)是第 l l l层中第 i i i个实体的隐藏状态。 N i r N^r_i Nir是关系 r ∈ R r \in R rR内第 i i i个实体的邻居集合。 W r ( l ) W^{(l)}_r Wr(l)W 0 ( l ) W^{(l)}_0 W0(l)是可学习的参数矩阵, c i , r c_{i,r} ci,r起到归一化的作用。这里GCN充当图谱的编码器,为了实现特定的任务,仍然需要开发编码器模型并将其集成到R-GCN的架构中。R-GCN中邻居实体都是平等的。SACN引入了带权GCN,定义了具有相同关系类型的两个相邻节点的强度,利用节点结构、节点属性和关系类型来捕获知识图谱中的结构信息。解码器模块称为Conv-TransE,采用了ConvE模型作为语义匹配度量并保留平移属性。通过将实体和关系Embedding在卷积层中的输出与 C C C个核对齐为 M ( h , r ) ∈ R C × d {\bf M(h,r)}\in \mathbb{R}^{C×d} M(h,r)RC×d,得分函数定义为:
    f r ( h , t ) = g ( v e c ( M ( h , r ) ) W ) t f_r(h,t)=g({\rm vec}({\bf M(h,r)})W){\bf t} fr(h,t)=g(vec(M(h,r))W)t
    Nathani等人提出的具有多头注意力的图attention网络作为encoder,通过输入实体和关系Embedding的堆叠捕获多跳邻居特征。CompGCN提出了对中心节点邻域中每条边的实体关系组合操作,并推广了以前基于GCN的模型。

D. Embedding with Auxiliary Information

多模态嵌入将文本描述、类型约束、关系路径和视觉信息等外部信息与知识图谱本身结合起来,用于更有效的知识表示。

  • 文本描述(Textual Description): 知识图谱中实体的文本描述为 D = < w 1 , w 2 , . . . , w n > \mathcal{D}=<w_1,w_2,...,w_n> D=<w1,w2,...,wn>,提供了补充语义信息。当前带有文本描述KRL的挑战是如何将结构化知识和非结构化文本嵌入到同一个空间中。现有的方法包将实体空间和词空间对齐,从实体描述在卷积编码器的输出中学习表征,将三元组和文本描述投影到语义子空间来捕获它们之间的强相关性。当KGE和文本描述结合时,通常应用联合损失函数(即将各个模型的损失函数结合起来,有些赋予权重)。
  • 类型信息(Type Information): 实体具有分层的类别和类型,同样,关系也有语义类别。SSE结合实体的语义类别,平滑地嵌入到同一类别实体的语义空间。TKRL提出了实体投影矩阵的类型编码器模型以捕获类型层次结构。KREAR注意到一些关系表明实体的属性,将关系类型分类为属性和关系,并对实体描述之间的相关性进行建模。
  • 视觉信息(Visual Information): 视觉信息可以丰富KRL。方法是将图像编码到实体空间并遵循转换规则。跨模态表征的关键在于确保基于结构和基于图像的表征在相同的表征空间中。
  • 不确定信息(Uncertain Information): 知识图谱如ProBase、NELL等包含不确定信息,每个相关事实都有一个置信分数。不确定性嵌入模型旨在捕获关系事实的不确定性。有学者研究表明良好的校准模型可以提高准确性。

E. Summary

表示空间在一定程度上影响了KRL方法的表达能力;基于距离和语义匹配的得分函数构成了 KRL 中合理性度量的基石,其中TransE开创了分布式词表示学习的先河,后续工作细化到更复杂的关系,一对多、多对一等,以及对多向语义建模,语义匹配采用了很多数学运算或组合运算符,比如线性匹配,双线性映射,张量积,Hadamard积等;编码模型通常分为线性和神经网络两大类,线性和双线性模型在实体和关系上使用基于乘积的函数,而因式分解模型将知识图谱视为三向张量。神经网络利用GCN、RNN、CNN等复杂网络来学习更丰富的表征,虽然效果很好,但是缺乏可解释性。最近的趋势仍然是更强大的架构或者大规模预训练上,而深度可解释模型仍然是个挑战。
总的来说,开发一个新颖的KRL模型需要回答如下问题:

  1. 选择什么表示空间?
  2. 如何衡量KG中三元组合理性?
  3. 使用哪种编码模型对关系交互进行建模?
  4. 是否利用辅助信息?

下面是近期KRL模型的总结。

IV. KNOWLEDGE ACQUISITION

知识获取旨在从非结构化文本和其他结构化或半结构化来源构建知识图谱,完善现有知识图谱,发现和识别实体和关系。知识获取的主要任务包括关系抽取,知识图谱补全,实体识别和实体对齐。关系抽取和KGC也可以被集成到一个统一的框架中。其他与知识获取相关的任务如:三重分类,关系分类,开放知识丰富。

A. Knowledge Graph Completion

KGC的任务是向知识图谱加入新的三元组。典型的子任务包括链接预测、实体预测和关系预测。
KGC初步研究关注于学习三元组预测的低维Embedding,这些方法称为基于Embedding的方法。大部分方法无法捕获多步骤关系,因此最近的工作转向探索多步关系路径以及整合逻辑规则,分别为基于关系路径的推理和基于规则的推理。

  • 基于Embedding的模型(Embedding-based Models): 以实体预测中基于Embedding的排序方法为例,如(a)所示,首先学习基于现有三元组的Embedding向量,接着用实体 e ∈ ε e \in \varepsilon eε替代头实体和尾实体,这些模型计算所有候选实体的分数并对前 k k k个实体进行排名。之前提到的KRL方法如TransE、TransH、TransR都可用于KGC。ProjE方法并没有将输入和候选表示在统一的嵌入空间中,而是提出了组合的嵌入。具体表现为通过对输入三元组已知的部分进行空间投影,即 ( h , r , ? ) (h,r,?) (h,r,?)( ? , r , t ) (?,r,t) (?,r,t),和候选实体的候选实体矩阵 W c ∈ R s × d {\bf W}^c \in \mathbb{R}^{s×d} WcRs×d的组合嵌入,其中 s s s是候选实体的数量,Embedding投影函数包括神经组合层和投影输出层。之前的Embedding方法没有区分实体和关系预测,ProjE也不支持关系预测。SENN明确区分了三个KGC子任务,通过引入具有自适应加权一般损失函数的统一神经共享嵌入来学习不同的潜在特征。现有的方法严重依赖知识图谱的现有连接,无法捕捉到事实知识或具有少量连接的实体的演变。ConMask在实体描述上提出依赖于关系的内容屏蔽以选择给定关系的相关片段,以及基于 CNN 的目标融合以补全具有不可见实体的KG。只有查询的关系和实体在文本描述中明确表达时,它才能做出预测。以前的方法是依赖于给定实体对或文本语料库的判别模型。REMEDY在特定的医疗领域,提出一个生成模型,称为条件关系变分自动编码器,用于从潜在的空间中发现实体对。

  • 关系路径推理(Relation Path Reasoning): 实体和关系的Embedding学习无法模拟复杂的关系路径。关系零推理转向利用图结构上的路径信息。随机游走理论如PRA,在路径约束的组合下选择关系路径并进行最大似然分类。为了改进路径搜索,Gardner等人通过结合文本内容在随机游走中引入了向量空间相似性启发式算法,这也缓解了PRA中的特征稀疏性问题,他们也同时研究了神经多跳关系路径建模。Neelakantan等人开发了一个RNN模型,通过递归地应用组合性来组合关系路径的含义(如上图b所示)。attention机制支持多种推理,通过所有的关系、实体和文本代表逻辑的组合。DIVA提出了统一的变分推理框架,将多跳机制看做路径查找和路径推理两个步骤。

  • 基于强化学习的路径查找(RL-based Path Finding): 通过将实体对之间的路径查找制定为顺序决策,RL引入多跳推理,特别是马尔科夫决策过程。基于策略的 RL 代理通过知识图谱环境之间的交互学习找到与扩展‘’推理路径相关的步骤,其中策略梯度用于训练 RL 代理。DeepPath首次将RL应用于关系路径学习,并开发一种新颖的奖励函数,以提高准确性、路径多样性和路径效率。它通过平移嵌入方法对连续空间中的状态进行编码,并将关系空间作为其动作空间。类似地,MINERVA通过最大化预期奖励将路径步行到正确答案实体作为一个顺序优化问题。MultiHop提出一种软奖励机制,在训练过程中采用了Action dropout来掩盖一些出度边,以实现更有效的路径探索。M-Walk应用RNN来捕获历史轨迹,并使用蒙特卡洛树搜索(MCTS)来生成有效路径。通过利用文本语料库和当前实体的句袋,CPL提出从文本中进行寻路和事实挖掘的协作策略学习。下表总结了上述方法。

  • 基于规则的推理(Rule-based Reasoning): 为了更好利用知识的符号特性,KGC的另一个方向是逻辑规则学习。规则定义形式为: h e a d ⟵ b o d y head\longleftarrow body headbody,head是一个原子,即一个具有可变主题或对象的事实,body可以是一组原子。比如给定关系sonOf,hasChild和gender,以及实体 X X XY Y Y,在逻辑编程的反向形式中有一条规则为:
    ( Y , s o n O f , X ) ⟵ ( X , h a s C h i l d , X ) ∧ ( Y , g e n d e r , M a l e ) (Y,{\rm sonOf},X)\longleftarrow (X,{\rm hasChild},X)\wedge (Y,{\rm gender},Male) (Y,sonOf,X)(X,hasChild,X)(Y,gender,Male)
    可以利用逻辑提取工具AMIE提取逻辑。最近的RLVLR提出了一种可扩展的规则挖掘方法,具有高效的规则搜索和修剪,并使用提取的规则进行链接预测。
    更多的研究注意力集中在逻辑规则注入到Embedding中以改进推理,同时应用联合学习或迭代训练来合并一阶逻辑规则。KALE提出一个统一的联合模型,定义了兼容三元组和逻辑规则嵌入的t-范数(t-norm)模糊逻辑连接词。具体来说,定义了逻辑组合、分离和取反三种成本,组成一个复杂公式的真值。上图(a)说明了一个简单推理实例。RUGE提出了一种迭代模型,其中软规则用于从未标记的三元组和标记的三元组进行软标签预测以进行嵌入校正。 IterE提出了一种迭代训练策略,包含嵌入学习axiom归纳和axiom注入三个组成部分。
    逻辑规则作为一种辅助信息,可以结合先验知识实现可解释的多跳推理。然而,逻辑规则只能覆盖知识图谱中有限的关系事实,并且需要大量的搜索空间。神经网络和符号计算的结合具有互补的优势,利用高效的数据驱动学习、可微分优化和挖掘先验逻辑知识进行精确和可解释的推理。将基于规则的学习纳入知识表征主要是为表示添加正则化和约束。NTP利用逻辑规则进行多跳推理,同时利用径向基函数核(高斯核)在向量空间上进行可微计算。NeuralLP使用基于梯度的优化应用于归纳逻辑编程,其中通过集成注意力机制和辅助记忆提出了神经控制系统。Nueral-Num-LP进一步扩展NeuralLP以学习具有动态规划和累积和运算的数值规则。pLogicNet如上图右边模型所示,提出了概率逻辑神经网络,通过结合马尔科夫逻辑网络和KRL方法的优点,在处理逻辑规则的不确定性的同时,利用一阶逻辑并学习有效的嵌入。ExpressGNN通过调整图网络、Embedding进一步推广pLogicNet,实现更有效的逻辑推理。

  • 元关系学习(Meta Relational Learning): 知识图谱关系中存在长尾现象,同时,现实中知识场景是动态的,通常会获取到不可见的三元组。元关系学习又称小样本(few-shot)关系学习,作为一种新的场景,需要模型仅用很少的样本来预测新的关系事实。
    通过观察前两个对象,GMatching开发了一种基于度量的小样本学习方法,具有实体嵌入和局部图结构。它对one-hop邻居进行编码,使用R-GCN捕获结构信息,然后将结构实体Embedding用于LSTM引导的多步匹配用于计算相似性评分。Meta-KGR是一种基于优化的小样本学习方法,采用与模型无关的元学习方法来实现实体搜索和路径推理的快速适应和强化学习。受到基于模型和优化的元学习的启发,MetaR将关系特定的元信息从支持集传到查询集,并通过高阶关系表示的损失梯度来快速适应。Qin等人利用GAN在zeroshot设置下为不可见的关系生成合理的嵌入。

  • 三元组分类(Triple Classification): 三元组分类用于判断测试数据中的事实是否正确,通常被认为是二分类问题。决策规则基于具有特定阈值的得分函数。上述的Embedding方法可以被应用到三元组分类,比如距离度量方法TransH和TransR,以及基于语义匹配的方法NTN、HolE和ANALOGY。
    普通的基于向量的Embedding方法不能处理1对多关系。Dong等人将嵌入空间扩展到基于区域的n维度球中,其中尾部区域位于头部区域,使用细粒度类型链(即树结构概念聚类)进行 1 对 n 关系。这种方法将三分类问题转化为集合嵌入问题并且提高了具有长类型链实体的性能。但是它依赖于实体的类型链并且存在可扩展性问题。

B. Entity Discovery

实体发现任务可以细分为实体识别、实体消歧、实体类型化和实体对齐。

  • 实体识别(Entity Recognition): 即命名实体识别(NER),是在文本中标记实体的任务。人工设计的特征如大写模式、特定语言资源(地名词典)开始时被大量应用。最近的工作应用了序列到序列的神经架构,如LSTM-CNN用于学习字符级和单词级特征以及编码部分词典的匹配。Lample等人提出了堆叠LSTM层和CRF层的堆叠神经网络,其中CRF是作为解码层,如上图左边模型所示。MGNER提出了一个集成框架,该框架具有各种粒度的实体位置检测和针对嵌套和非重叠命名实体的基于注意力机制的实体分类。Hu等人通过多任务训练区分多标记和单标记实体。带有知识图谱的预训练语言模型如ERNIE和K-BERT已经应用于NER并取得了改进的性能。

命名实体识别实际上是一个很重要的任务,并且总是作为预训练任务为下游任务引入先验知识,本文中NER内容过于简短,由于我做过相关的调查,所以对NER任务要更加熟悉点,其实作者这样以一句话直接概括不同作者的工作是不能够给读者一个明晰认识的。事实上,NER任务除了从发展上是由传统的机器学习方法、人工特征到RNN、CNN、基于注意力机制的过程,从模型本身上又可以细分,这就是为什么会有LSTM-CRF堆叠模型的存在,NER模型可以分为三个部分,表示层、编码层和解码层,表示层多为Embedding,用于引入先验知识表示文本,编码层通过CNN、RNN和语言模型捕获上下文的依赖关系,解码器预测输入序列中tokens的标签。

  • 实体类型(Entity Typing): 实体类型包括粗粒度和细粒度类型,后者使用树结构类型类别,通常被视为多类别多标签分类。为了减少标签噪声,PLE侧重于正确的类型识别,并提出了一种带有异构图的部分标签嵌入模型,用于表示实体提及、文本特征和实体类型及其关系。Ma等人提出了带有层次信息的原型驱动标签嵌入,用于零样本的细粒度命名实体类型。最近的方法基于Embedding,如JOIE学习实例和本体视图的联合嵌入,并将实体类型制定为top-k排名预测相关概念。
  • 实体消歧(Entity Disambiguation): 实体消歧或实体链接是一个统一的任务,它将实体链接到知识图谱中的相应实体。例如,爱因斯坦于1921年获得诺贝尔物理学奖。实体“爱因斯坦”应与阿尔伯特·爱因斯坦的实体相关联。当代的端到端的学习通过实体和mentions的表示学习做出了贡献,Ganea和Hofmann提出了一种基于局部上下文窗口的注意力神经模型,用于实体嵌入学习和可区分消息传递以推断模糊实体。

这里的mentions需要解释一下,mentions也是实体,换句话说,是实体的提及,即实体的代指,比如美国总统是拜登,那么美国总统就是拜登这个实体的mention。概括来说,当我们“讲”实体的时候,必然会使用某种方式去提及它,这个就称为它的mention。

  • 实体对齐(Entity Alignment): 上述提及的任务涉及从文本或者单个知识图谱中发现实体,而实体对齐(EA)旨在融合各种知识图谱之间的知识。给定 E 1 \mathcal{E}_1 E1E 2 \mathcal{E}_2 E2是两个不同知识图谱的实体集合,EA的任务就是找到对其集合 A = { ( e 1 , e 2 ) ∈ E 1 × E 1 ∣ e 1 ≡ e 2 } A=\{(e_1,e_2) \in \mathcal{E}_1 \times\mathcal{E}_1|e_1\equiv e_2 \} A={(e1,e2)E1×E1e1e2}。如上图右边所示,给出一小组对齐种子,即同义实体出现在不同的知识图谱中,启动对其过程。
    基于Embedding的对齐计算一对实体嵌入之间的相似度。MTransE首先研究了多语言场景中的实体对齐。它考虑了基于距离的轴校准、平移向量和线性变换,用于跨语言实体匹配和三元组对齐验证。继基于平移和线性变换的模型之后,IPTransE提出了迭代对齐模型,通过平移对齐将实体映射到联合嵌入框架下的统一表示空间。
    附加信息也被加入进一步细化,JAPE捕获跨语言属性之间的相关性。KDCoE通过协同训练嵌入多语言实体描述,MuliKE学习实体名称、关系和属性的多个视图,并与字符属性嵌入对齐。

C. Relation Extraction

关系抽取是通过从纯文本中提取未知的关系事实并将其添加到知识图谱中来自动构建大规模知识图谱的关键任务。由于缺乏标记的关系数据,远程监督,又称弱监督或自监督,通过假设包含相同实体mentions的句子在关系数据的监督下可能表达相同的关系,使用启发式匹配来创建训练数据。传统的方法高度依赖特征工程,最近的方法探索了特征之间的内在相关性,深度神经网络改变了知识图谱和文本的表征学习,下图是神经关系抽取的最新进展。

  • 神经关系抽取(Neural Relation Extraction): 具有与实体相对距离的位置特征的CNN首先被探索用于关系分类,接着具有不同大小的卷积过滤器多窗口CNN扩展到关系抽取,多实例学习以词袋作为输入来预测实体对的关系。PCNN将分段最大池化应该用于被实体位置分隔的卷积表征片段。与普通的CNN相比,PCNN可以更有效地捕获实体对内部的结构信息。MIMLCNN进一步将其扩展到多标签学习,使用跨句子最大池化进行特征选择。类关系和关系路径等辅助信息同样也被利用。模型上RNN也被使用,BRCNN将用于捕获顺序依赖性的RNN与使用双通道双向 LSTM 和 CNN 表示局部语义的 CNN 相结合。
  • 注意力机制(Attention Mechanism): 许多注意力机制的变体和CNN结合,包括词级注意力捕获单词的语义信息,和对多个实例的选择性注意力以减轻噪声实例的影响。其它的辅助信息也被引入丰富语义表示。
  • 图卷积网络(Graph Convolutional Networks): GCNs用于编码句子上的依赖树或学习KGEs以利用关系知识进行句子编码。C-GCN是一种基于以路径为中心的修剪后句子的修剪依赖树的上下文GCN模型。AGGCN也在依赖树上应用了GCN,但是利用多头注意力以软加权的方式进行边的选择。与前两个基于GCN的模型不同,Zhang等人将GCN应用于知识图谱中的关系嵌入,以进行句子的关系抽取。作者进一步提出了一种由粗到细的知识感知注意力机制来选择信息实例。
  • 对抗训练(Adversarial Training): 在MIML学习设置下,AT用于为基于CNN和RNN的关系抽取的词嵌入添加对抗性噪声。 DSGAN通过学习句子级真阳性(TP)样本的生成器和最小化生成器真阳性概率的判别器来对远程监督学习进行去噪处理。
  • 强化学习(Reinforcement Learning): Qin等人提出训练句子关系分类器的基于策略的 RL 代理,将误报实例重新分配到负样本中,以减轻噪声数据的影响。作者将F1得分作为评分指标,并用基于F1得分的表现变化作为策略网络的奖励。基于强化学习的NRE的优点是关系抽取器与模型无关,因此它可以很容易适应任何神经架构以进行有效的关系抽取。
  • 其他方法(Other Advances): 注意到当前的NRE方法没有使用非常深的网络,Huang和Wang将深度残差学习应用于噪声关系抽取,发现九层CNN可以提高性能。Liu等人提出通过实体分类的迁移学习来初始化神经模型。协作CORD通过双向知识蒸馏和自适应模拟将文本语料库和带有外部逻辑规则的知识图谱集成到一起。TK-MF通过匹配句子和关键词丰富句子表示学习。最近,Shahbazi等人通过对显著性、梯度×输入和留一法在内的几种解释机制进行基准测试来研究可信关系抽取。
    知识图谱中现有的低频关系需要对未见关系和少数实例进行few-shot关系分类。Gao等人提出了基于混合注意力的原型网络来计算原型关系嵌入并比较其查询嵌入之间的距离。Qin等人探索了relation与全局关系图之间的关系,并将few-shot关系抽取制定为贝叶斯元学习问题,用于学习关系原型向量的后验分布。
  • 联合实体和关系抽取(Joint Entity and Relation Extraction): 传统的关系抽取首先提取实体,然后对关系进行分类。然而pipeline方法可能会导致错误累积。一些研究表明联合学习比传统的pipeline方法具有更好的性能,但在处理实体对和关系重叠方面仍然面临挑战。Wei等人提出一种级联二进制标记框架,将关系建模为主客体映射函数,以解决重叠问题。联合学习框架中训练和推理之间存在分布差异,导致暴露偏差(exposure bias)。Wang等人提出一种单阶段联合抽取框架,通过将联合实体和关系抽取转换为token对链接任务,以减轻误差传播和暴露偏差。对于联合模型优势的普遍观点是可以通过捕获实体和关系的相互交互来缓解错误累积,Zhong和Chen提出了一种简单有效的基于pipeline的方法来学习实体和关系两个独立的编码器,揭示了强大的上下文表示可以保留实体和关系的不同特征。

什么是暴露偏差?
RNN中的一种偏差,RNN在训练时接受的标签是真实的值,但测试时却接收到前一个单元的输出作为当前单元的输入(以预测结果作为下一次的输入),这会导致误差累积,如果前一个单元的输出是错误的,那么这个错误的输出作为下一个单元的输入,会一错再错。

D. Summary

  • 知识图谱补全: 完成现有实体之间缺失的链接或者在给定实体和关系查询的条件下推断实体。

    • 基于Embedding方法:通常依赖三元组表示学习来捕获语义并进行补全的候选排序。基于Embedding的推理停留在个体关系层面,由于疏忽了知识图谱的符号特性,缺乏可解释性。
    • 符号和Embedding混合方法:结合了基于规则的推理,克服了知识图谱的稀疏性以提高Embedding质量,引入可解释规则同时促进有效规则注入。
    • 路径搜索和神经路径表示学习: 遍历大规模知识图谱时,会遇到连通性不足的问题。元关系学习的新兴方向旨在对低资源环境中不可见的关系快速适应。
  • 实体发现:从文本中获取面向实体的知识,以及融合知识图谱之间的知识。实体识别以序列到序列的方式探索,实体类型讨论了噪声类型标签,零样本类型,以及实体消歧和针对对齐种子数量有限的问题,让对齐学习统一迭代对齐模型的Embedding,但是如果对齐不佳会有错误累积风险。近年来特定语言的知识图谱增加推动了跨语言知识对齐的研究。
  • 关系抽取:
    • 噪声影响:在远程监督的假设下,关系抽取受到噪声模式的影响,尤其在不同领域的文本语料库中。因此,弱监督关系抽取必须减轻噪声标签的影响。例如,多实例学习将句袋作为输入,使用注意力机制通过对实例的软选择来减轻噪声模式,而基于RL的方法将实力选择制定为硬选择。
    • 丰富表示:由于深度神经网络可以解决传统特征抽取方法中错误传播问题,因此该领域以基于DNN模型为主,如下表所示。

V. TEMPORAL KNOWLEDGE GRAPH

当前知识图谱研究主要集中在静态知识图谱,事实不随时间变化。然而时间信息非常重要,因为结构化知识仅在特定时期内有效,事实的演变遵循时间顺序。动态网络Embedding也启发了时间知识图谱的Embedding。例如同时捕获时间拓扑结构和学习时间特征交互的时间知识图谱注意力(TGAT)网络,可能有助于保持知识图谱的感知关系。

A. Temporal Information Embedding

时间四元组 ( h , r , t , τ ) (h,r,t, \tau) (h,r,t,τ),其中 τ \tau τ提供有关事实成立时间的附加时间信息。Leblay和Chekol研究了基于时间注释三元组的时间范围预测,并简单扩展了现有的Embedding方法,如TTransE定义为:
f τ ( h , r , t ) = − ∣ ∣ h + r + τ − t ∣ ∣ L 1 / 2 f_\tau(h,r,t)=-||\mathbf{h+r+\tau-t}||_{L_1/2} fτ(h,r,t)=∣∣h+r+τtL1/2
Ma等人提出了ConT,使用时间戳Embedding替换Tucker的共享权重向量。时间范围四元组添加 [ τ s , τ e ] [\tau_s,\tau_e] [τs,τe]扩展三元组,其中 τ s \tau_s τst a u e tau_e taue分别代表三元组有效周期的开始和结束,在给定时间戳下,可以从动态知识图谱中导出静态子图 G τ G_\tau Gτ。HyTE将时间戳作为超平面 w τ \bf w_\tau wτ,并将实体和关系表示投影为 P τ ( h ) = h − ( w τ ⊤ h ) w τ P_\tau(\bf{h})=\bf{h}-(\bf{w_\tau^\top h)w_\tau} Pτ(h)=h(wτh)wτP τ ( t ) = t − ( w τ ⊤ t ) w τ P_\tau(\bf{t})=\bf{t}-(\bf{w_\tau^\top t)w_\tau} Pτ(t)=t(wτt)wτ以及 P τ ( r ) = r − ( w τ ⊤ r ) w τ P_\tau(\bf{r})=\bf{r}-(\bf{w_\tau^\top r)w_\tau} Pτ(r)=r(wτr)wτ。时间投影的评分函数计算为:
f τ ( h , r , t ) = − ∣ ∣ P τ ( h ) + P τ ( r ) − P τ ( t ) ∣ ∣ L 1 / 2 f_\tau(h,r,t)=-||P_\tau(\bf{h})+P_\tau(\bf{r})-P_\tau(\bf{t})||_{L_1/2} fτ(h,r,t)=∣∣Pτ(h)+Pτ(r)Pτ(t)L1/2
Garc ́ıa-Dur ́an等人连接谓词token序列和时间token序列,并使用LSTM对连接的时间感知谓词序列进行编码。LSTM最后隐藏状态被视为时间感知关系嵌入 r t e m p r_{temp} rtemp。Liu等人通过将实体 e e e的上下文定义为包含 e e e的一组事实集合,提出上下文选择以捕获有用的上下文,并评估与所选上下文的时间一致性。通过将时间KGC制定为四阶张量补全,Lacroix等人提出TComplEx,这是对ComplEx的分解,并引入了加权正则化器。

B. Entity Dynamics

现实世界的事件改变实体的状态,从而影响相应的关系。为了改进时间范围推断,上下文时间剖面模型将时间范围问题表述为状态改变检测,并利用上下文学习状态和状态变化向量。受到动态词嵌入(diachronic word embedding)的启发,Goel等人将实体和时间戳作为实体嵌入函数的输入,以保留实体在任何时间点的时间感知特性。Know-evolve是一个深度进化知识网络,研究实体的知识进化现象及其进化关系。多变量时间点过程用于模拟事实的发生,同时开发一种新颖的循环网络来学习非线性时间进化的表示。为了捕获节点之间的交互,RE-NET通过基于RNN的时间编码器和邻域聚合器对事件序列进行建模。具体来说,RNN用于捕获时间实体交互,邻域编码器用于集合并发交互。

C. Temporal Relational Dependency

遵循时间线的关系链存在时间依赖性,比如“出生在”-》“毕业于”-》“工作于”-》“死于”。Jiang等人提出时间感知嵌入,这是一种具有时间正则化的联合学习框架,用于结合时间顺序和一致性信息。时间得分函数定义为:
f ( ⟨ r k , r l ⟩ ) = ∥ r k T − r l ∥ L 1 / 2 f(\left \langle r_k,r_l \right \rangle)=\left \| {\bf{r}}_k{\bf{T}}-{\bf{r}}_l\right \|_{L_{1/2}} f(rk,rl)=rkTrlL1/2
对于时间顺序关系对 ⟨ r k , r l ⟩ \left \langle r_k,r_l \right \rangle rk,rl来说, T ∈ R d × d T \in \mathbb{R}^{d×d} TRd×d是一个非对称矩阵,编码关系的时间顺序。线性整数规划公式进一步应用了不相交、排序和跨度的三个时间一致性约束。

D. Temporal Logical Reasoning

为了进行时间推理,逻辑规则也被研究。Chekol等人探索了马尔科夫逻辑网络和概率软逻辑,用于推理不确定时间知识图谱。RLvLR -Stream考虑了时间近路径规则,并且从知识图谱流中学习规则的结构用于推理。

VI. KNOWLEDGE-AWARE APPLICATIONS

丰富的结构化知识可用于人工智能应用。然而,如何将这些符号知识集成到实际应用程序的计算框架中仍然是一个挑战。知识图谱应用包括两方面:

  1. KG内部应用,链接预测和命名实体识别;
  2. KG外部应用,关系抽取和问答、推荐等更下游知识。

A. Language Representation Learning

如何将知识整合到语言表示中越来越受到关注。知识图谱语言模型(KGLM)通过选择和复制实体来学习呈现知识。ERNIE-Tsinghua通过聚合预训练和随机masking来融合信息实体。K-BERT将领域知识注入BERT上下文编码器中。ERNIE-Baidu引入命名实体掩码和短语掩码以将知识集成到语言模型中,并通过持续的多任务学习ERNIE2.0进一步改进。为了从文本中获取事实只是,KEPLER使用联合优化,结合了知识Embedding和被掩码的语言建模损失。GLM提出一种图形引导的实体掩码方案来隐式利用知识图谱。CoLAKE通过统一的词知识图谱和改进的Transformer编码器进一步利用实体的上下文知识。Petroni等人分析了语言模型和知识库,发现可以通过预训练语言模型获得某些事实知识。

B. Question Answering

基于知识图谱的问答系统 (KG-QA) 使用知识图谱中的事实回答自然语言问题。基于神经网络的方法在分布式语义空间中表示问题和答案,有些还为常识推理进行符号知识注入。

  • 单一事实问答:把知识图谱作为外部知识来源,单一事实问答是回答涉及单个知识图谱事实的简单问题。Dai等人提出条件集中网络,配备集中剪枝以减少搜索空间。BAMnet使用双向注意力机制对问题和知识之间的双向交互进行建模。
  • 多跳推理:处理复杂的多跳关系需要一个更专用的设计才能进行多跳常识推理。结构化知识提供了信息丰富的常识观察,并充当了关系归纳偏差,这促进了最近对符号空间和语义空间之间的常识知识融合进行多跳推理的研究。Bauer等人提出多跳双向注意力机制和指针生成解码器,用于有效的多跳推理和连贯的答案生成,通过从ConceptNet选择关系路径和选择性门控注意力注入来利用外部常用知识。变分推理网络使用推理图嵌入进行多跳逻辑推理,同时处理主题实体识别中的不确定性。KagNet执行概念识别,以从ConceptNet构建模式图,并通过GCN、LSTM和基于路径的分层注意力学习基于路径的关系表示。CogQA结合了隐式提取和显式推理,提出了一种基于BERT和GNN的认知图模型,用于多跳问答。

C. Recommender Systems

将知识图谱作为外部信息集成,使推荐系统具备常识推理能力,有望解决稀疏问题和冷启动问题。通过注入知识图谱的辅助信息,许多工作致力于基于Embedding的正则化以改进推荐。协作CKE通过平移KGE模型和堆叠自动编码器联合训练KGE、商品的文本信息和视觉信息。注意到时间敏感和主题敏感的新闻文章由压缩的实体和常识组成,DKN通过具有多通道词实体对齐文本输入的知识感知 CNN 模型整合知识图谱。然而DKN不能以端到端的方式训练,因为它需要提前学习实体嵌入。为了实现端到端的训练,MKR通过共享潜在特征和建模高阶商品实体交互来关联多任务知识图谱表征和推荐。当其他工作考虑知识图谱的关系路径和结构时,KPRN将用户和商品之间的交互视为知识图谱中的实体关系路径,并使用LSTM对该路径进行偏好推理以捕获顺序依赖性。PGPR对基于知识图谱用户商品交互执行强化学习策略引导的路径推理。KGAT在实体关系用户-商品协作知识图谱上应用图注意力网络,通过嵌入传播和基于注意力的聚合来编码高阶连接。基于知识图谱的推荐在知识图谱中通过嵌入传播与多跳邻居来固有地处理可解释性。

VII. FUTURE DIRECTIONS

A. Complex Reasoning

用于知识表示和推理的数值计算需要一个连续的向量空间来捕获实体和关系的语义。虽然基于Embedding的方法在复杂的逻辑推理上存在局限性,但是关系路径和符号逻辑两个方向值得进一步研究。一些有前途的方法,如递归关系路径编码、基于 GNN 的知识图谱消息传递以及基于强化学习的寻路和推理,在处理复杂推理方面很有前途。对于逻辑规则和嵌入的组合,一些工作将马尔科夫逻辑网络与KGE相结合,旨在利用逻辑规则并处理它们的不确定性。通过有效嵌入实现概率推理以捕获不确定性和领域知识将是一个值得注意的研究方向。

B. Unified Framework

知识图谱上的几种表示学习模型已被验证为等价的,比如Hayashi和Shimbo证明了HolE和ComplEx在数学上等同于具有特定约束的链路预测。大多数工作分别用不同的模型制定知识获取KGC和关系抽取。Han等人提出了一个相互关注的联合学习框架,用于知识图谱和文本之间的信息共享。较少探索对知识表示和推理的统一理解。以类似于图网络统一框架的方式对同一进行调查,将值得弥补研究差距。

C. Interpretability

知识表示和注入的可解释性是知识获取和实际应用的重要问题。现有的神经模型虽然取得了令人印象深刻的性能,但是在透明度和可解释性方面存在局限性。一些方法结合逻辑规则增加可解释性。进一步的工作应该放在可解释性上同时提高预测知识可靠性。

D. Scalability

可扩展性在大规模知识图谱中至关重要。计算效率和模型表达能力之间进行权衡,一些Embedding方法用于简化降低计算成本,例如使用循环相关运算简化张量运算。然而,这些方法仍然难以扩展到数百万个实体和关系。
当前的大规模知识图谱,使用了包括神经搜索,规则归纳等方法,尽管如此,要处理繁琐的深层架构和日益增长的知识图谱,还有很长的路要走。

E. Knowledge Aggregation

全球知识的聚合是知识感知应用的核心。例如,推荐系统使用知识图谱对用户-商品交互以及文本分类联合建模,以将文本和知识图谱编码到语义空间中。大多数当前的知识聚合方案都设计了注意力机制和GNN等神经架构,通过 BERT 模型等转换器和变体进行的大规模预训练推动了自然语言处理社区的发展。同时,最近的一项发现揭示了非结构化文本上的预训练语言模型可以获得某些事实知识。大规模预训练可以是注入知识的直接方式。然而,以有效和可解释的方式重新思考知识聚合的方式也很重要。

F. Automatic Construction and Dynamics

目前的知识图谱高度依赖人工构建,劳动强度大,成本高。知识图谱在不同认知智能领域的广泛应用需要从大规模非结构化内容中自动构建知识图谱。最近的研究主要是在现有知识图谱的监督下进行半自动构建。面对多模态、异构和大规模应用,自动化构建仍然面临巨大挑战。
主流研究集中在静态知识图谱上,有几项工作涉及预测时间范围有效性以及学习时间信息和实体动态。许多事实仅在特定时期内成立。动态知识图与捕获动态的学习算法一起,可以通过考虑时间特性来解决传统知识表示和推理的局限性。

VIII. CONCLUSION

随着最近出现的知识表示学习、知识获取方法和各种知识感知应用,知识图谱作为人类知识的集合引起了越来越多的研究关注。论文从以下四个方面进行了综合考察:

  1. 知识图谱嵌入,从嵌入空间、评分指标、编码模型、嵌入外部信息和训练策略进行了全面的系统回顾;
  2. 从嵌入学习、关系路径推理和逻辑规则推理三个角度进行实体发现、关系抽取和图补全的知识获取;
  3. 时间知识图谱表示学习和完成;
  4. 自然语言理解、推荐系统、问答和其他杂项应用程序中的真实世界知识感知应用程序。

此外,介绍和讨论了数据集和开源库的一些有用资源,以及未来的研究方向。

References

https://zhuanlan.zhihu.com/p/135437133
https://blog.csdn.net/qq_36426650/article/details/111665612
https://blog.csdn.net/byn12345/article/details/106128275

阅读总结

对我而言阅读跨度最大的一篇文章,几乎在每一个章节都留有疑惑,主要原因还是对相关内容不熟悉,同时文章很多模型都是文字描述,缺少图片过于抽象。读完这篇文章我最大的收获是在于了解了知识图谱的结构层次,从知识图谱的组成,到应用,再到具体的任务,我有了比较清晰的概念。我更为好奇的是只是图片的表示空间,表示空间的不同,将直接决定知识图谱的表达能力,以及在模型中的效果,这个部分会是我之后比较关注的地方。

【论文精读】A Survey on Knowledge Graphs Representation, Acquisition and Applications相关推荐

  1. AAAI论文摘要【知识图谱补全】:A Survey on knowledge Graphs:Representation,Acquisition and Application

    A Survey on knowledge Graphs:Representation,Acquisition and Application 主要思路 全面回顾 知识图谱表示学习 知识图谱推理 全视 ...

  2. 论文阅读笔记—Reasoning on Knowledge Graphs with Debate Dynamics(AAAI,2020)

    这是一篇非常有趣的工作,看完会觉得眼前一亮. 论文标题:Reasoning on Knowledge Graphs with Debate Dynamics 发表于AAAI,2020 动机  很多机器 ...

  3. 【VQ-VAE论文精读+代码实战】Neural Discrete Representation Learning

    [VQ-VAE论文精读+代码实战]Neural Discrete Representation Learning 0.前言 Abstract 1.Introduction(提出现有方法的问题并说明有哪 ...

  4. 【论文阅读笔记】Multi-modal Knowledge Graphs for Recommender Systems

    Multi-modal Knowledge Graphs for Recommender Systems 1.背景 现有的推荐系统主要分为两种方法,基于内容和协同过滤. 基于内容的方法是针对user- ...

  5. A Survey on Knowledge Graph-Based Recommender Systems 知识图谱提升推荐系统准确性与可解释性ArXiv 2020

    论文链接:https://arxiv.org/pdf/2003.00911.pdf 导读 近来,知识图谱用于推荐系统是关注的焦点,能够提升推荐系统的准确性与可解释性.如何将知识图谱融入到推荐系统呢? ...

  6. [论文学习]TDN: An Integrated Representation Learning Model of Knowledge Graphs

    [论文学习以及翻译]TDN: An Integrated Representation Learning Model of Knowledge Graphs 文章主要内容 摘要 前言 相关工作 基于T ...

  7. [论文阅读笔记17]A Survey on Knowledge Graph-Based Recommender Systems

    一,题目 TKDE 2020 A Survey on Knowledge Graph-Based Recommender Systems 综述:基于知识图谱的推荐系统 In IEEE Transact ...

  8. 知识图谱论文阅读(十五)【arxiv】A Survey on Knowledge Graph-Based Recommender Systems

    论文题目: A Survey on Knowledge Graph-Based Recommender Systems 论文链接: 论文代码: 想法 出现Refine就是用某些方法更好的优化特征表示 ...

  9. 【论文翻译|2021】A survey on heterogeneous network representation learning 异构网络表示学习综述

    文章目录 摘要 1引言 2 相关工作 3 相关概念 4 分类 4.1 异构信息网络表示方法概览 4.2 异构信息网络嵌入算法的分类 4.3 基于路径的算法 4.3.1 传统的机器学习 5 讨论 5.1 ...

最新文章

  1. node mongoose_如何使用Express,Mongoose和Socket.io在Node.js中构建实时聊天应用程序
  2. rand生成随机数的范围_JS中生成指定范围随机数
  3. 现代儿童亟待满足的八种需要
  4. 网络基石 —— ADSL
  5. luogu P1080 国王游戏
  6. oracle dmp 编码问题,Oracle imp导入dmp文件时 IMP-00038:无法转换为环境字符集句柄
  7. c++11:计算时间差(毫秒)
  8. 纯Web前端打造的元宇宙展厅——开箱即用的Lingo3D游戏引擎 支持原生、React、Vue
  9. Win7系统不同程序无法同时播放声音是怎么回事?
  10. 译文:在闭包中使用循环变量是有害的
  11. Win10 内置Intel AC-3165无法开启热点 解决
  12. 【SpringMVC】@RequestMapping和@GetMapping的区别
  13. Kotlin学习笔记(十一)Sealed类和Sealed接口
  14. Mobileye在耶路撒冷启动自动驾驶测试,挑战极限路况
  15. No.84 柱状图中最大的矩形
  16. python线性回归算法
  17. EST,EDT和GMT时区转换
  18. Mac文件丢失如何找回?快来看它!
  19. miniPCIe接口CAN卡及其使用特点
  20. 【python】asq-queryable(1)

热门文章

  1. 文件句柄占用问题排查经历
  2. 王者服务器维护5月1日,2018王者荣耀5月3日更新维护公告 5月3日更新了内容汇总...
  3. 成语答题小程序运营系列二
  4. 学习光线追踪(19)---光源[1]
  5. xacro搭建ros仿真机器人(待更新)
  6. 关于Maven项目打包时没有资源文件的问题
  7. 三维家发生工商变更:注册资本减少46%,美凯龙、阿里等股东退出
  8. 海藻酸钠-聚乙二醇-透明质酸|Hyaluronicacid-PEG-alginate
  9. 大学四年规划之印刷工程专业
  10. Spring(九)AOP