Error detection in Knowledge Graphs: Path Ranking, Embeddings or both?

  1. 错误的三元组本质上是对象s与对象o(两者均为E)之间的错误边缘,关系r∈R将它们连接在一起。
  2. PaTyBRED:PRA启发式算法,使用路径作为特征,将路径定义为关系r1→r2→...→rn的序列。
  3. TransE:给定三元组(s,r,o)是正确的,则主题s和关系r可以与对象o连接,且误差很小,这意味着s + r≈o。递归地最小化使用上述能量函数和负采样进行训练的成对评分函数
  4. Confidence-aware KRL (CKRL):认知感知的KRL框架,在TransE模型的成对损失函数中注入了三元组置信度C(s,r,o),旨在学习更好的知识表示。
  5. PTransE:CKRL方法的前身,它使用路径来引导嵌入,其方式与CKRL不同。
  6. 路径排序引导嵌入(PRGE):混合方法。

PPT

知识图中的错误检测:路径排名,嵌入还是两者?


Problem Formulation

首先,将知识图G定义为一组三元组。 每个三元组都遵循(s,r,o)的形式,其中(s,o)∈E是实体,而r∈R是绑定它们的关系。

假设知识图G也包含一定比例的噪声N%,这表示G中的三元组中有N%是错误的。

这些错误的三元组本质上是对象s与对象o(两者均为E)之间的错误边缘,关系r∈R将它们连接在一起。

因此,论文的目标是找到一种方法来查明G中的这些错误。


Methods Employed

PRA启发式算法,在错误检测的上下文中使用此,

该算法的概念是将这些路径用作确定给定三元组是否为噪声的特征。

PaTyBRED使用路径作为特征,将路径定义为关系r1→r2→...→rn的序列。

如果存在实体x1,x2,...,xn-1,则对象s和对象o可以通过路径P(s,o)连接,使得P(s,o)= r1(s,x1)→ ...→ri(xi-1,xi)→...→rn(xn-1,o)。

修剪路径后,将填充NR功能表,其中NR是关系数。

在使用NR个不同的分类器(每个关系一个)之后,为每个三元组确定一个值[0-1]的置信度分数,而表示噪声的分数较低。


给定三元组(s,r,o)是正确的,则主题s和关系r可以与对象o连接,且误差很小,这意味着s + r≈o。

TransE递归地最小化使用上述能量函数和负采样进行训练的成对评分函数

其中l1 | 2表示L1范数或L2规范。主体,关系和客体之间的拟合度越高,能量函数的值越小。实体和关系的嵌入是通过培训学习的。

其中E + = E(s,r,o)是来自数据集S +的正三元组,E- = E(s`,r,o`)是通过随机采样生成的来自负集S`的负三元组的能量函数得分,而γ是余量的超参数。

[x] +表示x的正部分,

因为此损失函数为最大余量。


认知感知的KRL框架,在TransE模型的成对损失函数中注入了三元组置信度C(s,r,o),旨在学习更好的知识表示。

三元组置信度C( s,r,o)度量将模型的能力最高保持三倍,当C(s,r,o)较大时,损失函数受特定三元组的影响很大,而不是分数较小的三元组。

C(s,r,o)的值通过局部三元组置信度(LT)度量获取局部特征,并通过先验路径置信度(PP)和自适应路径置信度(A​​P)捕获全局特征。

在评估中,除CKRL外,还使用了PTransE方法,这是CKRL方法的前身,它使用路径来引导嵌入,其方式与CKRL不同。


提出了路径排序引导嵌入(PRGE)的这种混合方法。

PRGE方法概述。

路径置信算法产生置信度: 检索三元组之间的路径,训练路径特征分类器,产生三元组的路径排名分数

通过置信度分数指导嵌入: 嵌入能量函数中的路径排名得分,产生图形嵌入


从CKRL损失函数可以明显看出,TransE能量函数和CKRL置信度度量处于同一数量级。置信度分数值将在训练过程中影响每个主题,对象和关系嵌入的程度。

利用置信度评分和成对的最大利润损失函数(2)在训练嵌入过程中发挥的作用。

将CKRL的三元组置信度C(s,r,o)度量替换为路径排序方法的置信度度量P(s,r,o),同时添加一个参数λ以缩放路径排名值的重要性.


Experiments

WN18:WN18数据集是Wordnet的子集,并被用作多项研究的基准,Wordnet是一个英语数据库,可以看作是字典,也可以是同义词库。

FB15k:Freebase的子图,Freebase是一个大规模的协作知识库,其中包含有关现实世界的一般事实。

为了证明在实际应用中对错误检测方法的需求,尝试了在iASiS项目的背景下创建的知识图谱。为了满足项目的需求,使用自动工具从PubMed1中与痴呆(Dementia)症相关的出版物摘要中提取了生物医学实体之间的关系。


需要KG中存在噪声

生成了具有不同百分比噪声水平的新数据集,以模拟自动构造的现实世界知识图。

通过破坏s或o来产生一个嘈杂的噪声。

对于FB15K知识图,其中噪声的生成受到限制,因为新的主题s`或对象o`应该以相同的关系r出现在数据集中。此约束集中于针对任何方法生成更难,更混乱的噪声。

相反,在WN18和痴呆症KGs上进行了随机抽样,没有任何限制,以比较和对比不同噪声类型的不同方法和数据集。

出于训练目的,所有错误都被标记为正值。

这意味着对方法的评估将基于它们对每个KG发现的隐藏错误的有效性。


评估协议

基于此能量函数得分的所有三元组。 三元组的能量值的值越小,则三元组的有效性越高。

希望错误的三元组比初始正确的三元组具有更大的价值。

为了衡量这一点,使用滤波后的平均排名(fMR)和滤波后的平均倒数排名(fMRR)

在将能量函数得分在[0-1]区间内归一化之后,使用ROC曲线下面积(AUC)进一步检查算法将噪声分类为错误的程度。

值接近0表示正确的三元组,而值接近1表示错误的三元组。对于fMR,fMRR和AUC的值越低越好。


根据每个数据库的比率估算的错误数


关于PaTyBRED,作者强调,最大路径长度(从主体到对象所需的最大跳数)设置为2。每长度的最大路径数设置为1000。

在所有嵌入方法中,使用d = 50作为嵌入尺寸。

由于CKRL和TransE使用此特定值,因此将裕度γ设置为1.0,并使用值{0.001,0.01,0.05}测试学习率。

尽早停止使用以确定最佳模型。

关于PRGE方法的标度值λ,使用λ= 5,得出在搜寻一小部分可能值之后,在所有资料集上取得最佳结果。


错误检测实验

1)WN18数据集:表3可以看出,提出的PRGE规模化方法在所有其他方法上的表现均优于其他方法


错误检测实验

2)FB15k数据集:在错误检测中,PaTyBRED的性能比几乎任何基本的嵌入方法都要好,这表明此处潜在的主要因素是数据集大小(请参见表1)和不同的错误推算方法。但是,PRGE缩放方法在fMRR指标上表现更好,表明它可以将明显的错误三元组与其他三元组更好地分开。此外,PRGE缩放方法的性能要优于所有其他基于嵌入的方法。


错误检测实验

3)痴呆症数据集:首先,如表1和5.1所示,鉴于可用实体和关系的数量,知识图非常稀疏。此外,由于该数据集在创建过程中会自动进行提取,因此甚至在噪声插补过程之前也存在噪声。这样,实际噪声水平远高于其他数据集。因此,鉴于连接失真和实际噪声水平高得多,预计痴呆症数据集将提出更具挑战性的错误检测任务。

从表5中可以看出,可以发现对于所有方法来说,错误检测都是非常困难的,而与方法和方法无关。

尽管PaTyBRED在排名指标上稍好一些,但PRGE缩放方法获得了更好的AUC评分,这表明,在比较实际和嘈杂的三元组时,平均而言,它可以比其他模型表现更好。

随着噪声比的增加,它也可以更好地扩展,这在WN18数据集中也可以看到。在N3数据集中,PRGE可以比每种方法获得更好的fMR评分,这表明在存在大量噪声的情况下(大多数自动生成的KG几乎都是这种情况),它可以比最新方法更好。

4)噪声的影响:当噪声水平从N1上升到N3时,无论所有表中的数据集如何,所有模型的性能都会下降。但是,PRGE的模型最健壮,尤其是与其他嵌入方法相比时,其性能波动要小得多。

5)PRGE缩放效果:λ缩放的PRGE方法比未缩放的方法效果更好。

6)PTransE性能:PTransE的性能都比TransE差。

两个主要优点:•模块化:所提出的PRGE方法与潜在的能量函数和三重评分机制无关。

•鲁棒的嵌入:与PRA方法相反,后者仅对每个三元组提供一个置信度分数,而PRGE方法将生成由该置信度分数训练和指导的嵌入。


三元组分类实验:证明抗噪嵌入在下游任务中的有用性,为了分类三元组是否有效,针对每个关系r引入了一个阈值τr。

随着噪声比变大,PRGE方法的性能要优于其他方法。

PRGE缩放方法始终优于CKRL和PTransEonall噪声,表明使用路径排名分数来训练嵌入会产生更好的结果。

在痴呆症数据集上也观察到了同样的情况,在所有噪声水平上,PRGE-Scaled的表现均优于CKRL,PTransE和PRGE。

最终,可以看到,在嵌入的训练过程中,利用PRGE框架合并错误估计分数,实际上对生成噪声鲁棒嵌入的其他下游任务有所帮助。


痴呆症数据集的定性结果

对模型给出的预测进行了定性分析。

进行穿刺以检测知识图中的实际噪声。

首先,如模型所预测的,获取了得分最高的前100个三元组。还从发现这些三元组的出版物中获取了准确的文本摘要。

向三位自然语言处理和生物信息学领域的人类专家介绍了这些三元组以及相应的文本。要求他们在给定相应文本内容的情况下评估三元组的质量,以及提取的信息有多有用。

注释者评估的结果可以在图2中看到

对于所有注释者,给定上下文,这些三元组中有超过85%似乎是错误的。另一方面,在所有注释器中,得分最低的三元组中只有8%正确。这表明预测的高精度,并使对模型的评分相当确信。

这些示例展示了区分所犯错误类型以及在噪声图中进行此类分析的附加值的重要性。


痴呆症数据集的定性结果

错误类别中得分最低的三元组,每个类别中有两个,以及错误的类型和从中提取的初始文本。

Error detection in Knowledge Graphs: Path Ranking, Embeddings or both?-学习笔记相关推荐

  1. Object Detection Meets Knowledge Graphs

    Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17) ...

  2. Improving Multi-hop Question Answering over Knowledge Graphs usingKnowledge Base Embeddings

    题目:使用知识库嵌入改进知识图上的多跳问答 作者:Apoorv Saxena. Aditay Tripathi.Partha Talukdar 发布地方:ACL 面向任务:知识图谱问答 论文地址:ht ...

  3. Java NIO 学习笔记(五)----路径、文件和管道 Path/Files/Pipe

    目录: Java NIO 学习笔记(一)----概述,Channel/Buffer Java NIO 学习笔记(二)----聚集和分散,通道到通道 Java NIO 学习笔记(三)----Select ...

  4. 《Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs》论文阅读笔记

    <Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs>论文阅读笔记 主要挑战贡献: KG上的推理挑战主要 ...

  5. 论文解读:Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings

    论文解读:Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings    ...

  6. 【实体对齐·综述】A Benchmarking Study of Embedding-based Entity Alignment for Knowledge Graphs

    文章目录 模板的简述 简述 1.Introduction 2. preliminatries 2.1 literature review 2.1.1 knowledge graph embedding ...

  7. 【知识图谱综述】Knowledge Graphs: A Survey

    知识图谱综述 本文主要在阅读文章Knowledge Graphs. ACM Comput. Surv., 54(4): 1–37. 2021的基础上进行归纳总结,涉及原理知识较浅,旨在帮助对知识图谱进 ...

  8. cs224w(图机器学习)2021冬季课程学习笔记12 Knowledge Graph Embeddings

    诸神缄默不语-个人CSDN博文目录 cs224w(图机器学习)2021冬季课程学习笔记集合 文章目录 1. Heterogeneous Graphs and Relational GCN (RGCN) ...

  9. 【论文精读】A Survey on Knowledge Graphs Representation, Acquisition and Applications

    A Survey on Knowledge Graphs Representation, Acquisition and Applications 前言 Abstract 1. INTRODUCTIO ...

最新文章

  1. android ViewPager使用遇到的问题
  2. linux下phpMyAdmin泛起1045 - Access denied for 的措置
  3. (44)MessageBoxA 监视器(过写拷贝,不使用 shellcode 注入)
  4. 使用远程工具连接提示**Host *** is not allowed to connect to this mysql server**拒绝连接错误
  5. 复合主键 复合外键_复合双重错误
  6. oracle的连接函数,Oracle各种连接函数总结
  7. Leetcode 335. 路径交叉(Self Crossing)
  8. python sql注入脚本_python辅助sql手工注入猜解数据库案例分析
  9. 折叠list ExpandableList+ BaseExpandableListAdapter 自定义 折叠列表
  10. 关于Websockets问题:
  11. JAVA语言程序设计(基础篇)第十版课后题答案(第一章)
  12. 离散数学杜忠复版答案_离散数学 杜忠复 陈兆均
  13. 计算机二级英语简历里怎么写,简历计算机水平怎么写
  14. 常见面试问题整理(考研复试面试/计算机408+数据库基础概念)
  15. 基于单片机的智能窗帘系统设计(#0408)
  16. 一文搞定权限设计模型(RBAC,ABAC)超详细图文解析
  17. 如何把小米和计算机共享,小米随身Wifi如何让手机共享电脑文件 小米wifi共享电脑文件教程...
  18. Redis大Key优化
  19. 华为服务器图片无法显示,服务器的图片无法显示
  20. 汽车电子功能安全标准ISO26262解析(五)——FTA

热门文章

  1. 剑指offer 树的子结构
  2. 向量时钟Vector Clock in Riak
  3. spark:sortByKey实现二次排序
  4. 美团点评CTO罗道锋确认离职,新东家是快手?
  5. 电子邮件收发原理和实现(POP3, SMTP)
  6. 关于purge master logs的一个小实验
  7. android实现类似于支付宝余额快速闪动的效果
  8. lame,把ios录音转换为mp3格式
  9. 可视化图形(二):热力图-imshow()
  10. PHP 入门 - 3.字符串