论文浅尝 - ECIR2021 | 两种实体对齐方法的严格评估
笔记整理 | 谭亦鸣,东南大学博士生
来源: ECIR 2021
在这篇工作中,作者对两种SOTA实体对齐方法做了广泛的研究:首先仔细分析了现有benchmark的过程,并论证了其中存在一些缺陷,使得原始方法给出的实验结果之间可能存在不可对比的情况;另一方面,作者怀疑存在一种普遍的直接对测试集做超参数优化的处理,这种情况将会导致论文发表的实验性能的可靠性(价值)不那么高。因此,本文筛选了一种具有代表性的benchmark数据集样本,分析它的特征,同时,考虑到实体的表示对于系统性能的决定性影响,作者对实体表示的不同初始化方案也进行了测试。进一步的,作者使用共同的训练/验证/测试集在所有数据集和所有方法上进行了实验评估,从结果上看,虽然大多数情况下,SOTA方法都优于baseline,但是当数据集包含噪声时,则出现明显性能下降。
首先作者对现有方法的共性做了说明:
1.大多数方法基于GNN
2.使用基于表示学习的实体名特征
3.考虑了KG中不同类型的关系(在预处理过程中聚合不同类型的关系)
基于这些共性,作者选择了在近期工作中效果较好的关系感知-双图卷积网络(RDGCN),此外,也引入了深度图匹配共识(DGMC)出于以下两个因素:i.前面提到的工作未提到该方法 ; ii.在该方法没有使用关系类型信息的条件下,取得了非常好的性能。
实体对齐数据集分析:
表1列举了目前实体对齐任务所使用的公开数据集:
DBP15K:目前最流行的对齐评价数据集,包含来自DBpedia的三个子集(语言对),数据集存在多个涵盖共享对齐实体的变体,所有的对齐均为1->1的情况,从数据集的构建方法来看,除共享实体之外的其他实体(排他实体?exclusive entity)之间不存在关系,导致这些实体的匹配过程复杂化,在实际应用中,它们也难以被确定。因此作者认为该数据集仅在一定程度上反映了部分真实用例。此外,作为PyTorch Geometric资源的一部分,DBP15k的另一个变体具有不同的对齐实体集,这就导致了这些已发布的方法之间并不能直接的对比它们之间的性能。因此,为了解决这个问题,作者使用了一个更小的JAPE变体,每个图谱包含19-20k实体。
OpenEA由基于度分布的采样方法从DBpedia,YAGO以及Wikidata中获取的KG pairs,其对齐也是1->1匹配,其中不包括exclusive entity,本文使用所有的KG pairs包含15k的实体。
WK3l15k是从维基百科提取的多语言KG pairs,作者也额外从平行三元组中抽取了对齐实体,图谱包含补充的exclusive entity,并且存在m->n的匹配情况。作者也是使用了15k规模的样本,每个KG包含15k左右的实体,语言对为英-德和英-法。
基于标注的初始化方法
Prepared translations:DBP15k数据集中命名实体一般先翻译为英语,然后使用Glove进行向量化处理;
Prepared RDGCN embeddings:OpenEA考虑到DBpedia与YAGO来自相似的数据源,它们的label往往是对等的。对于这类KG pairs,作者的做法是将这些label删去。然而RDGCN需要基于label的初始化,因此作者通过预定义的命名属性给出属性三元组,从而获取label。当无法通过属性找到label的时候则会选择使用实体的url替代。
Multilingual-BERT:WK3l15K上并没有实体嵌入相关的工作,因此这里作者使用M-BERT预训练模型处理这个部分,并使用最后四层之和为字符表示,并研究了总和,均值以及最大聚合作为超参数的情况。
实体对齐方法
本文主要评估了两种对齐方法:RDGCN以及DGMC。
与所有GNN方法类似,两个模型均采用了Siamese体系,因此对于所有的KG都使用了相同的模型以及相同的权重处理实体向量表示。得到实体表示之后,对齐方法计算一个affinity矩阵用于描述两个图谱上的实体之间的相似度。
RDGCN
RDGCN模型包括:
1.relation-aware message passing;
模型学习关系的重要性,并对由这些关系连接的对应实体的信息进行加权。
包含四个步骤(:
a.从实体表示获取关系文本,对于每个关系提取其上下文用于连接头尾实体平均表示;
b.DA表示对偶图注意机制,通过ReLU激活函数计算其注意力得分;
c.更新实体的表示;
d.应用一个从初始化表示到当前实体表示的跳跃连接;
2.standard message passing
利用一个邻接矩阵反映两个实体之间是否存在关系。
该部分由一系列的GCN层以及highway层构成,每层都通过以下方式运算:
DGMC
DGMC也包含两个部分:
1.enrichment
通过一系列GNN层利用邻居信息强化实体表示:
每层的计算方式为:
2.correspondence refinement
该部分首先针对每个实体计算其他子图中最接近的匹配,通过稀疏对应关系矩阵表示,而后对每个实体随机生成向量,并将它们发送到可能的匹配项。
实验
实验设置
评价的标准使用Hits@1,衡量匹配实体top-1的准确性
考虑到过去的工作中没有一个统一的训练-验证划分,因此这里作者建立了一个标准训练验证测试的子集划分(70%用于测试,24%用于训练,6%用于验证),从而进行一个公平对比。
作者继续调整了每个数据集上各模型的参数设置,并采用了上述初始化方案(超参设置如表3)
模型训练的early stop条件基于Hits@1确定,并最终选出验证集上最好的模型进行测试比对(实验结果见表4)
首先从zero-shot的结果看,即使是最弱的环境(openEA 39.15%),单纯使用实体命名表示也是能够具有一定的准确性,因此与不使用该信息的模型进行对比是不公平的。在DBP15k上,可以看到Wu的初始化策略比Xu要强7%-9%。
模型性能对比
可以看到两者在三个数据集上均优于基线模型,但两者之间却没有明显的优劣差异。虽然DGMC与预期结果相比有所降低,但是在几乎所有的DBP15K子集上,均有一定性能优势,这论证了较小的测试集可能导致更好的实验结果。
此外,不同的初始化也回影响模型的性能,尤其反映在DGMC(ja-en)以及GCN-Align(fr-en)。RDGCN在OpenEA子集上具有明显优势。
WK3L15k数据集的结果是值得关注的例外,DGMC方法的性能因其对应关系的细化而被认为对噪声具有鲁棒性,但它的性能并不优于zero-shot结果。
可以得到结论,对于基于GNN的实体对齐方法来说,其性能的主要影响还是来自超参数。
表5给出了OpenEA上对于RDGCN模型参数的消融实验结果:
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 网站。
论文浅尝 - ECIR2021 | 两种实体对齐方法的严格评估相关推荐
- 论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法
来源: IJCAI2018 链接: https://www.ijcai.org/proceedings/2018/0556.pdf 动机 近年来,随着多语言知识图谱嵌入(Multilingual KG ...
- 论文浅尝 - COLING2020 | 一种用于跨语言实体对齐的上下文对齐强化跨图谱注意力网络...
笔记整理 | 谭亦鸣,东南大学博士生 来源:COLING 2020 链接:https://www.aclweb.org/anthology/2020.coling-main.520.pdf 本文发现, ...
- 论文浅尝 - ACL2020 | 一种用于关系三元组提取的级联二进制标记框架
论文笔记整理:窦春柳,天津大学硕士. 链接:https://arxiv.org/pdf/1909.03227.pdf 动机 首先作者提出了问题,传统的关系抽取是不能很好的解决三元组重叠,如下图.从图中 ...
- 论文浅尝 | 用于嵌套命名实体识别的二部平面图网络(BiFlaG)
笔记整理 | 栾岱洋,东南大学 来源:ACL 2020 链接:https://www.aclweb.org/anthology/2020.acl-main.571.pdf 本文提出了一种可以实现重叠主 ...
- 论文浅尝 | 知识图谱相关实体搜索
本文转载自公众号:南大Websoft. 相关搜索(Relevance Search)是信息检索中的一个经典问题,相关搜索是指给定一个查询实体,返回与其相关度最高的实体(一个类似的问题Similarit ...
- 论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习
本文转载自公众号:PaperWeekly. 作者丨罗凌 学校丨大连理工大学博士生 研究方向丨深度学习,文本分类,实体识别 联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然 ...
- 论文浅尝 | NumNet: 一种带有数学推理的机器阅读理解模型
论文笔记整理:吴林娟. 来源:EMNLP2019 论文链接:https://arxiv.org/pdf/1910.06701.pdf 开放源码:https://github.com/ranqiu92/ ...
- 论文浅尝 | DEER:解释实体关系的描述性知识图谱
笔记整理:王润哲,东南大学硕士,研究方向为多元关系抽取 链接:https://aclanthology.org/2022.emnlp-main.448.pdf 动机 实体关系是知识图谱中不可或缺的一层 ...
- 论文浅尝 | TEQUILA: 一种面向时间信息的知识问答方法
来源:CIKM'18 链接:http://delivery.acm.org/10.1145/3270000/3269247/p1807-jia.pdf?ip=223.3.116.39&id=3 ...
最新文章
- 使用JQuery从客户端调用C#方法
- oracle根据分区移动,Oracle 12c 在线移动分区和部分分区read only
- iOS开发(7)通过uiimageView浅谈UIView
- QT的QMediaPlayer类的使用
- pg 定时删除_PostgreSQL的时间函数使用整理
- 11尺寸长宽 iphone_弱电工程LED显示屏尺寸规格及计算方法
- 【报告分享】2021人才资本趋势报告:重塑时代-BOSS直聘.pdf(附下载链接)
- c语言人事档案管理系统简单的,人事档案统一标准管理系统c语言.doc
- 【日常水题——快速幂系列】
- php图像生成和处理,PHP的gd库(图像生成和处理)的应用
- php 导出vcard,将Android的contacts2.db导出成vcard联系人的方法
- vue 使用高德地图 获取坐标
- matlab 插值出错,MATLAB插值问题
- 全国省市json文件,省市区json文件
- WIN10计算机不支持3D游戏怎么办,教你如何在win10系统中开启3D加速?
- 橡皮筋框QRubberBand Class
- Cadence PCB仿真 使用Allegro PCB SI为BRD文件创建通用型IBIS模型的方法图文教程
- 查看java web日志_java web 日志详细
- 短视频2020,快手、抖音的分化之年
- 西工大计算机上岸经验-双非373