Zhuang Y,Li G, Zhong Z, et al. Hike: A Hybrid Human-Machine Method for Entity Alignmentin Large-Scale Knowledge Bases[C]// ACM, 2017:1917-1926. ( CIKM 2017 )

论文链接:http://dbgroup.cs.tsinghua.edu.cn/ligl/crowdalign.pdf

Motivation

随着语义网络的迅速发展,越来越多的大规模知识图谱公开发布,为了综合使用多个来源的知识图谱,首要步骤就是进行实体对齐(Entity Alignment)。近年来,许多研究者提出了自动化的实体对齐方法,但是,由于知识图谱数据的不均衡性,导致此类方法对齐质量较低,特别是召回率(Recall)。因此,可考虑借助于众包平台提升对齐效果,文章提出了一个人机协作的方法,对大规模知识图谱进行实体对齐。


Framework


方法主要流程如图所示:

首先,通过机器学习方法对知识库进行粗略的实体对齐,然后分别将以对齐实体对(MatchedPairs)和未对齐实体对(UnmatchedPairs)放入众包平台,让人进行判断。两条流水线的步骤类似,主要包括四个部分:实体集划分(EntityPartition)、建立偏序(PartialOrder Construction)、问题选择(QuestionSelection)、容错处理(ErrorTolerance)。

实体集划分的目的是将同类的实体聚类到一个集合,实体对齐只在集合内部进行,集合之间不进行对齐操作。实体集划分的依据是属性,通常同一类实体的属性是相似的。

偏序定义如下:

建立偏序的目的在于找出最具有推理期望(InferenceExpectation)的实体对,偏序集实例如下:

其中,如果P11被判断为Unmatch,则所有偏序小于P11的节点都可以推断为unmatch。反之,如果P45被推断为Match,则所有偏序大于P45的节点都可以推断为Match。

推理期望公式如下:

其中,pre和suc分别表示前驱和后继节点。

对于问题选择,文章提出了两个贪心算法,分别为一次选一个节点以及一次选多个节点。算法如下:

Experiment


数据集:Yago 、 DBPedia

对比方法:PARIS、PBA

众包平台:ChinaCrowds

评估问题选择方法:

可以看到,两个贪心算法差别不大,但是比随机选择性能好。

评估问题集大小:

随着问题集合的增加,精确率、召回率、F值均有提升。

评估实体对齐结果:

实验表明,各项评估指标具有提升,证实了人机协作的有效性,但是MQS算法复杂度太高,导致运行时间过长。

本文作者:罗丹,浙江大学硕士,研究方向:机器学习,知识图谱。



OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment相关推荐

  1. 论文浅尝 | 图神经网络综述:方法及应用

    论文链接:https://arxiv.org/pdf/1812.08434.pdf GNN相关论文列表链接:https://github.com/thunlp/GNNPapers 近日,清华刘知远老师 ...

  2. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

  3. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

  4. 论文浅尝 | 近期论文精选

    本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...

  5. 论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 代码

    本文内容源自往期「论文浅尝」,由 PaperWeekly 精选并重新排版整理,感谢 PaperWeekly. ISWC 2018 ■ 链接 | http://www.paperweekly.site/ ...

  6. ###好好好#######论文浅尝 | 基于图注意力的常识对话生成

    论文浅尝 | 基于图注意力的常识对话生成 OpenKG 祝各位读者新春快乐,猪年吉祥! 来源:IJCAI 2018. 论文下载地址:https://www.ijcai.org/proceedings/ ...

  7. 论文解读《Global Structure and Local Semantics-Preserved Embeddings for Entity Alignment》

    论文解读<Global Structure and Local Semantics-Preserved Embeddings for Entity Alignment> 论文题目:Glob ...

  8. 论文浅尝 | 「知识图谱」领域近期值得读的 6 篇顶会论文

    本文转载自公众号:PaperWeekly. CIKM 2017 ■ 论文 | Hike: A Hybrid Human-Machine Method for Entity Alignmentin La ...

  9. 论文浅尝 | 学习开发知识图谱中的长期关系依赖 - ICML 2019 ​

    本文转载自公众号:南大Websoft. 论文:https://arxiv.org/abs/1905.04914 代码:https://github.com/nju-websoft/RSN 背景 知识图 ...

最新文章

  1. BEP 7:CUDA外部内存管理插件(上)
  2. 结构题直接定义赋值语句
  3. elment-ui 表格进行实时百分比计算
  4. xshell安装mysql步骤_数据库Mysql与禅道安装
  5. vue-admin项目启动踩过的坑
  6. Java EE 7之前版本替代JPA 2.1的非同步持久性上下文
  7. jdbc odbc java mysql数据库连接_Java数据库连接之配置ODBC数据源
  8. BZOJ 3038 上帝造题的七分钟2
  9. [Codeforces667A]Pouring Rain(数学,几何)
  10. 第33期:蓝桥杯-第十二届蓝桥杯省赛A组题解
  11. dnsmasq, ipset和iptables配置
  12. Linux系统配置ftps服务(显式)
  13. 根号3136用计算机,根号1·100的平方根和立方根是多少
  14. Linux 文件和用户管理(Centos 7)
  15. SQL Server是什么?SQL Server详细介绍
  16. Intel VT学习笔记(二)—— VMXEVMXON
  17. 安装和使用PyInstaller生成window的exe和Mac的执行文件
  18. PhantomJS+Selenium爬取淘宝
  19. 阅读契机-《认知天性》
  20. 2019 年天津科技大学电子设计竞赛:算法与策略-----B题

热门文章

  1. 在leveldb中,为什么要有immutable memtable?
  2. java怎么编程方程_[编程入门]自定义函数求一元二次方程-题解(Java代码)
  3. emailjava中怎么校验_Java使用注解实现参数统一校验功能
  4. linux查看wifi信号命令_使用Nmcli命令从Linux终端连接WiFi
  5. Linux C高级编程——网络编程基础(1)
  6. Datawhale-零基础入门NLP-新闻文本分类Task04
  7. 二、SpringMVC 注解式开发学习笔记
  8. LeetCode 2190. 数组中紧跟 key 之后出现最频繁的数字
  9. LeetCode 1670. 设计前中后队列(deque)
  10. 04.卷积神经网络 W3.目标检测(作业:自动驾驶 - 汽车检测)