论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment
Zhuang Y,Li G, Zhong Z, et al. Hike: A Hybrid Human-Machine Method for Entity Alignmentin Large-Scale Knowledge Bases[C]// ACM, 2017:1917-1926. ( CIKM 2017 )
论文链接:http://dbgroup.cs.tsinghua.edu.cn/ligl/crowdalign.pdf
Motivation
随着语义网络的迅速发展,越来越多的大规模知识图谱公开发布,为了综合使用多个来源的知识图谱,首要步骤就是进行实体对齐(Entity Alignment)。近年来,许多研究者提出了自动化的实体对齐方法,但是,由于知识图谱数据的不均衡性,导致此类方法对齐质量较低,特别是召回率(Recall)。因此,可考虑借助于众包平台提升对齐效果,文章提出了一个人机协作的方法,对大规模知识图谱进行实体对齐。
Framework
方法主要流程如图所示:
首先,通过机器学习方法对知识库进行粗略的实体对齐,然后分别将以对齐实体对(MatchedPairs)和未对齐实体对(UnmatchedPairs)放入众包平台,让人进行判断。两条流水线的步骤类似,主要包括四个部分:实体集划分(EntityPartition)、建立偏序(PartialOrder Construction)、问题选择(QuestionSelection)、容错处理(ErrorTolerance)。
实体集划分的目的是将同类的实体聚类到一个集合,实体对齐只在集合内部进行,集合之间不进行对齐操作。实体集划分的依据是属性,通常同一类实体的属性是相似的。
偏序定义如下:
建立偏序的目的在于找出最具有推理期望(InferenceExpectation)的实体对,偏序集实例如下:
其中,如果P11被判断为Unmatch,则所有偏序小于P11的节点都可以推断为unmatch。反之,如果P45被推断为Match,则所有偏序大于P45的节点都可以推断为Match。
推理期望公式如下:
其中,pre和suc分别表示前驱和后继节点。
对于问题选择,文章提出了两个贪心算法,分别为一次选一个节点以及一次选多个节点。算法如下:
Experiment
数据集:Yago 、 DBPedia
对比方法:PARIS、PBA
众包平台:ChinaCrowds
评估问题选择方法:
可以看到,两个贪心算法差别不大,但是比随机选择性能好。
评估问题集大小:
随着问题集合的增加,精确率、召回率、F值均有提升。
评估实体对齐结果:
实验表明,各项评估指标具有提升,证实了人机协作的有效性,但是MQS算法复杂度太高,导致运行时间过长。
本文作者:罗丹,浙江大学硕士,研究方向:机器学习,知识图谱。
OpenKG.CN
中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。
点击阅读原文,进入 OpenKG 博客。
论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment相关推荐
- 论文浅尝 | 图神经网络综述:方法及应用
论文链接:https://arxiv.org/pdf/1812.08434.pdf GNN相关论文列表链接:https://github.com/thunlp/GNNPapers 近日,清华刘知远老师 ...
- 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings
论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...
- 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述
随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...
- 论文浅尝 | 近期论文精选
本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...
- 论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 代码
本文内容源自往期「论文浅尝」,由 PaperWeekly 精选并重新排版整理,感谢 PaperWeekly. ISWC 2018 ■ 链接 | http://www.paperweekly.site/ ...
- ###好好好#######论文浅尝 | 基于图注意力的常识对话生成
论文浅尝 | 基于图注意力的常识对话生成 OpenKG 祝各位读者新春快乐,猪年吉祥! 来源:IJCAI 2018. 论文下载地址:https://www.ijcai.org/proceedings/ ...
- 论文解读《Global Structure and Local Semantics-Preserved Embeddings for Entity Alignment》
论文解读<Global Structure and Local Semantics-Preserved Embeddings for Entity Alignment> 论文题目:Glob ...
- 论文浅尝 | 「知识图谱」领域近期值得读的 6 篇顶会论文
本文转载自公众号:PaperWeekly. CIKM 2017 ■ 论文 | Hike: A Hybrid Human-Machine Method for Entity Alignmentin La ...
- 论文浅尝 | 学习开发知识图谱中的长期关系依赖 - ICML 2019
本文转载自公众号:南大Websoft. 论文:https://arxiv.org/abs/1905.04914 代码:https://github.com/nju-websoft/RSN 背景 知识图 ...
最新文章
- BEP 7:CUDA外部内存管理插件(上)
- 结构题直接定义赋值语句
- elment-ui 表格进行实时百分比计算
- xshell安装mysql步骤_数据库Mysql与禅道安装
- vue-admin项目启动踩过的坑
- Java EE 7之前版本替代JPA 2.1的非同步持久性上下文
- jdbc odbc java mysql数据库连接_Java数据库连接之配置ODBC数据源
- BZOJ 3038 上帝造题的七分钟2
- [Codeforces667A]Pouring Rain(数学,几何)
- 第33期:蓝桥杯-第十二届蓝桥杯省赛A组题解
- dnsmasq, ipset和iptables配置
- Linux系统配置ftps服务(显式)
- 根号3136用计算机,根号1·100的平方根和立方根是多少
- Linux 文件和用户管理(Centos 7)
- SQL Server是什么?SQL Server详细介绍
- Intel VT学习笔记(二)—— VMXEVMXON
- 安装和使用PyInstaller生成window的exe和Mac的执行文件
- PhantomJS+Selenium爬取淘宝
- 阅读契机-《认知天性》
- 2019 年天津科技大学电子设计竞赛:算法与策略-----B题
热门文章
- 在leveldb中,为什么要有immutable memtable?
- java怎么编程方程_[编程入门]自定义函数求一元二次方程-题解(Java代码)
- emailjava中怎么校验_Java使用注解实现参数统一校验功能
- linux查看wifi信号命令_使用Nmcli命令从Linux终端连接WiFi
- Linux C高级编程——网络编程基础(1)
- Datawhale-零基础入门NLP-新闻文本分类Task04
- 二、SpringMVC 注解式开发学习笔记
- LeetCode 2190. 数组中紧跟 key 之后出现最频繁的数字
- LeetCode 1670. 设计前中后队列(deque)
- 04.卷积神经网络 W3.目标检测(作业:自动驾驶 - 汽车检测)