来源: IJCAI 2018

链接: https://www.ijcai.org/proceedings/2018/0611.pdf

本文关注基于知识图谱嵌入(后文全部简称为知识嵌入)的实体对齐工作,针对知识嵌入训练数据有限这一情况,作者提出一种 bootstrapping 策略,迭代标注出可能的实体对齐,生成新数据加入知识嵌入模型的训练中。但是,当模型生产了错误的实体对齐时,这种错误将会随着迭代次数的增加而累积的越来越多。为了控制错误累积,作者设计了一种对齐样本编辑方法,对每次迭代生成的对齐数据加以约束。

动机

目前面向知识库的实体对齐研究中,基于知识嵌入的方法取得了比传统策略更好的实验效果。但是对于知识嵌入的实体对齐,仍然存在着一些挑战。

其一:虽然近年单知识库知识嵌入研究成果颇丰,但面向知识对齐的嵌入工作仍有很多待研究的空间。

其二:基于知识嵌入的实体对齐往往依赖已有对齐作为训练数据,虽然有研究表示仅需少量对齐样本即可完成模型训练[Chen et al. 2017],但有限的训练数据依然会影响知识嵌入的质量以及实体对齐准确性。

方法

1.对齐引导的知识嵌入

作者将实体对齐视为分类问题,目标就是从基于知识嵌入的实体表示中(包括有标注对齐实体,及无标注实体),找到最有可能的实体对齐(最大对齐似然)。

对于知识嵌入,在translation-based的基础上,针对对齐问题,作者对目标函数做出如下改进:

由基本知识嵌入目标函数

引入正负例样本集T+与T-,将目标函数改写为:

其中[ f(x) ]+表示max(f(x), 0),gamma_1, gamma_2 >0是两个超参,mu_1 是个平衡参数,这里使用的负例通过随机替换正例中的部分得到。

2.Bootstrpping实体对齐方法

本方法的目的是最大化对齐似然,并符合1对1的对齐约束,在这种设定下,对于一组实体对齐(x, y),y被视为是x的标签(我个人是这样理解的)。故该问题建模为以下形式:

其中 表示第t次迭代得到的实体嵌入,Y’ 表示对于x存在的候选对齐样本集合。

是一个标记函数,当(x, y)构成一组对齐的时候其函数值为1,否则为0。当得到新的对齐实体时,将其作为增量添加到训练集中用于下一次迭代。

考虑到新生成的对齐样本可能引起矛盾,这里作者使用的策略是对比出现矛盾的对齐实体,取对齐似然更高的样本保留,计算形式为:

结果>0时保留(x, y) ,反之选择(x, y’ )。

3.利用全局信息

这里的全局信息指全部实体样本存在对齐(有标注)的概率分布情况,作者将其定义为以下表示:

以此为基础,作者构建了一个负对数似然函数,用于强化原始样本中对齐实体对知识嵌入的优化。

添加全局信息函数后,整体目标函数扩充为以下形式:

实验

作者列出了自己的实验配置,并开源代码供读者研究使用

开源地址:https://github.com/nju-websoft/BootEA

数据方面使用DBP15K,DWY100K两个数据集

最后,综合实验结果看来,这确实是目前最好的对齐模型。

论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识问答,自然语言处理,机器翻译。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法相关推荐

  1. 论文浅尝 | 基于知识图谱的智能调研方法(DI佳作)

    转载公众号 | 数据智能英文刊 题目:A Knowledge Graph Based Approach to Social Science Surveys 引用:Z. Pan, Z.J., et al ...

  2. 论文浅尝 | 基于知识图谱难度可控的多跳问题生成

    论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识图谱问答. 来源:ISWC 2019 链接:https://link.springer.com/content/pdf/10.1007%2F978- ...

  3. 论文浅尝 | 基于知识图谱 Embedding 的问答

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:WSDM 2019 链接:https://dl.acm.org/citation.cfm?doid=3289600.3290956 ...

  4. 论文浅尝 | 基于知识图谱的子图匹配回答自然语言问题

    本文转载自公众号:珞珈大数据. 本次论文讲解的是胡森  邹磊   于旭  王海勋  赵东岩等作者写的论文-Answering Natural Language Questions by Subgrap ...

  5. 论文浅尝 | 基于知识图谱注意力网络的商品推荐

    论文笔记整理:康矫健,浙江大学计算机科学与技术系,硕士研究生. 论文链接:https://arxiv.org/pdf/1905.07854.pdf 发表会议:KDD 2019 任务定义 输入:协同过滤 ...

  6. 论文浅尝 | 基于知识图谱中图卷积神经网络的推荐系统

    笔记整理:王若旭,浙江大学在读硕士,研究方向为关系抽取,零样本学习. 本文发表于 www2019,参考链接:https://arxiv.org/pdf/1905.04413.pdf 为了解决推荐系统中 ...

  7. 论文浅尝 | 基于属性嵌入的知识图谱实体对齐

    论文笔记整理:王中昊,天津大学硕士,方向:自然语言处理. 来源:AAAI2019 论文链接: https://doi.org/10.1609/aaai.v33i01.3301297 概述 知识图谱之间 ...

  8. 论文浅尝 | 知识图谱中的链接预测:一种基于层次约束的方法

    论文笔记整理:张良,东南大学博士生,研究方向为知识图谱,自然语言处理. 链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber= ...

  9. 论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法

    笔记整理:张清恒,南京大学计算机科学与技术系,硕士研究生. 论文链接:https://people.eng.unimelb.edu.au/jianzhongq/papers/AAAI2019_Enti ...

最新文章

  1. IOS之SplitViewController的使用
  2. 【CZY选讲·Yjq的棺材】
  3. zemax评价函数编辑器_ZEMAX与光学设计案例:激光扩束系统详细设计与公差分析(二)...
  4. Android Glide图片加载框架(一)基本用法
  5. 周末项目:使用scikit-learn进行手语和静态手势识别
  6. HTTP中302与301的区别以及在ASP.NET中如何实现
  7. 仿58网,赶集网,百姓网swfupload图片上传效果(asp.net 2.0)
  8. 小米超大杯旗舰不叫12 Ultra:或命名为MIX 5 Pro
  9. hbase Normalizer解决预分区错误,在不动数据的情况下完美解决热点问题
  10. Trick(一)——判断一个数的位数
  11. 逐步认识C#四种判断相等的方法
  12. VMware仅主机网络联网设置
  13. PostgreSQL-11.7关系型数据库源码安装
  14. python编程课哪个机构最好,python培训比较好的机构
  15. JDO:查询你的数据
  16. 对比homeassistant和智汀家庭云之docker安装部署篇
  17. eclipse mysql 打包_Eclipse+Mysql+打包发布的问题......
  18. 自动驾驶网络:为什么需要自动驾驶网络?
  19. 怎么让c语言程序右边对齐,c语言中的对齐方式
  20. 创意信息子公司作为华为合作伙伴 携产品登录华为云端展厅

热门文章

  1. PostgreSQL的核心架构
  2. 判断一个链表是否为循环单链表
  3. Qt值得学习吗?详解Qt的几种开发方式
  4. 会议升降计算机主机,升降式无纸化多媒体会议系统
  5. android ne调试工具,Android调试工具adb的正确使用方式
  6. beautifulsoup获取属性_Python爬虫常用模块:BeautifulSoup
  7. concurrently同时开启多个监听服务
  8. 八、一篇文章快速搞懂MySQL 常见的数据类型(整型、小数、字符型、日期型详解)
  9. LeetCode 2068. 检查两个字符串是否几乎相等
  10. LeetCode 1647. 字符频次唯一的最小删除次数(贪心)