OpenKG地址:http://openkg.cn/tool/openea

GitHub地址:https://github.com/openkg-org/OpenEA

Gitee地址:https://gitee.com/openkg/OpenEA

开放许可协议:GPL 3.0

贡献者:南京大学(胡伟、孙泽群、张清恒、王成名、成威、朱向荣、李光耀)


背景

知识图谱可以由任何机构和个人自由构建,其背后的数据来源广泛、质量参差不齐,导致它们之间存在多样性和异构性。例如,对于相交领域 (甚至是相同领域),通常会存在多个不同的实体指称真实世界中的相同事物。知识融合的目标就是将不同知识图谱融合为一个统一、一致、简洁的形式,为使用不同知识图谱的应用程序间的交互建立互操作性 。知识融合的常用技术方法包括本体匹配 (也称为本体映射)、实例对齐 (也称为实体匹配、对象共指消解) 以及真值验证 (也称为冲突检测) 等。

知识融合是知识图谱研究中的一个核心问题,对于人工智能和大数据至关重要。知识融合研究有助于提升基于知识图谱的信息服务水平和智能化程度,推动语义网以及人工智能、数据库、自然语言处理等相关领域的研究发展,具有重要的理论价值和广泛的应用前景,可以创造巨大的社会和经济效益。

OpenEA-Tutorial

为帮助了解和熟悉知识融合的常用技术,我们推出了 OpenEA-Tutorial (https://github.com/OpenKG-ORG/OpenEA/tree/master/tutorial),其中包括本体匹配、实体对齐和真值验证三个任务的代码框架。我们为每个任务给定了评测数据集,并实现了一个基线方法以供参考,使用者可修改指定代码段来实现自己的算法完成相应任务。

  1. 本体匹配。本体匹配侧重发现 (模式层) 等价或相似的类、属性或关系,是消除本体间异构性的一种有效途径,可以为应用程序之间的交互建立互操作性,是知识融合的重要任务。在这一任务中,我们的基线方法使用了最基础的文本相似性度量方法——基于字符的 Levenshtein 编辑距离。我们鼓励使用者自行实现其他文本相似性度量方法或是基于图结构的匹配方法等,以在测试数据集上取得更好的效果。

  2. 实体对齐。相较于本体匹配,实体对齐侧重发现指称真实世界相同对象的不同实例。我们在此任务中提供了 MTransE 的实现作为基线方法,这是一种基于表示学习的实体对齐方法,其实现基于后续将进行介绍的开源软件库 OpenEA。使用者可以通过改进 embedding learning (EL) 模块和 alignment learning (AL) 模块提升模型性能,也可以进一步尝试其他实体对齐方法。

  3. 真值验证。在匹配的基础上,知识融合需要消解知识集成过程中的冲突,再对知识进行关联与合并,最终形成一个一致的结果,真值验证就是冲突消解中的一种技术。为了消解多源数据的冲突,基线方法简单地在离散无序的属性上投票、在数值属性上取均值。使用者显然可以优化这一算法,或者实现其他真值验证算法。

OpenEA 开源库

作为知识融合的重要一环,实体对齐旨在从不同知识图谱中识别指向真实世界同一对象的实体。随着表示学习技术在诸如图像、视频、语音、自然语言处理等领域的成功,基于嵌入的实体对齐方法开始涌现,并取得重大突破。这类方法基于知识图谱嵌入技术,其将知识图谱中的符号表示嵌入到低维向量中,使得实体之间的语义关联能够通过嵌入空间中的几何结构捕捉到。基于嵌入的实体对齐方法典型框架以两个不同知识图谱作为输入,并根据源信息收集种子实体对,然后在嵌入和对齐模块中输入这两个知识图谱和种子实体对,捕捉实体嵌入的对应关系。模块交互有两种典型的组合范式:(1) 嵌入模块将两个知识图谱嵌入进不同空间中,同时对齐模块通过种子实体对学习两个空间中的映射关系;(2) 对齐模块指导嵌入模块,通过强制种子实体对中的对齐实体具有非常相似的嵌入,使得两个知识图谱被表示到一个统一空间中。最后,通过学习到的嵌入表示来测量实体相似性。

OpenEA (https://github.com/OpenKG-ORG/OpenEA) 是一个面向基于嵌入的知识图谱实体对齐的开源软件库,由南京大学万维网软件研究组 (Websoft) 贡献。OpenEA 通过 Python 和 Tensorflow 开发得到,集成了 12 种具有代表性的基于嵌入的实体对齐方法,同时它使用了一种灵活的架构,可以较容易地集成大量现有的嵌入模型。

  • 嵌入模块 (embedding module)。嵌入模块试图将知识图谱嵌入到低维空间中。根据三元组的类型,我们可以将嵌入模型分为两类:关系嵌入与属性嵌入。前者采用关系学习技术捕捉知识图谱结构,后者利用实体的属性三元组信息。关系嵌入主要有三种实现方式:基于三元组的嵌入能够捕捉关系三元组的局部语义 (例如 TransE)、基于路径的嵌入利用跨越路径的关系之间的长程依赖信息 (例如 IPTransE、RSN4EA)、基于邻居的嵌入主要利用实体之间的关系构成的子图结构 (例如 GCN)。一些方法使用属性嵌入增强实体之间的相似性度量,属性嵌入有两种方式:属性相关性嵌入主要考虑属性间的相关性 (例如 JAPE)、字面量嵌入将字面量值引入到属性嵌入中 (例如 AttrE)。

  • 对齐模块 (alignment module)。对齐模块使用种子实体对作为训练数据来捕捉实体嵌入表示的相关性,其中两个关键是选择何种距离度量方式以及设计何种对齐推断策略。度量方式有三种被广泛使用:余弦距离、欧几里得距离和曼哈顿距离。针对对齐推断策略,目前所有方法都采用贪心搜索方式,即为每一个实体依据度量方式选择距离最短的实体作为推断的对齐实体。

  • 交互模块 (Interaction between modules)。有四种典型的组合模式用于调整知识图谱嵌入以便实体对齐:嵌入空间的转换,通过种子实体对  










     学习两个嵌入空间中的转换矩阵M使得  













     。另一种组合模式称为嵌入空间校准,其将两个知识图谱嵌入到统一空间中,通过最小化  




     来校准实体对中的嵌入表示。作为两个特例,参数共享模式直接设置 












     ,而参数交换模式通过在三元组中交换种子实体来产生额外三元组作为监督数据。这两种方式都没有引入新的损失函数,但后者会产生更多三元组。基于如何处理标记和未标记数据,学习策略可以被分为监督学习和半监督学习。监督学习采用种子实体对作为标记的训练数据。对于嵌入空间的转换,种子实体对用于学习转换矩阵;对于空间校准,其被用于让对齐的实体具有相似的嵌入表示。半监督学习会在训练阶段使用未标记数据,例如自我学习和协同学习。前者迭代地选出新的实体对补充进种子实体对中,后者通过组合两个学习模型,交替增强彼此的对齐能力。

结束语

如果您在使用 OpenEA 及其 Tutorial 过程中遇到任何问题,欢迎在项目 Issues 中提出!感谢孙泽群、张清恒、王成名等人研发 OpenEA,孙泽群、成威和朱向荣对 Tutorial 的实现,以及李光耀对相关工作的总结。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

OpenKG开源系列|开源知识图谱融合工具OpenEA (南京大学)相关推荐

  1. 开源开放 | 开源知识图谱抽取工具发布大模型版DeepKE-LLM

    DeepKE-LLM链接: https://github.com/zjunlp/DeepKE/tree/main/example/llm OpenKG地址: http://openkg.cn/tool ...

  2. 开源开放的知识图谱工具和数据生态

    省时查报告-专业.及时.全面的行研报告库 省时查方案-专业.及时.全面的营销策划方案库 知识图谱在美团推荐场景中的应用实践 搜索场景下的智能实体推荐 机器学习在B站推荐系统中的应用实践 小红书推荐系统 ...

  3. 开源开放 | 开源网络通信行业知识图谱(新华三)

    转载公众号 | 数字化领航 OpenKG地址:http://openkg.cn/dataset/network-communication 文章作者:新华三集团 出品平台:数字化领航 OpenKG是中 ...

  4. 技术动态 | 北京大学计算机所邹磊教授研究组开源面向 RDF 知识图谱的自然语言问答系统 gAnswer...

    项目网站: http://ganswer.gstore-pku.com/ 代码地址: https://github.com/pkumod/gAnswer OpenKG发布地址: http://open ...

  5. 中国人民大学张静:知识图谱融合中歧义性与异质性问题的讨论

    ⬆⬆⬆ 点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 2020 年 9 月 25 日,在由中国科协主办,清华大学计算机科学与技术系.AI TIME 论道承办的<2020 中国科 ...

  6. 合作|中国人寿财险联合清华大学共同推出危化品知识图谱智能工具

    来源:中国人寿财险 本文约1000字,建议阅读5分钟如何提高重大危险源的管理效力是工业企业生产安全的必修课. 近年来,我国安全生产形势持续稳定好转,实现了事故总量和死亡人数"双下降" ...

  7. “知识图谱+”系列:知识图谱+强化学习

    泽宇个人一直认为强化学习是建模动态系统最好的方法之一,通过与环境的不断交互,在动作选择和状态更新的动态过程中逐渐达到优化目标.因此,本期泽宇将从知识图谱结合强化学习的角度介绍几个不同的研究方向的内容, ...

  8. python文献知识图谱可视化_知识图谱可视化工具(知识图谱可视化python)

    知识图谱可视化工具免费杭州市西湖区教育装备保障服务中心 除了知识图,图还能做什么?编者注:作者的高级解决方案顾问包汉林.本文将集中在三个方面,侧重于图数据库和图分析的价值,并列举图分析应用程序的一些方 ...

  9. Wallabag——开源稍后读知识管理服务工具

    前言 平时我们在阅读浏览器的文章时,会把觉得有用的文章塞进收藏夹以便日后拿出来阅读学习.但是这有一些弊端,一是浏览器的收藏夹并没有搜索功能,最多有一个分类,要在日积月累的收藏文件里面找到自己想要的文章 ...

  10. “知识图谱+”系列:知识图谱+图神经网络

    最近有很多朋友联系泽宇说想了解一些知识图谱和图神经网络(GNN)结合的研究.那泽宇当然要满足朋友们的要求啊,本期泽宇从知识图谱的几个不同研究方向总结了结合GNN的经典研究,也和大家一起分享.所有内容是 ...

最新文章

  1. windows10配置jenkins
  2. 总线控制内部eep_【上周回顾】小白如何自学单片机;电子专业的十个神总结;摩尔定律54年;电子工程师常弄混的总线分类汇总;他做成了半导体害怕他做的事...
  3. 项目日志2-系统降级模块设计
  4. 【BZOJ】1067: [SCOI2007]降雨量(rmq+变态题)
  5. mysql中文显示问号
  6. Power Designer介绍
  7. mybatis学习(4):工具类和实体类的创建
  8. Python中的多进程创建和传值(克隆)Queue方法
  9. 微信支付官方SDK V3 .NET版的坑
  10. thinkphp-查询某一列的值column
  11. wps如何保存最终状态_怎么让word显示最终状态
  12. java 导出wps_用java将数据导出到wps表格中,怎么实现
  13. linux redis 简书,Linux | Redis
  14. application terminated怎么解决_优雅解决 SpringBoot 工程中多环境下 application.properties 的维护问题...
  15. layUI table 按条件搜索 结果整个页面刷新
  16. LoadRunner 测试脚本
  17. 计算机专业及软件职称,软件工程师职称评定的级别及标准是什么?
  18. 美国和欧洲5G最新进展—全球5G发展洞察2022(下)
  19. word打不开文档该怎么办?有什么好的方法
  20. width mismatch when connecting input pin '/processing system 7_0/irq_f2p'(2) to net 'xlconcat_0_dout

热门文章

  1. mysql批量导出工具_sql数据库批量导出|
  2. 手机端 H5 语音识别转化为文字 demo
  3. 普通话测试-短文60篇文章,附带拼音(11-20篇)
  4. android qq 邮箱格式,QQ邮箱格式怎么写
  5. python更换证件照底色
  6. Shell 脚本:DDNS for aliyun
  7. Redis和MySQL如何保持数据一致性
  8. 李迅雷:大城市化和居民加杠杆能支撑房价多久
  9. 20182319彭淼迪 2019-2020-1 《数据结构与面向对象程序设计》实验一报告
  10. mac pdf去水印_Acrobat XI PRO/DC 2019 PDF编辑转换器去水印 WIN/MAC