作者: Fanjin Zhang

开放学术图谱(OAG)是一个大型学术知识图谱。它连接了两个亿级学术图谱:微软学术(Microsoft Academic Graph,MAG)[1] 和AMiner [2]。
Paper: http://keg.cs.tsinghua.edu.cn/jietang/publications/KDD19-Zhang-et-al-Open_Academic_Graph.pdf
Code: https://github.com/zfjsail/OAG
Data: https://www.aminer.cn/oag2019
Slides: http://keg.cs.tsinghua.edu.cn/jietang/publications/kdd2019-Zhang-et-al-OAG.pptx

开放学术图谱(OAG)是一个大型学术知识图谱。它连接了两个亿级学术图谱:微软学术(Microsoft Academic Graph,MAG)[1] 和AMiner [2]。2017年8月,清华大学和微软研究院联合发布了OAG v1,其中包含来自MAG的166,192,182篇论文和来自AMiner的154,771,162篇论文,以及64,639,608对链接(匹配)关系。2019年2月,新发布的OAG v2包含了更多类型数据(作者,出版地点,论文)以及相应的匹配关系。OAG是迄今为止最大的公开学术图谱。

图1:(a) OAG问题定义和挑战,(b) 匹配框架LinKG

构建亿级开放学术图谱是一项极具挑战的研究工作。图1(a)展示了OAG面临的问题和挑战。OAG的目标是匹配不同数据源中指代相同的实体,它主要面临以下几个挑战:(1) 实体异构。不同数据源中的相同实体可能表示形式不同,如作者姓名格式不同:如Quoc Le 和Le, Quoc;发表地点有全称或缩写等多种形式。(2) 实体歧义。同一名称可以表示多个实体,这也给图谱连接带来了很大困难。例如:AMiner中有超过10,000个叫Jing Zhang的学者,而MAG中也有7,000多个;论文匹配也存在这样的问题,如在KDD 2016中收集了两篇题为“robust influence maximization”的不同论文。(3) 大规模匹配。以已经公布的论文数据为例,AMiner和MAG各自有约1.7亿和2亿篇论文,因此需要设计一个高效的匹配框架。

为此,我们设计了一个统一的框架LinKG来解决以上挑战。LinKG包括三个匹配模块,用于匹配不同类型的实体:出版地点,论文和作者。在每个模块中,我们针对每种类型实体不同的匹配难点设计了不同的算法。图1(b)展示了LinKG的框架。(1) 出版地点匹配:对于出版地点匹配,考虑到匹配效率和效果,我们主要利用了出版地点全名信息。在出版地点匹配任务中,我们发现全名中单词的相对顺序比较重要,而且相同的出版地点可能有不同长度的表示(多前缀或后缀),因此我们提出采用基于长短时记忆网络(LSTM)的方法来匹配出版地点。(2) 论文匹配:对于论文匹配,我们利用了论文的多种属性,例如论文题目和作者列表。由于每个数据源中的论文数量都达到了上亿级别,我们首先利用局部敏感哈希(LSH)进行快速匹配;对于用哈希匹配不上的论文,我们对两篇论文的属性构造相似度矩阵,利用卷积神经网络(CNN)进行精确匹配。 (3) 作者匹配:作者匹配相比于其他类型的实体匹配更有挑战性,因为作者姓名的歧义性可能很严重。因此我们利用了前两个模块得到的匹配结果来帮助作者匹配。对于每个作者,我们构造一个局部子图,该子图包括她的论文,发表论文的出版地点,和合作者等。对于每对候选匹配作者,我们提取她们的局部子图,已经匹配上的实体会使得这两个子图连通。然后,我们提出采用异构图注意力网络(heterogeneous graph attention network,HGAT)在子图上学习每对候选作者是否匹配。我们做了大量实验来验证每个模块采用的方法在相应问题上具有优越性。该框架中方法的详细介绍参见 [3].

基于框架LinKG,我们已经生成和发布了开放学术图谱(OAG)。OAG v2现在包括91,137,597条论文匹配关系,29,841条出版地点匹配关系,1,717,680条作者匹配关系。对于作者匹配,学者们只考虑了论文数不少于5的作者。将论文数量较少的作者排除后,AMiner中有6,855,193位作者,MAG中有13,173,936位作者。我们评估了少部分匹配关系(每种实体大约1,000个实体对),出版地点,新匹配论文(不包括OAG v1),作者匹配准确率分别为99.26%, 99.10%和97.41%。OAG可以用于多种研究课题,如:网络数据挖掘(论文引用关系网络,作者合作关系网络等),文献内容挖掘,同名作者消歧和学术图谱对齐等。

实验结果以及和其他方法对比

参考文献

[1] Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD’2008). pp.990-998.

[2] Arnab Sinha, Zhihong Shen, Yang Song, Hao Ma, Darrin Eide, Bo-June (Paul) Hsu, and Kuansan Wang. 2015. An Overview of Microsoft Academic Service (MAS) and Applications. In Proceedings of the 24th International Conference on World Wide Web (WWW ’15 Companion). ACM, New York, NY, USA, 243-246.

[3] Fanjin Zhang, Xiao Liu, Jie Tang, Yuxiao Dong, Peiran Yao, Jie Zhang, Xiaotao Gu, Yan Wang, Bin Shao, Rui Li, and Kuansan Wang. OAG: Toward Linking Large-scale Heterogeneous Entity Graphs. In Proceedings of the Twenty-Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’19).

KDD2019 | 开放学术图谱 (OAG): 大规模知识图谱异构实体对齐相关推荐

  1. 会议交流 | 大规模知识图谱的构建及应用分享

    本文转载自公众号:DataFunTalk. 论坛出品:张伟 阿里巴巴 资深算法专家 分享时间:12月19日,9:00-12:00 导读:12月19日,9:00-12:00.在DataFunTalk年终 ...

  2. 百度宋勋超:百度大规模知识图谱构建及智能应用

    不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...

  3. 干货 知识图谱研究青年学者研讨会在清华大学顺利召开刘知远 报告题目:大规模知识图谱表示学习的研究趋势与挑战

    2015年6月27日,中国中文信息学会青年工作委员会系列学术活动??知识图谱研究青年学者研讨会在清华大学FIT大楼多功能报告厅召开.本次活动由青工委和中文信息学会语言与知识计算专委会联合举办,旨在推动 ...

  4. 技术实践:大规模知识图谱预训练及电商应用

    本文作者: 张文(浙江大学).黄志文(阿里巴巴).叶橄强(浙江大学).文博(浙江大学).张伟(阿里巴巴),陈华钧*(浙江大学) 接收会议: ICDE 2021 1. 文章导读 本文介绍了浙江大学阿里巴 ...

  5. 技术动态 | TechKG:一个面向中文学术领域的大型知识图谱

    作者:东北大学-知识图谱研究组  任飞亮 TechKG 是一个面向中文.面向学术.多领域的大型知识图谱知识库,知识库由"东北大学-知识图谱研究组"开发完成.和已有知识图谱如 Fre ...

  6. 大规模知识图谱预训练模型及电商应用

    点击上方蓝字关注我们 大规模知识图谱预训练模型及电商应用 陈华钧1,2, 张文3, 黄志文4, 叶橄强1, 文博1, 张伟2,4 1 浙江大学计算机科学与技术学院,浙江 杭州 310007 2 阿里巴 ...

  7. 图谱实战 | OPPO自研大规模知识图谱及其在小布助手中的应用

    分享嘉宾:李向林 OPPO 编辑整理:吴祺尧 加州大学圣地亚哥分校 出品平台:DataFunTalk 导读:OPPO知识图谱是OPPO数智工程系统小布助手团队主导.多团队协作建设的自研大规模通用知识图 ...

  8. 王昊奋:大规模知识图谱技术

    [大数据100分]王昊奋:大规模知识图谱技术 主讲嘉宾:王昊奋 主持人:阮彤 承办:中关村大数据产业联盟 嘉宾简介: 王昊奋,华东理工大学讲师,上海交通大学计算机应用专业博士,对语义搜索.图数据库以及 ...

  9. 【采用】百度大规模知识图谱构建及智能应用

    知识图谱在人工智能应用中的重要价值日益突显.基于海量互联网资源,百度构建了超大规模的通用知识图谱,并在智能搜索.智能推荐.智能交互等多项产品中实现了广泛应用.随着文本.语音.视觉等智能技术的不断深入, ...

  10. 大规模知识图谱的构建

    再次焕发出了活力.除了理论基础层面的发展以外,本轮发展最为瞩目的是大数据基础设施.存储和计算能力增长所带来的前所未有的数据红利. 人工智能的进展突出体现在以知识图谱为代表的知识工程以及以深度学习为代表 ...

最新文章

  1. 读书笔记《Hadoop开源云计算平台》
  2. oracle表空间dbf文件,Oracle 11g表空间dbf文件迁移
  3. 【Linux】16.mdc挂载群晖NAS
  4. 汇编之浮点数处理(CrackMe003前置知识)
  5. Android之网络编程之网络通信几种方式实例分享
  6. C++学习之路 | PTA乙级—— 1039 到底买不买 (20 分)(精简)
  7. 高品质空间合成海报,让夜色更迷人
  8. 长时间使用s档有危害吗_空调长时间不清洗竟有这么多危害 你知道吗?
  9. Linux检测内存泄露的脚本
  10. 《嵌入式系统原理与应用》 |(一)嵌入式系统概述 知识梳理
  11. Discuz修改导读设置,显示更多热帖和精华帖
  12. 【微信支付接口调用】
  13. html微信朋友圈demo,Vue.js实现模拟微信朋友圈开发demo
  14. GMA Round 1 YGGDRASIL
  15. 医疗在线质控系统 资料收集
  16. 安卓蓝牙SCO打开流程
  17. UCOS-III笔记
  18. 【论文阅读及复现】(1998)无网格线探索布线算法 + Python代码实现
  19. 32位和64位操作系统及软件的区别
  20. Vuforia官方文档-01-Vuforia功能概述

热门文章

  1. 应用程序界面开发 - 自定义用户控件布局控件的使用
  2. dell 服务器自动更新驱动程序,通过Repository Manager 1.3来管理戴尔驱动程序更新
  3. 遥感图像场景分类方法
  4. UE4设置场景摄像机视角
  5. python dataframe新增一列
  6. gbd调试器及静态库/动态库的制作
  7. 有关Android插件化思考
  8. 有类与无类路由下的路由匹配原则(转载)
  9. RTKLIB进行伪距单点定位1——main函数
  10. 时间管理技巧(清理一波文件 感觉这个还是有用的 )