AI 科技评论按:近日,清华大学副教授、Arnetminer 创始人唐杰博士在微博上公开了开放学术组织(Open Academic Society)发布的亿级学术图谱——Open Academic Graph。据唐杰博士介绍,该图谱目前集成了两个最大的公开学术图谱:微软学术图谱(MAG)和AMiner学术图谱。具体来说,包含MAG中1.66亿学术论文和AMiner中1.55亿论文的元数据信息,经过集成,他们生成了这两个学术图谱之间近6千5百万链接(匹配)关系。

雷锋网 AI 科技评论第一时间采访了唐杰博士,详细了解到这个亿级学术图谱和与之相关的研究难点以及技术突破。

亿级数据,筹备半年

据唐杰博士介绍,目前这个学术图谱中的数据集主要是论文,包括论文中的题目、作者、会议、年份、摘要等元数据。不同于国内大的学术数据库知网、万方等以中文为主,Open Academic Graph中的论文主要是英文。如此庞大的数据集,究竟花了多久来筹备?时间是半年。

耗费如此多的时间和精力,做这个数据集的目的何在?唐杰博士表示,他们想要集成全球不同学术知识图谱,并公开共享学术图谱数据和相关学术搜索与挖掘服务。他具体说到了如下三点:

一是集成丰富的学术知识数据。目前开放学术图谱的核心数据来自微软学术图谱和AMiner学术图谱,下一步将集成更多其他学术图谱数据,包括扩充不同类型实体(如作者、论文等)的语义数据。通过数据集成和数据挖掘算法将链接更多实体更精准和丰富的“画像”数据,包括论文的元数据、概念网络、研究领域、全文等和作者的基本信息(如:职位、单位、联系信息、国别、性别等)、研究兴趣以及论文列表等。

二是数据共享。通过共享不同的学术知识图谱以及它们的链接关系,我们希望能够造福学术界对知识图谱、学者合作关系、学术主题挖掘以及大规模学术图谱连接等领域的研究。同时,欢迎更多来自学术社区的贡献来进一步增强开放学术图谱。

三是服务共享。我们希望设计更加智能的学术图谱连接系统,并提供相关的服务(如API),以方便更多人使用服务以及加入开放学术社区。

精准匹配,挑战颇多

庞大的数据量,要实现精准匹配肯定存在各种各样问题。

唐杰博士坦言,在实际的研究过程中,由于学术数据在不同图谱中的分布异构特点,同名异义和异名同义问题严重。对于出现的问题,他也举了几个实例来具体说明。

一是数据异构问题。由于数据分布在不同数据源,可能面临数据异构的问题。比如论文作者可能存在不同的格式,如Quoc Le 和Le, Quoc。又如,论文所发表的期刊或会议有全称或缩写等多种形式。

二是同名消歧问题。同一名字可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是匹配的难点。在2016 年,中国重名最多的30 个姓名中,每个姓名重名人次达到20 万以上。对于论文来说,不同论文也可能有相同的题目,如:Data, data everywhere 在数据库中可对应多篇文章。

除了前面提到的两个问题,要想实现亿级数据的集成,如何进行高效计算也是另一个重要挑战。唐杰博士提到,以AMiner为例,已经公布的论文数据就有1.55亿,而微软学术图谱的公开数据也达1.6亿,计算两个图谱匹配关系的算法复杂度一般来说是O(n2),这需要大量计算。

精进算法,不断突破

那么他们的团队究竟是如何处理这些问题的呢?

针对精度和效率,他们设计了一个折衷方法,同时考虑精度和效率。据介绍,他们的方法能将算法复杂度降低到O(nlogn)到O(n2)之间,目前每天能够完成约2千万篇论文的匹配,基本完成了合计3亿篇论文的自动匹配,并保证了高匹配精度。

该算法是在RiMOM算法的基础上进行了改进。

具体来说,我们设计了一个针对大规模论文匹配的异步搜索框架。对于AMiner中的每篇论文,我们根据题目在MAG中搜索可能匹配的论文,每次搜索的时间在几百毫秒到几秒不等。通过异步搜索的策略,可以做到平均每秒搜索到20余篇论文,使得大规模的图谱链接可以达到较快的速度。

为进一步提高自动集成速度,他们还尝试了两个新的匹配算法MHash和MCNN。

MHash是利用哈希算法,将每篇论文转化为一串二值编码,计算两篇论文之间的汉明距离。由于使用了哈希,该算法速度很快,但同时精度也有所降低,大概能保持93+%的匹配准确率。MCNN是基于卷积神经网络的深度学习方法,MCNN基于单词之间的相似度构造两篇论文的相似矩阵,然后利用卷积神经网络来捕捉文本之间的相似模式。

采访过程中,唐杰博士还提到,在实际的操作过程中,该方法可以缓解数据异构的问题。如:对于作者Quoc Le 和Le, Quoc,它们对应位置上的单词是不相似的,但是在相似矩阵中可以捕捉不对应位置上单词的相似度。该方法可以达到非常高的匹配准确率(98%+)。两个论文匹配算法均结合了论文的多个属性,如题目、作者等减轻同名消歧问题。

总结

唐杰博士的团队与微软联合发布的Open Academic Graph,不管对学界还是对业界来说都有极大的意义。一方面能助力大家当前的研究,另一方面也能吸引更多人来进行学术知识图谱相关的研究。

在未来,他们还将研究如何集成大规模异构学术图谱中不同类型的实体(如作者、会议等),公布更多学术图谱连接数据(如作者连接数据),设计更加智能的学术图谱连接系统并提供相应的服务。

最快今年年底,我们可能就能看到更大的数据集。

综合微软、AMiner两大学术图谱,清华大学唐杰博士如何将Open Academic Graph亿级数据精准匹配相关推荐

  1. 【量子位meet大会】清华大学唐杰教授:《认知图谱》(ppt分享)

    清华大学唐杰教授:认知图谱 [最后一页的reference无法找到,这里放出唐杰教授的publication链接,ppt中定是主页的子集.publication-Jie Tang] [更新:最后一页] ...

  2. 清华计算机系唐杰,清华大学—唐杰:图神经网络(GNN)及认知推理

    讲座主题:图神经网络(GNN)及认知推理 讲座时间:2019年10月11日下午13:30--14:30 讲座地点:信息管理学院918会议室 主讲人:唐杰教授 主讲人简介:唐杰,清华大学计算机系教授.系 ...

  3. 清华大学唐杰老师组:自监督学习最新研究进展

    作者|AI Box 来源|RUC AI Box 近年来,深度监督学习取得了巨大的成功.然而,它依赖于手工标签,并且易受攻击的弱点促使学者们探索更好的解决方案.近年来,自监督学习作为一种新的学习方法,在 ...

  4. 清华大学 唐杰 计算机学院 怎么样,我国首位原创虚拟学生,后期希望“她”能够像人一样进行创新...

    清华大学计算机专业知识工程实验室正式的公开了在我国第一个原创虚拟学生-华智冰.6月15日,清华大学计算机专业举办"华智冰"工作成果见面会,身为在我国第一位原创虚拟学生,华智冰将入学 ...

  5. 清华大学唐杰教授:认知图谱是人工智能的下一个瑰宝(附PPT下载)

    来源:学术头条 本文约6300字,建议阅读10分钟 如何以计算机的方式做认知? 公众号(DatapiTHU)后台回复"20201224"获取完整PPT下载 AI 的下一次机遇在哪里 ...

  6. 清华大学唐杰教授:认知图谱是人工智能的下一个瑰宝 | PPT免费下载

    AI 的下一次机遇在哪里? 自 1956 年 AI 的概念首次被提出,至今已有 60 多年的发展史.如今,随着相关理论和技术的不断革新,AI 在数据.算力和算法"三要素"的支撑下越 ...

  7. 清华计算机系唐杰,清华大学——唐杰:图神经网络 (GNN) 及认知推理

    报告题目:图神经网络 (GNN) 及认知推理 时    间:2019年10月11日下午13:30 地    点:信息管理学院918会议室 主办单位:华中师范大学信息管理学院 专家简介:唐杰,清华大学计 ...

  8. 清华大学唐杰教授:人工智能的十年总结

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:唐杰教授,来源:人工智能AI技术 编辑:AI数据派‍‍‍‍‍‍‍‍ ...

  9. AIProCon在线大会笔记之清华大学唐杰教授:人工智能的下一个十年

    AIProCon在线大会笔记 人工智能的下一个十年 AI趋势:从感知到认知 第三代人工智能 认知图谱(Cognitive Graph) 挑战性:可解释性 人工智能的下一个十年 清华大学 计算机科学与技 ...

  10. 微软研究院和清华大学联合发布 “开放学术图谱(OAG)2.0版本”

    来源:微软研究院AI头条 本文约3000字,建议阅读5分钟. 本文为你介绍了最新发布的开放学术图谱2.0版本. [导 读]开放学术组织(Open Academic Society)是由微软.清华.艾伦 ...

最新文章

  1. python介绍和用途-python中模块的介绍与使用
  2. HTML行间距的设置方法
  3. 不同情况通知执行的顺序
  4. CentOS上安装SQL Server vNext CTP1
  5. Go 语言成为最受欢迎的语言
  6. php 查找数组相同元素,查找数组中重复的元素
  7. C语言的typedef用法
  8. WINDOWS环境下RABBITMQ的启动和停止命令
  9. lua MVC框架 Orbit初探
  10. Spiceworks数据统计:Win10发布半年使用情况
  11. 第二章 2.群中的等价关系 -- 陪集,共轭,正规子群与商群
  12. Windows下的YouTube-dl与FFmpeg下载安装配置
  13. 前端HTML中防止用户在短时间内频繁多次点击按钮
  14. 从中医的角度认识感冒
  15. ivms虚拟服务器,ivms监控服务器地址
  16. 小学计算机课教学设计加教学反思,小学信息技术优秀教学反思
  17. golang压缩图片
  18. linux svn checkout代码shell脚本
  19. java sql语句模糊查询
  20. camel_使用Apache Camel进行负载平衡

热门文章

  1. 关于“学习金字塔理论”的所思所想
  2. CSDN各产品线月度NPS分析报告新鲜出炉【2021年7月】
  3. python进行图像识别与分类_使用机器学习模型快速进行图像分类识别
  4. synchronized原理
  5. 测试移动硬盘的真实容量的软件,移动硬盘容量标识有猫腻:实际缩水99%
  6. 通过Flex布局实现三等分
  7. gmssl服务端和客户端程序、吉大正元身份认证网关、吉大正元SDK+USBkey 两两之间双证书双向认证数据通信测试
  8. Capsule-LPI:基于胶囊网络的LncRNA-蛋白质相互作用预测工具
  9. win10计算机名访问win7,实现Win10与Win7局域网共享,教你这招
  10. geo差异表达分析_GEO2R差异表达分析软件