OAG – WhoIsWho 同名消歧竞赛发布

当大家想要搜索论文的时候，就会去Google Scholar，PubMed，AMiner这样的学术搜索系统上搜索论文。不过，由于学术系统内部的数据十分巨大（AMiner大约有130,000,000作者档案，以及超过200,000,000篇论文），导致作者同名情景十分复杂，要快速且准确的解决同名消歧问题（Name Disambiguation, aiming at disambiguating WhoIsWho）还是有很大的障碍。我们有时候会看到以下情况：

比赛链接：

https://www.biendata.com/competition/aminer2019/

由于论文分配算法的局限性，现有的学术系统内部存在着大量的同名论文分配错误；此外，每天都会有大量新论文进入系统。故如何维护作者档案的一致性以及准确快速的将新论文分配到系统中已有的作者档案，是现有的线上学术系统亟待解决的难题。

为了解决这一问题，北京智源人工智能研究院和AMiner联合发布了一个大规模姓名排歧数据集OAG – WhoIsWho，据调研，该数据集是目前为止发布的人工标注数据规模最大的姓名消歧数据集（之后我们还计划以增量的方式继续发布更多的人工标注的姓名排歧数据集并辅以OAG-WhoIsWho系列竞赛，尽请期待！）。

同时我们也全面分析了姓名排歧任务的不同应用情景，同步开放了两个评测任务。

任务一：论文的冷启动消歧（Name Disambiguation from Scratch）

任务描述：给定一堆拥有同名作者的论文，要求返回一组论文聚类，使得一个聚类内部的论文都是一个人的，不同聚类间的论文不属于一个人。最终目的是识别出哪些同名作者的论文属于同一个人。

参考方法：解决这一问题的常用思路就是通过聚类算法，提取论文特征，定义聚类相似度度量，从而将一堆论文聚成的几类论文，使得聚类内部论文尽可能相似，而类间论文有较大不同，最终可以将每一类论文看成属于同一个人的论文。[1] 是一篇经典的使用聚类方法的论文，它使用了图聚类的思想，利用论文之间的结构以及属性关系去构建统一的概率图，随后通过算法估计了聚类人数K，最后使用图聚类算法去解决问题。有些工作考虑了传统特征的局限性，所以利用了低维语义空间的向量表示方法，通过将论文映射成低维空间的向量表示，从而基于向量使用聚类方法 [2]。

参考文献：

[1]. Jie Tang, A.C.M. Fong, Bo Wang, and Jing Zhang. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE), 2012, Volume 24, Issue 6, Pages 975-987.

[2]. Yutao Zhang, Fanjin Zhang, Peiran Yao, and Jie Tang. Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop. In Proceedings of the Twenty-Forth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'18).

任务二：论文的增量消歧（Continuous Name Disambiguation）

任务描述：线上系统每天会新增大量的论文，如何准确快速的将论文分配到系统中已有作者档案中，这是线上学术系统最亟待解决的问题。所以问题抽象定义为：给定一批新增论文以及系统已有的作者论文集，最终目的是把新增论文分配到正确的作者档案中。

参考方法：增量消歧任务与冷启动消歧的任务不同，它是基于有一定作者档案，然后对新增论文进行分配。所以，容易直接想到的方法就是将新增的论文与已有的作者档案进行比较，提取合作者，单位机构或者会议期刊之间相似度的传统特征，随后利用svm之类的传统分类器进行分类。还可以利用基于低维空间的向量表示方法，通过将作者与论文表示成低维向量，使用监督学习方法进行特征提取及模型训练。

参考文献：

[1]. Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD'2008). pp.990-998.

[3]. Jie Tang, A.C.M. Fong, Bo Wang, and Jing Zhang. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE), 2012, Volume 24, Issue 6, Pages 975-987.

[4]. Xuezhi Wang, Jie Tang, Hong Cheng, and Philip S. Yu. ADANA: Active Name Disambiguation. In Proceedings of 2011 IEEE International Conference on Data Mining (ICDM'11), pages 794-803.

[5]. https://biendata.com/competition/scholar2018/data/

[6]. The Microsoft Academic Search Dataset and KDD Cup 2013

[7]. Wang, F. , Li, J. , Tang, J. , Zhang, J. , & Wang, K. . (2008). Name Disambiguation Using Atomic Clusters. Web-Age Information Management, 2008. WAIM '08. The Ninth International Conference on.

我们在招聘（详情请扫描下方二维码）

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 报名参赛

OAG – WhoIsWho 同名消歧竞赛发布 | 10万元奖金双赛道相关推荐

总奖金15万，双赛道同名消歧挑战赛报名进行中
2020链想家计算科技大赛,由区块链教育新媒体平台链想家主办,biendata竞赛平台承办.旨在培养高质量的高新技术人才队伍,实现区块链技术与人工智能技术对不同行业的赋能改造. 链想家致力于将本次大赛 ...
智源神经元识别挑战赛发布：收获不只是10万元奖金
U-RISC:Ultra-high Resolution EM Images Segmentation Challenge 2019 年 10 月,北京智源人工智能研究院联合北京大学,共同发布了超高清 ...
竞赛发布|100万奖金寻DT时代“最强大脑”！
大赛背景 "水利是农业的命脉.电力是工业的命脉.数据是信息产业的命脉".DT时代,海量数据呈指数增长,源源不断汇入城市数据湖中,看似波澜不惊的湖面却蕴藏着改变世界的巨大能量,将推动 ...
10万元奖金助力AI加速药物研发！小分子预测大赛来啦
人类与新型冠状病毒所引发的疫情(COVID-19)已战斗多日,针对病症是否有相应的特效药物也成为了公众关心的重点.同时,我们知道,药物研发过程是极为浩大,严谨的科学研究,例如目前正处于临床验证阶段的瑞 ...
10万元奖金“智源工业检测赛”激战正酣！高分Baseline合辑带你入门智能制造
百年德企博世放出真实独家生产场景脱敏数据,邀你为工业 4.0 制造练就 AI 大脑. 目前,由北京智源人工智能研究院联合博世和 biendata 共同发布的"INSPEC 工业大数据质量预测 ...
10万元奖金语音识别赛进行中！CTC 模型 Baseline 助你轻松上分
随着互联网.智能硬件的普及,智能音箱和语音助手已经深入人们的日常生活,家居场景下的语音识别技术已成为企业和研究机构竞相追逐的关键技术. 目前,由北京智源人工智能研究院.爱数智慧.biendata 共同 ...
一场直播教你深挖6万篇论文+50万学者信息，瓜分10万元奖金
日前,由"未来杯AI挑战赛"发起,智谱·AI与AI TIME联合承办的"未来杯-智谱人工智能科技探索赛"正火热进行中.本次直播将由比赛主办人员针对赛题进行bas ...
汉语语义消歧之 -- 词义消歧简介
总算是到正题上了... 词义消歧,亦称语义消歧,是计算语言学领域的基础性关键研究课题. 对于许多词语(特别是汉语词语和一部分专有名词),一个词有许多种意思. 例如专有名词"卡特", ...
智源-知乎联合发布大规模用户关系数据集，同步开启10万元竞赛
2019 年 9 月,北京智源人工智能研究院联合知名的综合性社区平台知乎.数据评测平台 biendata,共同发布了近 200 万用户和 1000 万邀请数据的 Link prediction 大型数 ...

OAG – WhoIsWho 同名消歧竞赛发布 | 10万元奖金双赛道

OAG – WhoIsWho 同名消歧竞赛发布 | 10万元奖金双赛道相关推荐

最新文章

热门文章