当大家想要搜索论文的时候,就会去Google Scholar,PubMed,AMiner这样的学术搜索系统上搜索论文。不过,由于学术系统内部的数据十分巨大(AMiner大约有130,000,000作者档案,以及超过200,000,000篇论文),导致作者同名情景十分复杂,要快速且准确的解决同名消歧问题(Name Disambiguation, aiming at disambiguating WhoIsWho)还是有很大的障碍。我们有时候会看到以下情况:

比赛链接:

https://www.biendata.com/competition/aminer2019/

由于论文分配算法的局限性,现有的学术系统内部存在着大量的同名论文分配错误;此外,每天都会有大量新论文进入系统。故如何维护作者档案的一致性以及准确快速的将新论文分配到系统中已有的作者档案,是现有的线上学术系统亟待解决的难题。 
为了解决这一问题,北京智源人工智能研究院和AMiner联合发布了一个大规模姓名排歧数据集OAG – WhoIsWho,据调研,该数据集是目前为止发布的人工标注数据规模最大的姓名消歧数据集(之后我们还计划以增量的方式继续发布更多的人工标注的姓名排歧数据集并辅以OAG-WhoIsWho系列竞赛,尽请期待!)。 
同时我们也全面分析了姓名排歧任务的不同应用情景,同步开放了两个评测任务。

任务一:论文的冷启动消歧(Name Disambiguation from Scratch)
任务描述:给定一堆拥有同名作者的论文,要求返回一组论文聚类,使得一个聚类内部的论文都是一个人的,不同聚类间的论文不属于一个人。最终目的是识别出哪些同名作者的论文属于同一个人。 
参考方法:解决这一问题的常用思路就是通过聚类算法,提取论文特征,定义聚类相似度度量,从而将一堆论文聚成的几类论文,使得聚类内部论文尽可能相似,而类间论文有较大不同,最终可以将每一类论文看成属于同一个人的论文。[1] 是一篇经典的使用聚类方法的论文,它使用了图聚类的思想,利用论文之间的结构以及属性关系去构建统一的概率图,随后通过算法估计了聚类人数K,最后使用图聚类算法去解决问题。有些工作考虑了传统特征的局限性,所以利用了低维语义空间的向量表示方法,通过将论文映射成低维空间的向量表示,从而基于向量使用聚类方法 [2]。
参考文献:

[1]. Jie Tang, A.C.M. Fong, Bo Wang, and Jing Zhang. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE), 2012, Volume 24, Issue 6, Pages 975-987.

[2]. Yutao Zhang, Fanjin Zhang, Peiran Yao, and Jie Tang. Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop. In Proceedings of the Twenty-Forth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'18).

任务二:论文的增量消歧(Continuous Name Disambiguation) 
任务描述:线上系统每天会新增大量的论文,如何准确快速的将论文分配到系统中已有作者档案中,这是线上学术系统最亟待解决的问题。所以问题抽象定义为:给定一批新增论文以及系统已有的作者论文集,最终目的是把新增论文分配到正确的作者档案中。 
参考方法:增量消歧任务与冷启动消歧的任务不同,它是基于有一定作者档案,然后对新增论文进行分配。所以,容易直接想到的方法就是将新增的论文与已有的作者档案进行比较,提取合作者,单位机构或者会议期刊之间相似度的传统特征,随后利用svm之类的传统分类器进行分类。还可以利用基于低维空间的向量表示方法,通过将作者与论文表示成低维向量,使用监督学习方法进行特征提取及模型训练。 
参考文献:

[1]. Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD'2008). pp.990-998.

[2]. Yutao Zhang, Fanjin Zhang, Peiran Yao, and Jie Tang. Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop. In Proceedings of the Twenty-Forth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'18).

[3]. Jie Tang, A.C.M. Fong, Bo Wang, and Jing Zhang. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE), 2012, Volume 24, Issue 6, Pages 975-987.

[4]. Xuezhi Wang, Jie Tang, Hong Cheng, and Philip S. Yu. ADANA: Active Name Disambiguation. In Proceedings of 2011 IEEE International Conference on Data Mining (ICDM'11), pages 794-803.

[5]. https://biendata.com/competition/scholar2018/data/

[6]. The Microsoft Academic Search Dataset and KDD Cup 2013

[7]. Wang, F. , Li, J. , Tang, J. , Zhang, J. , & Wang, K. . (2008). Name Disambiguation Using Atomic Clusters. Web-Age Information Management, 2008. WAIM '08. The Ninth International Conference on.

我们在招聘(详情请扫描下方二维码)

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 报名参赛

OAG – WhoIsWho 同名消歧竞赛发布 | 10万元奖金双赛道相关推荐

  1. 总奖金15万,双赛道同名消歧挑战赛报名进行中

    2020链想家计算科技大赛,由区块链教育新媒体平台链想家主办,biendata竞赛平台承办.旨在培养高质量的高新技术人才队伍,实现区块链技术与人工智能技术对不同行业的赋能改造. 链想家致力于将本次大赛 ...

  2. 智源神经元识别挑战赛发布:收获不只是10万元奖金

    U-RISC:Ultra-high Resolution EM Images Segmentation Challenge 2019 年 10 月,北京智源人工智能研究院联合北京大学,共同发布了超高清 ...

  3. 竞赛发布|100万奖金寻DT时代“最强大脑”!

    大赛背景 "水利是农业的命脉.电力是工业的命脉.数据是信息产业的命脉".DT时代,海量数据呈指数增长,源源不断汇入城市数据湖中,看似波澜不惊的湖面却蕴藏着改变世界的巨大能量,将推动 ...

  4. 10万元奖金助力AI加速药物研发!小分子预测大赛来啦

    人类与新型冠状病毒所引发的疫情(COVID-19)已战斗多日,针对病症是否有相应的特效药物也成为了公众关心的重点.同时,我们知道,药物研发过程是极为浩大,严谨的科学研究,例如目前正处于临床验证阶段的瑞 ...

  5. 10万元奖金“智源工业检测赛”激战正酣!高分Baseline合辑带你入门智能制造

    百年德企博世放出真实独家生产场景脱敏数据,邀你为工业 4.0 制造练就 AI 大脑. 目前,由北京智源人工智能研究院联合博世和 biendata 共同发布的"INSPEC 工业大数据质量预测 ...

  6. 10万元奖金语音识别赛进行中!CTC 模型 Baseline 助你轻松上分

    随着互联网.智能硬件的普及,智能音箱和语音助手已经深入人们的日常生活,家居场景下的语音识别技术已成为企业和研究机构竞相追逐的关键技术. 目前,由北京智源人工智能研究院.爱数智慧.biendata 共同 ...

  7. 一场直播教你深挖6万篇论文+50万学者信息,瓜分10万元奖金

    日前,由"未来杯AI挑战赛"发起,智谱·AI与AI TIME联合承办的"未来杯-智谱人工智能科技探索赛"正火热进行中.本次直播将由比赛主办人员针对赛题进行bas ...

  8. 汉语语义消歧之 -- 词义消歧简介

    总算是到正题上了... 词义消歧,亦称语义消歧,是计算语言学领域的基础性关键研究课题. 对于许多词语(特别是汉语词语和一部分专有名词),一个词有许多种意思. 例如专有名词"卡特", ...

  9. 智源-知乎联合发布大规模用户关系数据集,同步开启10万元竞赛

    2019 年 9 月,北京智源人工智能研究院联合知名的综合性社区平台知乎.数据评测平台 biendata,共同发布了近 200 万用户和 1000 万邀请数据的 Link prediction 大型数 ...

最新文章

  1. testem方便的web tdd 测试框架使用
  2. C#图片处理示例(裁剪,缩放,清晰度,水印)
  3. Luogu 1941 飞扬的小鸟
  4. 【ArcGIS风暴】全国1:100万基础地理数据库获取及ArcGIS图幅完美拼接---以甘肃省为例
  5. 使用Java :: Geci生成setter和getter
  6. JavaScript Event Delegation, and event.target vs. event.currentTarget
  7. SMB扫描-Server Message Block 协议、nmap
  8. 并发编程学习之线程池
  9. Linux内核学习路线 有入门到深入
  10. FlightGear Flight Simulator
  11. 书评:《深入浅出数据分析》
  12. 电子电路仿真软件中文版_一个电子工程师的自我修养
  13. 共射级三极管放大电路与其饱和失真与截止失真的分析
  14. 使用Mixamo创作动画
  15. 北上广租房技巧(希望大家都少走点坑)
  16. LaTeX pdf转eps格式
  17. linux启动mysql失败,Fatal error: Can‘t open and lock privilege tables: Table ‘mysql.host‘ doesn‘t exist
  18. 可能不能吃的食物-为自己记录一下
  19. 预计一季度国内手机市场下滑逾30%;美国或取诺基亚爱立信控
  20. 纯净版win10系统下载 2020-12-17

热门文章

  1. tf卡量产工具万能版_新物1TB TF卡正式开卖!容量大得惊人,售价也同样不菲
  2. 人月神话贯彻执行_人月神话阅读笔记01
  3. 不调用python函数实现直方图均衡化_直方图均衡化(HE)
  4. 模糊c均值聚类_六种常用的文本聚类方法介绍
  5. 关于php 高并发解决的一点思路
  6. 从统计局抓取2016年最新的全国区县数据!!
  7. UE3 ExampleGame Android版无法运行解决方案
  8. 如何用堆栈和循环结构代替递归调用--递归转换为非递归的10条军规
  9. WCF添加服务失败。服务元数据可能无法访问。请确保服务正在运行并且正在公开元数据。...
  10. Linq 演变的过程(delegate = Lamb = Linq)