2020链想家计算科技大赛,由区块链教育新媒体平台链想家主办,biendata竞赛平台承办。旨在培养高质量的高新技术人才队伍,实现区块链技术与人工智能技术对不同行业的赋能改造。

链想家致力于将本次大赛打造为中国参赛人数最多的前沿科技比赛之一,并以大赛为抓手,进一步宣传贯彻国家创新驱动战略,深化人工智能和区块链技术在各行各业的应用改革,推动社会各界对高新技术人才培养的重视,切实提高大众的创新精神、创业意识、创新创业能力。助推传统产业转型发展,促进各行各业形成新业态、新经济、新模式。

目前,人工智能已经成为国家科技发展战略的核心。此外,当前充满风波的国际局势也对我国自主开发人工智能技术提出了新的要求。特别地,如果能自动地对国内外大量的科技信息分析工作,有十分重大的意义。在此背景下,链想家联合 AMiner 共同发布了同名消歧挑战赛,旨在让机器对科技领域的人才进行自动化地归类和消歧。本次比赛截止日期为2020年12月30日,总奖金15万元。

复制打开以下链接参赛(推荐在电脑端打开):

赛道一:https://www.biendata.xyz/competition/chaindream_nd_task1/

赛道二:https://www.biendata.xyz/competition/chaindream_nd_task2/

赛题描述

Task

本次比赛有两个基础的论文消歧任务,分别为冷启动消歧和论文增量消歧义。

I. 论文的冷启动消歧

Name Disambiguation from Scratch

任务描述:给定一堆拥有同名作者的论文,要求返回一组论文聚类,使得一个聚类内部的论文都是一个人的,不同聚类间的论文不属于一个人。最终目的是识别出哪些同名作者的论文属于同一个人。

参考方法:解决这一问题的常用思路就是通过聚类算法,即通过提取论文特征,定义聚类相似度度量,从而将一堆论文聚成的几类论文,使得聚类内部论文尽可能相似,而类间论文有较大不同,最终可以将每一类论文看成属于同一个人的论文。根据用于聚类的特征和衡量论文相似度标准的不同,可大概分为如下几个思路:

  • 基于人为定义规则(rule-based)的方法,手动定义一些聚类标准,比如对应作者机构一样的论文聚成一类等,从而获得聚类结果;

  • 基于监督信息的聚类,利用给出的训练数据集,构建二分类样本去训练一个衡量论文之间距离的模型,然后根据模型去计算测试集中论文的相似度,以此为基础进行聚类;

  • 基于原子聚类的方法[1],大致思路是首先用较强的规则进行聚类,例如:俩篇论文如果有俩个以上的共同作者,那么这俩篇论文属于同一类,这样可以保证聚类内部的准确率,随后用弱规则将先前的聚类合并,从而提高召回率;

  • 基于图聚类的方法[2],利用论文之间的结构以及属性关系去构建统一的概率图,随后通过算法估计了聚类人数K,最后使用图聚类算法去解决问题;

  • 基于向量的方法[3],有些工作考虑了传统特征的局限性,所以利用了低维语义空间的向量表示方法,通过将论文映射成低维空间的向量表示,在此之上定义论文之间相似度的度量方式,基于向量使用聚类方法。

评估方法:使用Macro Pairwise-F1作为模型评估度量

II. 论文的增量消歧

Continuous Name Disambiguation

任务描述:线上系统每天会新增大量的论文,如何准确快速的将论文分配到系统中已有作者档案,这是线上学术系统最亟待解决的问题。所以问题抽象定义为:给定一批新增论文以及系统已有的作者论文集,最终目的是把新增论文分配到正确的作者档案中。

参考方法:增量消歧任务与冷启动消歧的任务不同,它是基于有一定作者档案的基础,对新增论文进行分配,同时还要兼顾论文的NIL问题,即论文不能分配给任意一个已有的档案,可分为分类和排序打分两种思路来解决:

  • 基于分类的方法:容易直接想到的方法就是将这个问题转化成为二分类任务,将已有的作者档案与新增论文进行比较,提取合作者,单位机构或者会议期刊之间相似度的特征。随后利用分类器进行0/1分类;

  • 基于排序打分的方法[4]:将这个任务转化成信息检索中的RANKING问题, 对于每篇待分配的论文,首先挑选对应的candidate author然后同样的去提取交互特征,最后用learning to rank框架去训练一个打分模型,最后对于每个candidate author进行打分,然后按照得分高低排序,选择top-1的author;

解决NIL的问题:在获取最有可能分配的author profile后,还需要进一步判断是否真正将paper分配过去,即NIL的问题。在实体链接领域中,可以在分类或排序打分模型的基础上,额外再提取整体candidate authors得分的分布特征,去训练一个判别模型进∂一步判断NIL的情形。[4]中总结并提出了一些解决NIL的方法。

评估方法:使用WeightedF1 作为模型评估度量。

参考文献

[1]. Wang et al. Name Disambiguation Using Atomic Clusters. Web-Age Information Management. WAIM '08.

[2]. Jie et al. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE’12).

[3]. Zhang et al. Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop. In Proceedings of the Twenty-Forth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'18).

[4]. Chen et al. CONNA: Addressing Name Disambiguation on The Fly. IEEE Transaction on Knowledge and Data Engineering (TKDE’20)

上赛季获奖方案

Review

论文的冷启动消歧

Name Disambiguation from Scratch

第一名:基于网络嵌入和语义表征的作者名消歧 https://www.biendata.xyz/models/detail/3637/

第二名:基于LGB二分类与层次聚类的同名消歧冷启动

https://www.biendata.xyz/models/category/3643

论文的增量消歧

Continuous Name Disambiguation

第一名:FIND:基于特征工程的增量同名消歧方法

https://www.biendata.xyz/models/category/3650/

第二名:基于XGBoost的人名消歧方法的研究

https://www.biendata.xyz/models/category/3678/

第三名:基于SVM的同名作者消歧

https://www.biendata.xyz/models/category/3625/

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

总奖金15万,双赛道同名消歧挑战赛报名进行中相关推荐

  1. OAG – WhoIsWho 同名消歧竞赛发布 | 10万元奖金双赛道

    当大家想要搜索论文的时候,就会去Google Scholar,PubMed,AMiner这样的学术搜索系统上搜索论文.不过,由于学术系统内部的数据十分巨大(AMiner大约有130,000,000作者 ...

  2. 总奖金100万!大数据赛事来了

    Datawhale赛事 主办方:江苏省工业和信息化厅.无锡市人民政府 大赛主题 SEED2021 汇数据价值  创数字未来 围绕车联网.医疗卫生.智慧水利.数字文娱等领域,深度挖掘省市务数据价值,探索 ...

  3. 总奖金100万!2021SEED江苏大数据开发与应用大赛(华录杯)正式开赛!

    2021年,第二届华录杯江苏大数据开发与应用大赛 (简称SEED) @你,速来报名参加! 深入城市产业变革,探索公共数据价值 提升算法综合能力 斩获百万赛事奖金 赢取名企就业直通车 SEED大赛就是如 ...

  4. 阿里某程序员吐槽:年终奖被金融行业的老婆完爆!自己奖金15万,老婆奖金66万!...

    都说互联网的收入比其他行业高,在众多互联网大小厂中,阿里作为行业翘楚,其员工的工资收入也算遥遥领先,但一个阿里程序员却发帖抱怨自己年终奖被老婆完爆. 这位阿里程序员说,自己的年终奖是5个月工资,15万 ...

  5. 奖金15万,百度携手CCF打造CV+NLP双赛题

    在人工智能和大数据竞赛领域,由中国计算机学会举办的CCF 大数据与计算智能大赛(CCF BDCI)依旧是众多开发者追逐的顶级赛事. CCF BDCI大赛至今已经成功举办七届,累计吸引到来自全球25个国 ...

  6. 总奖金 200 万的 AI Challenger 开赛,可申请免费 GPU 资源

    记者 | 周翔 8 月 14 日,创新工场.搜狗和今日头条联合宣布共同发起"AI Challenger 全球 AI 挑战赛".其中,CSDN 作为选手社区,为大赛提供支持.(更多赛 ...

  7. 奖金15万!全球首届“AI球球大作战:Go-Bigger多智能体决策智能挑战赛”开启

    关注公众号,发现CV技术之美 <球球大作战>是一款风靡全球的休闲电子竞技游戏,以大球吃小球为目标,简单有趣却又斗智斗勇. 你不知道的是,AI世界也拥有了自己的<球球大作战>. ...

  8. “中国诺奖”2021未来科学大奖公布:袁国勇、裴伟士、张杰、施敏获奖,总奖金300万美元...

    来源:学术头条 中国首个由科学家.企业家共同发起的民间公益组织颁发的世界级科学大奖--未来科学大奖,9 月 12 日正式揭晓 2021 年生命科学奖.物质科学奖.数学与计算机科学奖获奖名单. 香港大学 ...

  9. 总奖金7万美金,Kaggle近期可报名赛事,语音识别、图像识别分类领域

    本文总结 Kaggle 网站上目前尚可报名参加的一些有趣比赛,不要错过哦! ●赛题一.鸟叫识别● 参赛者需要完成自动识别声景记录中的鸟类,通过检查一个 acoustic 数据集,设计一个创新性的解决方 ...

最新文章

  1. linux mysql 2003错误代码,如何解决linux mysql2003错误
  2. 小程序webview跳转页面后没有返回按钮完美解决方案
  3. Puppet--用户自动化管理
  4. C++ 对象动态建⽴和释放 new 和 delete
  5. 解决rspec 生成报告时报utf-8错误的方法
  6. redis单主机多实例
  7. php环境搭建sqlserver,ThinkPHP5.0/5.1对接SQLServer数据库(宝塔环境)
  8. ORA-01034: ORACLE not available
  9. Hadoop---HDFS相关命令
  10. RHEL6基础二十四之RHEL软件包管理③源码安装
  11. mysql 1064 update_MySQL更新错误#1064
  12. matlab qpsk调制 函数,MATLAB_QPSK调制与解调
  13. css文章排版代码,css文章排版
  14. 计算机的运算符号,运算符号包括哪些
  15. ARM学习系列 ---- ARM公司简介
  16. 一个数据录入/查询的应用程序在登录时错误信息解决过程
  17. Express 极速掌握 1
  18. 项目组长成长记(一)
  19. 大创小组讨论会议纪要
  20. js获取根目录的方法

热门文章

  1. python创建矩阵行向量_python矩阵和向量的转置问题
  2. codeforces 贪心+优先队列_算法与数据结构基础 - 堆(Heap)和优先级队列(Priority Queue)...
  3. Android中应用安装分析
  4. Java Script中常见操作
  5. WPF系列学习之三(路由事件)
  6. javascript对于DOM加强
  7. 15个相当不错的jQuery技巧
  8. PhotoshopCS6-视觉特效插画技法-15-磨砂金属效果分析
  9. Spring中使用JDBC
  10. WCF 第十三章 可编程站点 使用WebGet和WebInvoke