新发现、新理论的研究论文发表数量呈指数型增长,并且论文被引用量(H-index)通常被学术界衡量论文的影响力贡献程度。然而,随着学术界的竞争越来越激烈,部分期刊中出现了一种“强制引用”的情况,也是就论文作者需要引用该期刊的相关文章,以提高期刊的影响因子。这些行为是对任何科学家和技术人员所要求的最高诚信的冒犯,并且如果任其发展,可能会破坏公众的信任并阻碍科学技术的未来发展。该竞赛是该系列竞赛中的第一场竞赛,探讨了网络搜索和数据挖掘技术在多大程度上可以用来区分多余的引文和真实的引用识别。赛题详解可参考:https://biendata.com/competition/wsdm2020/

冠军方案

作者:应承轩
学校:大连理工大学
个人网站:https://ying.cx/
研究方向:信息检索
答辩视频:

解决方案:https://github.com/chengsyuan/WSDM-Adhoc-Document-Retrieval

答辩视频、PPT、论文:在「AI算法之心」公众号后台回复“「WSDM2020」

摘要

对语义检索任务的最新研究表明,像BERT这样的预训练语言模型具有令人印象深刻的重排序性能。在重排序过程中,将使用(查询,文档)对来提供经过微调的语言模型,并且整个时间复杂度与查询大小和召回集大小均成正比。在本文中,我们基于置信度得分描述了一种简单而有效的提前停止策略。在我们的实验中,这种策略可以避免多达30%的不必要的推理计算成本,而不会牺牲太多的排名精度。
代码:https://github.com/chengsyuan/WSDM-Adhoc-Document-Retrieval
「Our team dlutycx ranked first on the unleak track.」

方案

我们的方案主要分为三个主要阶段:

  • 数据清洗:数据丢失的文档将被删除,与此任务无关的文本也将被删除。

  • 召回阶段:通过无监督方式(例如BM25或文档嵌入相似性)从整个候选文档数据库中检索设置给定问题的候选集。

  • 排序阶段:这些文档中的每一个都通过一种计算精准度更高的方法进行评分和排名。

数据清洗

在清理步骤中,我们仅删除丢失的数据。然后,我们清除与主题不直接相关的文本。具体而言,我们删除引文中每个句子不包含("「##」").

召回阶段

在召回步骤中,我们使用Okapi BM25来衡量查询和文档之间的词汇相似度。计算公式如下:

在验证集上进行几次实验后,我们设置和。

排序阶段

在重排序步骤中,我们使用预先训练的BioBERT获得相似性评分。然后,采用交叉熵损失来微调BioBERT:

image

其中是相关段落的索引集,是使用BM25检索的前20个文档中不相关段落的索引集。为了平衡正负比率,我们对正文档19x进行了过度采样。

对BioBERT进行微调后,在重新排序时,我们将此模型用作固定评分器。在以下算法中,我们描述了广泛使用的常规重排策略:如算法1所示,常规重排序策略是简单地遍历召回集中的每个文档。正如我们在图2中可以看到的,真实文档不是均匀分布的。它们聚集在最高位置。为了解决这个问题,我们设计了一种早期停止策略。如算法2所示,当重新排名(经过微调的BERT模型)显示高置信度时,我们可以认为此文档是最相关的文档。

如图3所示,最高分的分布与图2不同。如果在重排序过程中采用算法2,则如果不相关的文件的得分大于正数,则我们可能会误将不相关的文件检索为正确文件。误报文件高于阈值。为了缓解这种问题,我们提出了一种自适应的提前停止重新排序策略,如算法3所示。我们相信基于经验的批处理大小????atch size可以减少假阳性文档,并获得增益(排行榜的指标)。

更多详细细节可以参考原始论文的解决方案:An Adaptive Early Stopping Strategy for Query-based Passage Re-ranking

http://www.wsdm-conference.org/2020/wsdm_cup_reports/Task1_dlutycx.pdf


往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载(pdf更新到25集)本站qq群1003271085,加入微信群请回复“加群”获取一折本站知识星球优惠券,请回复“知识星球”喜欢文章,点个在看

WSDM Cup 2020 引用意图识别赛道冠军解决方案(附答辩视频、PPT和代码)相关推荐

  1. KDD Cup 2020 自动图学习比赛冠军技术方案及在美团广告的实践

    ACM SIGKDD (国际数据挖掘与知识发现大会,简称 KDD)是数据挖掘领域的国际顶级会议. 美团到店广告平台搜索广告算法团队基于自身的业务场景,一直在不断进行前沿技术的深入优化与算法创新.团队的 ...

  2. 夺得WSDM Cup 2020大赛金牌的这份参赛方案,速来get!

    近日,在美国休斯敦闭幕的第13届网络搜索与数据挖掘国际会议(WSDM 2020)上,华为云语音语义创新Lab带领的联合团队,摘得WSDM Cup 2020大赛"论文引用意图识别任务" ...

  3. WSDM Cup 2020大赛金牌参赛方案全解析

    近日,在美国休斯敦闭幕的第13届网络搜索与数据挖掘国际会议(WSDM 2020)上,华为云语音语义创新Lab带领来自华南理工大学.华中科技大学.江南大学.武汉大学的四位学生组成的联合团队"X ...

  4. WSDM Cup 2020检索排序评测任务第一名经验总结

    1.背景 第13届"国际网络搜索与数据挖掘会议"(WSDM 2020)于2月3日在美国休斯敦召开,该会议由SIGIR.SIGKDD.SIGMOD和SIGWEB四个专委会共同协调筹办 ...

  5. 大满贯!清华学生超算团队获得国际大学生超级计算机竞赛(SC18)总冠军(附现场视频)...

    美国当地时间11月15日,2018国际大学生超级计算机竞赛(SC18)在达拉斯落下帷幕,清华大学计算机系超算团队摘得总冠军,总分88.398分(满分100分),高出第二名新加坡南洋理工大学11.518 ...

  6. 纯干货!2020年 WSDM Cup 大赛金牌参赛方案分享与解读

    近日,在美国休斯敦闭幕的第13届网络搜索与数据挖掘国际会议(WSDM 2020)上,华为云语音语义创新Lab带领来自华南理工大学.华中科技大学.江南大学.武汉大学学生组成的联合团队,摘得WSDM Cu ...

  7. KDD Cup 2020多模态召回比赛季军方案与广告业务应用

    ACM SIGKDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)是世界数据挖掘领域的顶级国际会议.今年,KDD Cup共 ...

  8. KDD Cup 2020 Debiasing比赛冠军技术方案及在美团广告的实践

    ACM SIGKDD (国际数据挖掘与知识发现大会,简称 KDD)是数据挖掘领域的国际顶级会议. 美团到店广告平台搜索广告算法团队基于自身的业务场景,一直在不断进行前沿技术的深入优化与算法创新.团队的 ...

  9. KDD CUP 2020之Debiasing赛道方案 (Rush)

    " 本文介绍了Rush团队在KDD CUP 2020的Debiasing赛道中的解决方案,涵盖了在召回,粗排以及精排阶段的问题思考和总结,并针对核心算法模块给出了清晰的代码实现,全程干货,推 ...

最新文章

  1. Android NDK开发之旅31 FFmpeg音频解码
  2. 关于MVC/P 的简单介绍
  3. 在WinForm中使用Web Services 来实现软件自动升级(转)
  4. python从入门到实践和从入门到精通-Python从入门到实践之列表|第1天
  5. 解惑(三)----- 深入理解Python中的self参数和__init__(self)方法--通过类比Java语言
  6. spring事务管理-演示事务的环境准备
  7. Python3实现32位整数翻转
  8. java文件操作和_JAVA文件操作类和文件夹的操作
  9. JavaScript高级之构造函数和原型
  10. 关于java_关于Java基础
  11. LIO-SAM探秘之文章索引
  12. xshell xftp免费版下载
  13. 控制系统--系统结构图
  14. adobe bridge cs6怎么卸载_怎么取消adobe bridge cs6 更新
  15. phpnow运行本地php文件,使用PHPnow搭建本地wordpress
  16. 面向ASIC的逻辑综合
  17. 波形发生器设计c语言文件,波形发生器设计方案.doc
  18. 使用curl完成POST数据给飞信接口
  19. ssh框架简单练习----------个人信息管理系统的设计与实现
  20. 使用RMAN备份时应如何处置归档日志文件

热门文章

  1. 在.NET里用XSLT时怎么使用msxsl:script
  2. 渗透测试网络环境搭建
  3. (四)建筑物多边形化简系统——“去尾巴”和分割复杂多边形
  4. BZOJ4698: Sdoi2008 Sandy的卡片
  5. 5- vue django restful framework 打造生鲜超市 -完成商品列表页(上)
  6. Django-发送注册、忘记密码邮件验证-send_mail
  7. GCD -- 倒计时
  8. eclipse乱码解决方法
  9. 标书中如何正确描述所用的统计学方法
  10. CAR-T治疗的临床前药理学模型