点击上方“AI遇见机器学习”,选择“星标”公众号

重磅干货,第一时间送达

内容提要:近日, kaggle 比赛曝出一个作弊事件,作弊团队通过爬取测试数据集答案作假,最终取得第一名。经举报与查证后,该团队已经被取消参赛资格,而作弊的关键人物,也被永久禁赛。

关键词:kaggle 作弊 永久禁赛

有考试的地方就有作弊,即使反作弊机制也没能防止。

近日,在 kaggle 的一项竞赛讨论页面,一个比赛组织方「PetFinder.my」宣布,名为 Bestpetting 的冠军团队,因在「PetFinder.my Adoption Prediction」比赛中作弊,已被取消参赛资格。

该比赛第一名奖金为 1 万美元

其中,该团队成员还包含一位 Kaggle  Grandmaster Pavel Pleskov,他也被永久禁赛,因为有证据表明,他是该作弊活动背后的关键人物。

而 Pavel Pleskov 在被揭发之后,已经公开道歉,并表示会尽快归还 1 万美元的奖金。但他为作弊付出的代价却不止于此。

2000 个团队参赛,前五名可获奖金

这场比赛是由马来西亚宠物福利平台「PetFinder.my」举办的,以拯救动物生命为目的的公益性比赛。平台拥有超过 15 万只动物的数据库,与动物爱好者、媒体、企业等合作,以改善动物福利。

预测宠物被领养速度,成为 kaggle 的热门赛事

该比赛的参赛者开发的算法,会被用来预测宠物的领养速度因为研究表明,宠物被领养的速度与它们在网上在线档案中的照片、描述等元数据密切相关。参赛者的任务就是找出这种相关性,帮助宠物领养机构优化宠物的电子档案,使其看上去更加有吸引力,从而提高被领养的速度,减少「安乐死」的数量。

比赛时间:该比赛于 2019 年 3 月 21 日截止报名,3 月 28 日为提交参赛作品截止日期。最终成绩于 2019 年 4 月 9 日公布。

比赛规模:比赛最终共有 2000 个团队参加,但只有前五名获得了奖金。从第一名到第五名的奖金金额分别为 1 万美元,7000 美元,5000 美元,2000 美元和 1000 美元。

「第一名」如何作弊成功骗得奖金?

获得第一名的 Bestpetting 团队,在比赛过程中,暗中爬取了私有测试数据集,并将这些数据隐藏在提交的内容中,最终赢得了比赛的一等奖,获得 1 万美元奖金。

据 PetFinder.my 公布,其具体作弊行为如下:

  • 他们以作弊的方式获得了私有测试数据的领养速度答案(可能是从主办方 PetFinder.my 的网站抓取);

  • 然后他们将这些数据和答案进行编码,混淆到一个 ID 字段中,该 ID 字段伪装成他们的外部「cute-cats-and-dogs-from-pixabaycom」的外部数据集的一部分;

  • 在处理数据时,他们对这些混进来的 ID 字段进行解码,答案在预测阶段可以被检索到;

  • 最后,他们仅使用一些经过编码的答案,以使最终分数看起来更加「真实」;

  • 这些处理过的代码被经过精心隐藏和混淆在许多嵌套函数和代码层下,故意将其设计为高度不可读且看似普通的样子

简而言之,就是该团队先通过作弊的方式预先获取了测试集的答案,然后使用了其中的一部分进行编码,比赛时再对其解码,最终把这标准答案作为自己的比赛「战果」,从而取得「优异成绩」。

迟来却并未缺席的举报 

据主办方介绍,这次作弊行为是由本杰明·米克斯霍夫(Benjamin Minixhofer)发现的。他是「PetFinder.my」比赛的第六名。

在帮主办方 PetFinder.my 将第一名的方案产品化时,本杰明·米克斯霍夫发现了第一名作弊的迹象,从而将违规行为报告给 kaggle。

kaggle 进行了深入调查之后,确认作弊实锤。除了宣布禁赛外,还将该团队从排行榜撤下,因此,其他参赛者便都提升了一个名次。这是 kaggle 平台创立以来,第一次参赛者因作弊被彻底取消资格。

对此,主办方与检举人都表示很难过。

比赛主办方称:「我们可敬的人们,包括备受尊敬的 Kaggle Grandmaster,竟然在一场为挽救动物生命的竞赛中,竭尽全力用欺骗手段获取经济利益,对此我们的确感到可悲。」

主办方还公布了作弊的详细方法,认为这也很有教育意义

检举人表示:「这件事破坏了 Kaggle 比赛的公平性,而且我费了半天劲想把他们的方案转化为生产系统,结果竟然是作弊。也许 kaggle 官方不希望我发表这篇公开了许多私人测试数据的文章,但我希望参赛者们都能从中得到一些启发。」

而 Pavel Pleskov 所在的公司 H2O.ai,也表示已经解雇 Pavel Pleskov ,并且称「从此此人与我司无任何关系」。

Pavel Pleskov 曾任 H2O.ai 公司数据科学家一职

及时道歉,他能得到原谅吗? 

事后,Pavel Pleskov 在第一时间站出来道歉,认错态度还挺诚恳,他还表示团队会尽快退还奖金。他说:「对我而言,这与金钱无关,而与 kaggle 积分有关,不断成为第一的刺激已经让我失去了判断力。」

Pavel Pleskov 表示他希望得到一些原谅,并会好好反思

此前,他因成为 Grandmaster 而被 kaggle 采访,YouTube 上的主题为「如何成为 Kaggle Grandmaster」的演讲视频有着超过 2 万次的观看记录。

昔日带着光环备受关注的他,如今名誉扫地。这就是为作弊付出的代价。对于比赛中的作弊事件,你怎么看呢?

参考来源:

https://www.kaggle.com/c/petfinder-adoption-prediction

https://www.kaggle.com/c/petfinder-adoption-prediction/discussion/125436

https://www.kaggle.com/bminixhofer/how-bestpetting-cheated

—— 完 ——

推荐阅读

干货|学术论文怎么写

资源|NLP书籍及课程推荐(附资料下载)

干货|全面理解N-Gram语言模型

资源|《Machine Learning for OpenCV》书籍推荐

欢迎关注我们,看通俗干货

作弊翻车!Kaggle 大赛第一团队获最严处分相关推荐

  1. 点石互动--robin之:渡虎谷SEO大赛第一阶段总结

    点石互动   robin 发表于 03月 16, 2007 从渡虎谷首届中文搜索引擎优化大赛启动到今日已经有3个多月,那现在的赛事情况到底如何呢?且看Robin此文的分析. 大赛竞争激烈度分析 使用& ...

  2. 中国团队狂揽5项大奖!北航团队获2021 ACM MultiMedia唯一最佳论文奖

    来源:新智元 又一场计算机学术盛会落下帷幕! 10月24日,2021 ACM MultiMedia会议顺利闭幕.会议公布了多个奖项:包括最佳论文奖.最佳学生论文奖.最佳Demo奖.最佳开源奖等9个奖项 ...

  3. 重磅 | 带学斯坦福CS231n计算机视觉课+带打全球顶级kaggle大赛

    人工智能,学到什么程度才能找一份好工作? 前几天,我们和阿里蚂蚁金服事业部的AI专家聊起了他是如何招人的.他说阿里面试的重点,已经远远不止代码编写能力,而是对算法的透彻理解和推导能力.因为仅仅靠代码无 ...

  4. 【采访】腾讯社交广告高校算法大赛第一周周冠军——郭达雅 比赛经验及心得分享

    [采访]腾讯社交广告高校算法大赛第一周周冠军--郭达雅 比赛经验及心得分享 经过一周紧张又激烈的角逐 腾讯社交广告高校算法大赛产生了第一位周冠军 他的名字叫郭达雅 一个腼腆沉静的小男孩 低调的实力派, ...

  5. 登峰杯机器人成绩_合川中学学生荣获“登峰杯”机器人大赛第一名

    今日合川网讯 日前,第三届"登峰杯全国中学生学术科技创新大赛机器人竞赛"全国总决赛结果揭晓,合川中学高2020级陈怡兵.陈杰.陈帅.张紫怡.高文浩五位同学组成的团队在指导教师梁磊. ...

  6. 腾讯广告算法大赛 | 第一周周冠军心得分享

    腾讯广告算法大赛第一位周冠军是-- 咳咳-- 听说Ta不是第一次拿周冠军, 听说Ta是谜一般的存在, 听说Ta不想让照片上推送, 没关系,这里我们不看脸,求教经验最重要! 大家好,我叫郭达雅,是中山大 ...

  7. 清华计算机系超算团队,关注 | 清华大学学生超算团队获国际超级计算机竞赛世界大学生超算竞赛总冠军...

    原标题:关注 | 清华大学学生超算团队获国际超级计算机竞赛世界大学生超算竞赛总冠军 请输入标题 bcdef 德国当地时间6月21日,国际超算竞赛(ISC17)世界大学生超级计算机竞赛总决赛在德国法兰克 ...

  8. python画结节图像_天池医疗AI大赛[第一季]:肺部结节U-Net图像分割

    Deep Learning Tutorial for Pulmonary Nodules Segmentation, using Keras 天池医疗AI大赛[第一季]:U-Net训练基于卷积神经网络 ...

  9. 计算机大赛获奖团队采访,【E+工程】星火双创·榜样说|第2届中国研究生机器人创新设计大赛获奖团队采访...

    原标题:[E+工程]星火双创·榜样说|第2届中国研究生机器人创新设计大赛获奖团队采访 第2届中国研究生机器人 创新设计大赛 大赛介绍 中国研究生机器人创新设计大赛是中国研究生创新实践系列大赛之一.清华 ...

最新文章

  1. OneFlow 并行特色
  2. 轮播图最后一张图结束如何平缓回到第一张_产品经理早期如何学习?
  3. 欢迎进入Node.js世界
  4. VS2010安装Nuget提示签名不匹配错误解决办法
  5. 2.2.5 操作系统之调度算法(时间片轮转调度算法、优先级调度算法、多级反馈队列调度算法)
  6. 有关WriteableBitmap和BitmapImage之间的相互转换
  7. filter的原理(转)
  8. Android----使用代码 建立gprs 闹钟 连接
  9. 元类被称为 Python 中的“深奥的巫术“
  10. Replace Parameter with Explicit Methods(以明确函数取代参数)
  11. Python笔记-BeautifulSoup通过查找Id获取元素信息
  12. Swift - 项目部署配置(支持的系统,设备和状态条样式等)
  13. photoshop 新建文档尺寸预设如何导出保存
  14. 学习通否认 QQ 号被盗与其有关:已报案;iPhone 14 量产工作就绪:四款齐发;简洁优雅的软件早已是明日黄花|极客头条
  15. 「源码解读」知名程序员 TJ 的 only 库
  16. 1. 简明误差卡尔曼滤波器(ESKF)及其推导过程
  17. 工具善其事,必先被苦逼的其器所钝伤然后打磨之才能利其器
  18. C#与三菱FX5U PLC以太网通讯
  19. 【实用】Visio制作坐标轴
  20. 大数据开发认知--spark

热门文章

  1. 探讨.NET Core中实现AES加密和解密以及.NET Core为我们提供了什么方便!
  2. Web service是什么?
  3. CKEditor的安装与基本使用
  4. 安装了libevent和memcached之后却发现在执行的时候出现了 error while loading shared libraries问题...
  5. jbpm4 org.hibernate.exception.ConstraintViolationException
  6. Linux函数名加数字,C++ 编译器的函数名修饰规则
  7. php负载均衡原理_Java开发大型互联网架构深入负载均衡原理之方案分析
  8. 腾讯面试题:char 和 varchar的最大长度是多少,以及他们之间的区别(看完你就能和面试官笑谈人生了)
  9. sklearn的train_test_split()各函数参数含义解释(非常全)
  10. 电流如何在导线中传播