KDD CUP 2009年数据集介绍及链接
2009年KDD CUP
介绍--KDD Cup 2009:客户关系预测
客户关系管理 (CRM) 是现代营销策略的关键要素。"知识杯 2009" 提供了在法国电信公司橙色的大型营销数据库中工作的机会,以预测客户切换提供商 (流失) 的倾向, 购买新产品或服务 (欲望), 或购买建议的升级或附加组件, 以他们使销售更有利可图 (出售)。
在 CRM 系统中, 最实际的方法是在客户中建立知识, 从而产生分数。分数 (模型的输出) 是对目标变量的所有实例的评估 (例如, 改动、亲和力或销售)。产生分数的工具允许项目, 在给定的人口, 可量化的信息。分数是使用描述实例的输入变量计算的。例如, 信息系统使用分数来个性化客户关系。橙色实验室开发了一个工业客户分析平台, 能够建立具有大量输入变量的预测模型。该平台基于有效模型, 结合变量选择正则化和模型平均法, 实现了实例和变量选择、预测和指数的几种处理方法。这个平台的主要特点是它能够在非常大的数据集上进行扩展, 成千上万的实例和数以千计的变量。快速、稳健地检测最有助于输出预测的变量可以成为市场营销应用中的一个关键因素。 挑战在于击败橙色实验室开发的内部系统。这是一个机会, 证明你可以处理一个非常大的数据库, 包括异构的噪音数据 (数字和分类变量), 和不平衡的类分布。时间效率往往是一个关键点。因此, 竞争的一部分将受到时间限制, 以测试参与者快速提供解决方案的能力。
竞争规则
参与条件: 任何遵守挑战规则的人 (KDDcup 2009) 都欢迎参加。只有组织者被排除在外参与。KDDcup 2009 是知识发现的竞争计划的一部分在数据库会议 (发现 2009), 巴黎2009年6月28日至7月1日。参加者不需要参加将在会议上举行的 KDDcup 2009 讲习班, 讲习班对登记的任何人开放。比赛的记录将由机器学习研究研讨会和会议程序杂志 (JMLR WC 和 P) 出版。
匿名: 所有参赛者必须通过注册 KDDcup 2009 网站来识别自己。但是, 他们可能会选择匿名的名字, 并检查框 "使我的个人资料匿名 "。如果选中此框, 则只会在结果表中显示昵称, 而不是实际名称。参与者的电子邮件不会出现在网站上的任何地方, 只会被组织者用来与参与者交流。为了获得奖品, 参与者必须公开显示他们的身份并取消选中 "使我的个人资料匿名 "。
数据: 可以从数据页下载到已注册的参与者。这些数据可在几个存档中提供, 以方便下载, 并提供两个版本 ( "小 " 与230个变量, "大 " 和1.5万个变量)。参与者可以在两个版本中输入结果, 这对应于相同的数据项, 小版本的230个变量只是大版本的1.5万个变量的子集。没有真正的目标标签, 培训和测试数据都是可用的。为实践目的, "玩具 " 培训标签可与培训数据一起从挑战的开始在快速轨道。在玩具目标 (T) 的结果将不计算最终评估。真正的培训标签的任务 "改动 " (C), "欲望 " (A), 和 "销售 " (U), 将提供单独下载一半的方式, 通过挑战。
挑战持续时间和轨道: 挑战从2009年3月10日开始, 2009年5月11日结束。有两个挑战轨道:
快速 (大) 挑战: 在大型数据集上提交的结果在五天内发布的真正的培训标签将会对快速的挑战。
缓慢的挑战: 结果在小数据集和结果上的大数据集没有资格的快速挑战, 提交之前的 KDDcup 2009 截止日期 2009年5月11日, 将计数的缓慢挑战。如果在两个轨道中都有一个以上的提交, 并且有一个数据集, 则在跟踪截止日期之前的最后一个提交将被考虑到, 以确定参与者的排名并对奖品进行属性。你可以在两条赛道上竞争。这两条赛道都有奖品。
在线反馈: 在挑战中, 培训集的性能将在结果页上提供, 以及有关测试集性能的部分信息: 测试集在玩具任务 (T) 上的性能和测试的固定10% 子集的性能实际任务的示例 (C、A、U)。在挑战结束后, 将在结果表中计算并替换整个测试集的性能。
提交方法: 提交的方法是通过提交页面上的表格。要排名, 提交必须遵守指示。提交应包括对至少一项任务 (T、C、A、U) 的培训和测试设置的结果, 但可能包括几个任务的结果。提交将被视为 "完整 ", 并有资格获得奖品, 如果它包含6个文件对应的培训和测试数据预测的任务 C, A, 和 U, 无论是小的或大的数据集 (或两者)。结果在实践任务 T 将不计数作为竞争的一部分。如果您在提交过程中遇到问题, 请与 "挑战站长" 联系。允许多个提交, 但请限制自己每天最多5份提交。对于您在慢速跟踪中的最终条目, 您可以在同一存档中的任何一个或两个小数据集上提交结果 (因此您可以获得2的获胜机会)。
评估和排名: 对于每一个参赛者来说, 只有最后一个有效的参赛者才会指望在每个曲目中确定赢家 (快速而缓慢)。我们将每个参与者限制在每个曲目中的一个最终条目中 (请参阅 "常见问题解答" 页面, 了解您可以在团队中工作的条件)。有效条目必须包括所有三个实际任务的结果。评分方法张贴在 "任务" 页上。奖品将只归因于执行比基线方法更好的项目 (朴素贝叶斯)。基线方法的结果在结果页中提供。这些不是橙色组织团队获得的最佳结果, 他们很容易表现出色, 但难度很大。
数据下载
2009年 KDD CUP数据集下载
比赛结果
Rank | Team Name | Method | AUC | |||
Churn | Appetency | Upselling | Score | |||
1 | IBM Research | Final Submission | 0.7611 | 0.8830 | 0.9038 | 0.8493 |
2 | ID Analytics, Inc | DT | 0.7565 | 0.8724 | 0.9056 | 0.8448 |
3 | Old dogs with new tricks | Our own method | 0.7541 | 0.8740 | 0.9050 | 0.8443 |
4 | Crusaders | Joint Score Technique | 0.7569 | 0.8688 | 0.9034 | 0.8430 |
5 | Financial Engineering Group, Inc. Japan | boosting | 0.7498 | 0.8732 | 0.9057 | 0.8429 |
6 | LatentView Analytics | Boosting | 0.7579 | 0.8670 | 0.9034 | 0.8428 |
7 | Data Mining | Logistic | 0.7580 | 0.8659 | 0.9034 | 0.8424 |
8 | StatConsulting (K.Ciesielski, M.Sapinski, M.Tafil) | AdvancedMiner | 0.7544 | 0.8723 | 0.8997 | 0.8421 |
9 | Sigma | Decision Tree Algo | 0.7568 | 0.8644 | 0.9034 | 0.8415 |
10 | Analytics | CART | 0.7564 | 0.8644 | 0.9034 | 0.8414 |
11 | Ming Li & Yuwei Zhang | me | 0.7507 | 0.8683 | 0.9050 | 0.8413 |
12 | Hungarian Academy of Sciences | fri4 | 0.7496 | 0.8683 | 0.9042 | 0.8407 |
13 | Oldham Athletic Reserves | tiberius10 | 0.7492 | 0.8699 | 0.9026 | 0.8406 |
14 | Swetha | Logistic | 0.7550 | 0.8659 | 0.8996 | 0.8401 |
15 | VladN | vnf8c | 0.7415 | 0.8692 | 0.9012 | 0.8373 |
16 | VADIS | Bagging | 0.7474 | 0.8631 | 0.8994 | 0.8366 |
17 | brendano | random forests (res11) | 0.7468 | 0.8627 | 0.9003 | 0.8366 |
18 | commendo | 1 before noon | 0.7381 | 0.8693 | 0.8988 | 0.8354 |
19 | FEG CTeam | Boosting | 0.7389 | 0.8616 | 0.9011 | 0.8338 |
20 | Vadis Team 2 | Best final | 0.7442 | 0.8568 | 0.8996 | 0.8335 |
21 | National Taiwan University, Computer Science and Information Engineering | all2 | 0.7428 | 0.8679 | 0.8890 | 0.8332 |
22 | Kranf | TIM | 0.7463 | 0.8478 | 0.8980 | 0.8307 |
23 | Neo Metrics | final2 | 0.7454 | 0.8449 | 0.8994 | 0.8299 |
24 | ooo | 10-3 | 0.7427 | 0.8520 | 0.8920 | 0.8289 |
25 | TonyM | mymethod5 | 0.7397 | 0.8481 | 0.8988 | 0.8289 |
26 | AIIALAB | ensemble | 0.7413 | 0.8458 | 0.8969 | 0.8280 |
27 | Uni Melb | hfinal | 0.7087 | 0.8669 | 0.8996 | 0.8251 |
28 | Christian Colot | My GoldMiner | 0.7183 | 0.8577 | 0.8958 | 0.8240 |
29 | Céline Theeuws | final | 0.7346 | 0.8476 | 0.8835 | 0.8219 |
30 | m&m | final test | 0.7218 | 0.8423 | 0.8924 | 0.8189 |
31 | Predictive Analytics | Logistic | 0.7131 | 0.8336 | 0.8917 | 0.8128 |
32 | DKW | NN / Logistic Regression on Laptop | 0.6980 | 0.8449 | 0.8928 | 0.8119 |
33 | NICAL | Dys | 0.7108 | 0.8461 | 0.8707 | 0.8092 |
34 | UW | eq+uneq | 0.6804 | 0.8531 | 0.8815 | 0.8050 |
35 | Prem Swaroop | thmdkd4 | 0.6972 | 0.8384 | 0.8794 | 0.8050 |
36 | Dr. Bunsen Honeydew | submission #004 | 0.7048 | 0.8235 | 0.8760 | 0.8015 |
37 | dodio | L2 | 0.7179 | 0.8474 | 0.8356 | 0.8003 |
38 | FEG D TEAM | mix2 | 0.6997 | 0.8139 | 0.8824 | 0.7987 |
39 | minos | rdf | 0.6828 | 0.8233 | 0.8698 | 0.7920 |
40 | M | Release1 | 0.7289 |
KDD CUP 2009年数据集介绍及链接相关推荐
- 1997-2007,KDD CUP的二十年
2017年8月13-17日,第23届KDD大会在加拿大哈利法克斯召开.KDD CUP是ACM SIGKDD组织的有关数据挖掘和知识发现领域的年度赛事,作为KDD年会的重要组成部分,从1997年至今,已 ...
- KDD Cup 2021 时序异常检测总结!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 方向:时序异常检测,来源:Coggle 赛题描述 KDD Cup 202 ...
- KDD CUP 99数据集分析
背景知识 KDD是数据挖掘与知识发现(Data Mining and Knowledge Discovery)的简称,KDD CUP是由ACM(Association for Computing Ma ...
- KDD CUP 99 数据集
背景知识 KDD是数据挖掘与知识发现(Data Mining and Knowledge Discovery)的简称,KDD CUP是由ACM(Association for Computing Ma ...
- KDD CUP 1999数据集
KDD是数据挖掘与知识发现(Data Mining and Knowledge Discovery)的简称,KDD CUP是由ACM(Association for Computing Machine ...
- celeba数据集_人脸识别常用数据集介绍(附下载链接)及常用评估指标
为什么要聊到数据集这个话题..因为数据集的noise对训练效果的影响很大!很长一段时间MegaFace的效果都上不去,就是因为数据集噪声的原因.而且自己在训练人脸的时候,如果不对数据集的噪声和属性有一 ...
- KDD CUP 99 数据集解析、挖掘与下载
KDD CUP 99 数据集解析.挖掘与下载 数据特征描述 一个网络连接定义为在某个时间内从开始到结束的TCP数据包序列,并且在这段时间内,数据在预定义的协议下(如TCP.UDP)从源IP地址到目的I ...
- 【机器学习开放项目】KDD Cup 2010竞赛题目与数据集
KDD杯是一项年度性数据挖掘和知识发现竞赛,其中一些世界上最好的数据挖掘团队竞争解决一个具有一定重要性的实际数据挖掘问题. The KDD Cup is the annual Data Mining ...
- 【实践与问题解决28】最全超分辨率(SR)数据集介绍以及多方法下载链接
呆呆象呆呆的所有博客目录 文章目录 呆呆象呆呆的所有博客目录 1.常用的数据集搜索网站 2.图像超分辨率数据集 Set5 Set14 Urban100 Sun-Hays 80 Manga109 his ...
最新文章
- DHCP Snooping的作用
- 2017-2018-1 20155328 《信息安全系统设计基础》第十四周学习总结
- 教程-Win7极速优化20项
- 让后台服务不被杀———电话录音
- bash: 未预期的符号 `( 附近有语法错误_安规群中关于泄漏电流测试、接地符号等相关的6个问题,快来围观大神的回答吧!...
- Python数据结构:插入排序
- c# -- 二维码生成
- 基于RGB图像的机器人抓取算法汇总
- 程序员转项目管理之考证PMP
- 2019年java全栈工程师学习大全
- 新一届亚马逊研究奖公布!陈怡然、陈丹琦、杨笛一、吴佳俊等华人学者入选
- 唯品会API:item_search - 按关键字搜索vip商品
- 【叶神中级】四篇-3.页面访问
- 店盈通带你看拼多多开店怎样让排名靠前?
- Altium Designer基础使用
- 百度排名与谷歌排名规则
- <input>标签构建快递信息界面(HTML+CSS)
- opencv python考勤_Python+Opencv+Tkinter指纹识别与人脸识别的门禁兼考勤(二)
- 在VISTA系统下使用IPX协议
- numpy中的reshape()函数
热门文章
- H5/C3实践(2) --3D导航栏旋转木马
- API、SDK是什么
- 分布式持久内存文件系统Octopus(ATC-17 )分析(四)
- 如何安全地打开远程桌面,防止被勒索病毒攻击?
- xilinx vivado 百度云分享 vitis vivado 2019.2 2019.1 2018.3 2018.2 2017.4 (包含license)
- 专访ONEROOT孙颖俊:去中心化交易的革命之路
- 父Shell与子Shell
- 时序约束之 set_max_delay / set_min_delay
- Android slideback框架,SlideBack 一个仿 即刻 APP 滑动返回效果的 Demo @codeKK Android开源站...
- Mysql 查询所有的上级,下级