Datawhale

作者:鱼佬,Datawhale成员

简介:鱼遇雨欲语与余,Datawhale成员,武汉大学硕士,天池数据科学家。2019腾讯广告算法大赛冠军,数据竞赛爱好者。

当我们掌握了一定的机器学习和数据挖掘基础理论后,参加一场数据算法竞赛可以接触真实的业务和数据,将理论知识过渡到工程应用,同时可以在竞赛过程中进行反复地思考,强化对理论知识的理解。

本次分享,我将以个人竞赛经历和圈内整体情况为背景和大家聊聊如何进行一场数据挖掘算法竞赛,以及赛前、赛中和赛后需要做哪些事情。最后还将进行一个案例分享,来看看我是如何进行一场比赛的。

注:本文详细视频 晚7点在阿里天池分享,链接可回看

https://tianchi.aliyun.com/course/live?liveId=41153

主题大纲

  1. 为什么要参加数据挖掘竞赛?能带来什么?

  2. 参加竞赛需要哪些基础知识和技能?

  3. 如何选择适合自己的竞赛?

  4. 竞赛中的几个主要模块议

  5. 竞赛过程中最重要的事情

  6. 好的竞赛总结比竞赛过程更重要

  7. 案例分享( 天池“全国城市计算AI挑战赛”)

为什么要参加数据挖掘竞赛?

  • 从理论知识到从理论知识到工程应用;真实数据,增加项目经验

  • 求职加分,企业看重;企业办赛,人才选拔

  • 奖金的激励(丰厚)

  • 交友,学习,PK高手

参加竞赛需要的基础知识和技能?

  • 理论知识掌握:评价指标、数据分析、特征工程、常用模型

  • 工具的掌握

    • 语言的选择:Python

    • 可视化工具:Matplotlib、Seaborn

    • 数据处理工具:Pandas、NumPy

    • 机器学习库:Sklearn、XGBoost、LightGBM、TensorFlow

如何选择适合自己的竞赛?

  • 了解常见竞赛平台。其中包括:kaggle、天池、DataFountain、Kesci、DC竞赛

  • 了解竞赛分类。明白从领域归属、任务目标等方向划分分别有哪些类型

  • 硬件性能:自己机器的内存、显卡等性能,或者借助云服务器。根据比赛类型,比赛数据大小来确定。

  • 结合自己的研究方向

竞赛中的几个主要模块

竞赛中主要包含:赛题理解、问题建模、数据分析、数据清洗、特征工程、模型训练、模型验证、模型预测、模型融合等几个模块。

Step 1:问题建模

  • 赛题理解,关注业务场景理解、赛题数据与评价指标

  • 线下验证,其中包括:时序验证和K折交叉验证

Step 2:数据探索性分析

  • why EDA?因为需要参赛者深入了解数据、为接下来建模做准备

  • what must see? 需要重点观察数据集大小、缺失值异常值等众多信息

Step 3:特征工程

  • 数据预处理,对离群点数据、缺失值、错误值、假标签进行处理

  • 特征提取,包括类别特征、数值特征、时间特征等

  • 特征选择,掌握过滤法、封装法、嵌入法三种特征选择方法

Step 4:必备模型,对XGBoost、LightGBM模型有深入的了解

Step 5:模型融合

竞赛过程中最重要的事情

在比赛过程中,需要进行海量数据分析、不断尝试新的idea,并且多向优秀的选手学习

好的竞赛总结比竞赛过程更重要

赛后及时作总结并学习优秀方案,是帮助提升竞赛能力的最佳方式

案例分享

以天池竞赛社区-全球城市计算AI挑战赛为例,分析如何走完一个数据挖掘竞赛的流程

视频链接(或阅读原文

https://tianchi.aliyun.com/course/live?liveId=41153

“在看,给鱼佬点赞

双节棍「大师」鱼佬亲传武功秘籍:如何进行一场数据挖掘算法竞赛?相关推荐

  1. 今年天猫双11从光棍节变成双节棍:可买4天,11月1日开买

    10月20日,天猫正式发布新一代「天猫双11全球狂欢季」,代号:双节棍. 此次升级最大的变化是:不只在11月11日一天爆发,消费者可分两波购买,11月1日-3日是第一波,11月11日为第二波. 这意味 ...

  2. 双节棍---1、动作和杂记

    双节棍---1.动作和杂记 一.总结 一句话总结: · 双节棍这个事情真的告诉我,一个人可以走的很快,但是很难走远. · 多和他们一起练棍一起玩我可能会找回对双节棍的激情 1.10.02节节高? 反手 ...

  3. [LOJ3054] 「HNOI2019」鱼

    [LOJ3054] 「HNOI2019」鱼 链接 链接 题解 首先想 \(O(n^3)\) 的暴力,不难发现枚举 \(A\) 和 \(D\) 后, \((B,C)\) 和 \((E,F)\) 两组点互 ...

  4. 从“光棍节”到“双节棍”:今年的天猫双11大不一样

    十二是一个非常特殊的数字,代表着一个轮回.从十二生肖,到十二星座,莫不如是. 2020年11月11日,天猫双11也迎来了自己的第十二个年头. 从"光棍节"变成"双节棍&q ...

  5. 玩双节棍的算法工程师:鱼佬的数据挖掘之路!

    作者:鱼佬,武汉大学,Datawhale成员 作者信息 内容概括 1.什么是数据挖掘算法工程师? 2.我的数据挖掘工程师之路? 3.如何成为一名数据挖掘算法工程师? 视频地址:https://www. ...

  6. 【大数据处理技术】「#1」本地数据集上传到数据仓库Hive

    文章目录 实验数据集下载 下载实验数据集 建立一个用于运行本案例的目录dbtaobao 数据集的预处理 删除文件第一行记录,即字段名称 获取数据集中双11的前100000条数据 导入数据仓库 实验数据 ...

  7. 一个「菜鸟」转行AI的成长心得!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:太子长琴,算法工程师 本文是一个转行四年的「菜鸟」的成长心得,围绕 ...

  8. 不禁网页的浏览器_网页游戏兴衰史:「农场」没有菜,「渣渣辉」不贪玩

    本文经授权转载自 | 国家人文历史 ID |gjrwls 作者 |巴里安 200X年某月某日凌晨2点50,小明悄悄打开房门,蹑手蹑脚地走进存放笔记本电脑的房间,将拔下电源的电脑抱紧在怀里,悄悄地回了房 ...

  9. 鱼佬阿水竞赛相声:我是如何2小时杀进排名前10%的!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 鱼佬,武汉大学硕士:阿水,北京航空航天大学硕士 鱼佬:Datawhale ...

最新文章

  1. linux i2c核心,总线与设备驱动,Linux2.6.37 I2C驱动框架分析(一)
  2. 砸钱抢人抢项目,腾讯字节血拼游戏
  3. HashMap 的 7 种遍历方式与性能分析!
  4. linux 出现 ,Linux出现SIGSTOP的原因及如何处理?
  5. HDU2048 神、上帝以及老天爷【递推】
  6. MySQL读写分离详解(二)——MyCAT实战配置
  7. Elasticell-聊聊Raft的优化
  8. iOS开发日记40-详解React Native
  9. python3的spyder安装,python中spyder怎么安装
  10. PPT 2013 提升演讲逼格 视频教程
  11. python蓝屏代码_死机、卡顿、蓝屏,Python部门的老江湖告诉我的一些超级变态代码...
  12. git log 查找某天之后的提交
  13. 【debug】EACCES: permission denied, unlink
  14. C#语言实例源码系列-实现Linq操作Xml
  15. 数据库Java项目:在线租房出租房屋系统(java+springboot+maven+mysql)
  16. Cocos2d-x的学习之旅(七)更新函数Update
  17. freecodecamp----应用无障碍
  18. 2020.10月做题记录
  19. react-diagram 序列化Json解读
  20. 关于Chrome和Firefox

热门文章

  1. HTML5-用canvas画布rotate字体旋转(中国象棋棋谱)。
  2. EntityFramework Core 学习笔记 —— 创建模型
  3. Poj_1274 The Perfect Stall -二分图裸题
  4. Android深度探索--HAL与驱动开发----第一章读书笔记
  5. [转] Gradle: 此时不应有 Androidandroid-studiosdk oolslib\find_java.exe。解决方法
  6. Java设计模式之虚拟代理模式
  7. 访问 Microsoft SQL Server 元数据的三种
  8. java自定义上下文对象_Java框架_Spring应用上下文对象加载配置
  9. 首批 iPhone 13 用户直呼太“坑”:​拍照有马赛克、不能用高刷、还与 Apple Watch “失联”?...
  10. 英特尔北京2022年冬奥会体验中心落成