【数据竞赛】Kaggle知识点:入门到进阶的10个问题
Kaggle知识点
在我们之前的分享中我们大多以具体的竞赛案例,如某个竞赛的Top解决方案来讲解具体的比赛。那么是不是有更好的学习方法呢?
答案是肯定有,大部分Kaggle赛题都是相通或者类似的,还有一些通用的问题。
问题1:赛题是哪一种类型?
首先参加Kaggle竞赛,你需要知道有哪些具体的比赛类型。具体分类如下图所示,当然有多种分类方法。
最为主要的类型区别有:
赛题的提交方式(提交结果、Kernel)
赛题问题类型(CV、NLP或结构化)
问题2:赛题问题是什么?
在确定好赛题类型后,你应该仔细阅读赛题的Overview界面弄清楚的赛题的具体问题。当然赛题描述不会很明确的说出赛题具体问题,需要选手自行进行分辨。
在回答问题2时,需要弄清楚:
赛题是CV、NLP还是结构化中的哪一种?
赛题对应于学术问题的中哪一种?
赛题我之前见过吗?有代码或知识的积累?
Kaggle有类似赛题任务吗,有选手分享吗?
问题3:赛题数据如何建模?
在弄清楚赛题类型和具体的问题后,需要弄清楚赛题问题的建模方式,这一点就涉及到具体的建模的方法和模型了。
当然也并不是所有的赛题都是新任务,Kaggler只需要熟知历史任务,并进行举一反三就可以了。在问题3你应该弄清楚:
问题有不同的建模方式,哪一种更加适合?
问题建模应该使用哪一个模型?
问题模型如何迭代,如何优化?
问题4:赛题数据的细节理解?
在了解了赛题的初步的任务和建模方法后,接下来就要深入到细节中了。你应该深入理解赛题数据的字段含义、字段产生方式和标签的产生方式。
对于结构化数据的每个字段:
字段的类型、含义是什么
字段与标签有什么关系?
在回答问题4时,可以从描述性数据分析和探索性数据分析两个角度来完成。赛题的理解决定了赛题的具体建模方式,是尤为关键的一点。
问题5:赛题使用什么模型?
问题5与问题3有点类似,但在问题5你应该回答的更加具体,
赛题具体使用到的模型是什么?
模型有哪些超参数可供选择?
有类似模型可以对比参考吗?
在回答问题5时,需要根据问题4的答案来进行接解决。首先根据赛题具体的数据类型,可以将赛题分为结构化赛题和非机构化赛题。同时在回答问题5时,你应该跑通或者写完baseline了。
问题6:模型处于那种阶段?
机器学习模型根据状态可以分为欠拟合和过拟合,当然你应该追求模型对测试集最好拟合的状态。
也就是说,你应该知道模型此时的状态。
如果模型是欠拟合你应该做什么?
如果模型是过拟合你应该做什么?
问题7:赛题上分点是什么?
当你回答完前面6个问题后,基本上你已经提交过一次答案,已经成功上榜了。但是这些还不够,与前排选手相比你的模型精度还有待优化。
因此你需要弄清楚:
前排选手与自己的精度差异在哪儿?
自己还能从哪些地方上分?
回答问题7最好的方法是阅读比赛论坛和相关论文,当然这些问题的具体答案只能自己回答自己了。从问题7开始,你开始真正的竞赛探索过程。
问题8:本地CV与线上得分?
在模型训练的过程中,本地验证集CV的得分非常重要。同时本地CV与线上得分的差异性也至关重要,也就是CV vs 线上(PB)。
在Kaggle每个比赛中,经常会有人对比自己CV与线上得分的差异性(gap)。这样对比的作用是:
寻找更好的本地CV得分;
寻找更加问题的gap;
通过问题8,你将会对赛题线上线下有初步的感知,这将会影响你的最终得分。当然分布需要细心观察,反复试验得到的。
问题9:赛题如何完成集成?
在不断回答自己问题的同时,你还需要考虑模型最终的集成问题。模型集成在有些Kaggle竞赛中非常重要,会带来精度增益。
但是模型集成是需要得分差异性,需要训练多个模型的:
如何完成stacking和简单的KFlod平均?
深度学习模型如何完成模型集成?
问题10:赛题如何完成总结?
最后的最后,在比赛完结后不管结果如何。希望你在阅读和反思比赛的历程后回答自己这些问题:
通过本次比赛我学习到什么?
我与前排选手差异在哪儿?
遇到下次类似比赛,我将如何行动?
参加比赛还是很耗费资源和时间,无论大家结果如何,希望大家都有所收获。希望大家都不要翻车~
往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑获取一折本站知识星球优惠券,复制链接直接打开:https://t.zsxq.com/662nyZF本站qq群1003271085。加入微信群请扫码进群(如果是博士或者准备读博士请说明):
【数据竞赛】Kaggle知识点:入门到进阶的10个问题相关推荐
- 【竞赛相关】Kaggle知识点:入门到进阶的10个问题
Kaggle知识点 在我们之前的分享中我们大多以具体的竞赛案例,如某个竞赛的Top解决方案来讲解具体的比赛.那么是不是有更好的学习方法呢? 答案是肯定有,大部分Kaggle赛题都是相通或者类似的,还有 ...
- lammps分子动力学 入门到进阶
1.石墨烯.金属材料建模及力学分析: 2.纳米流体模拟及流动性质分析: 3.热传导及导热系数模拟计算: 4.多成分体系(金属.合金.高熵合金)的摩擦模拟以及材料切削模拟:5.离子辐照对石墨烯.金属.碳 ...
- 大数据竞赛平台——Kaggle 入门
大数据竞赛平台--Kaggle 入门篇 这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本 ...
- 【数据竞赛】Kaggle知识点:树模型特征Embedding
在对数据进行编码的过程中,经常会遇到一些非结构化的字段(如列表.文本),或者高维稀疏的字段. 在使用树模型的过程中,上述字段对树模型很不友好,会增加树模型的训练时间,一般情况需要通过人工特征提取,然后 ...
- 北航学长的《数据竞赛入门讲义》分享:我是靠这些拿到冠军的
数据竞赛近几年在国内发展迅速,参加数据竞赛对于参赛者来说可以锻炼数据分析,算法建模的能力,运气好的话还可以获得不菲的奖金:对于公司来说,也可以从众多优秀的方案中选取有价值的部分用于自己的生产,是一件互 ...
- 【数据竞赛】Kaggle实战之单类别变量特征工程总结!
作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--类别变量完结篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...
- 数据竞赛专题 | 从赛题理解到竞赛入门基础
为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP领域多位竞赛大咖,将从赛题理解.数据探索 ...
- 《数据竞赛入门讲义》下载,北航计算机硕士两年经验总结
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:阿水,北京航空航天大学,Datawhale成员 数据竞赛近几年在国 ...
- 【数据竞赛】席卷Kaggle的调参神器,NN和树模型通吃!
作者:杰少 Optuna技术! 简 介 目前非常多的超参寻优算法都不可避免的有下面的一个或者多个问题: 需要人为的定义搜索空间: 没有剪枝操作,导致搜索耗时巨大: 无法通过小的设置变化使其适用于大的和 ...
最新文章
- 1.1.12 增加页眉横线
- WCF采用 netTcpBinding 发生的Socket errors
- java match正则不生效_[Java教程]正则表达式match()函数
- java服务器向客户端发消息_java一个简单的客户端向服务端发送消息
- css那些事儿4 背景图像
- Luogu P2319 [HNOI2006]超级英雄
- linux命令收集录
- led透明屏生产厂家_LED透明屏厂家哪家好?2020年中国深圳LED透明屏品牌排行榜...
- ajax跨越html,ajax跨域的解决方案
- .Net资源文件全球化
- 思科模拟器Cisco Packet Tracer 7.3 for Mac 安装和汉化(带安装包和汉化包)
- 【sketchup 2021】草图大师的高级工具使用3【复杂贴图制作实例(山体和球面贴图、全景天空绘制、吊顶添加光带)、图层(标记)工具使用、视图与样式工具的常规使用与高级使用说明】
- 2018第九届蓝桥杯C++省赛B组题目汇总
- linux 内核udp编程,[求助]linux内核代码udp_recvmsg()函数中的代码绕过问题。
- 还原故事的真相:少年派毫不奇幻的残酷漂流
- golang快速入门[3]-go语言helloworld
- 【coq】函数语言设计 练习题poly 总结
- 直播源码部署直播软件系统搭建!
- SDTM submission - 如何处理split domain
- android微信分享怎么自定义样式,微信更新!主题皮肤终于支持自定义了,样式超多有个性...