如果你打算研究机器学习或是今后想从事数据科学相关的工作,Kaggle应该是一个绕不过去的名字。

Kaggle是2010年在旧金山创立的一个数据建模和数据分析竞赛平台,在很短的时间内就声名鹊起,去年被google收购,在业界具有很高的知名度和权威性,企业可以在上面发布数据和想要解决的问题,并进行“悬赏”,数据科学家和机器学习的爱好者们可以基于这个平台提交自己的模型和预测结果,平台会根据测试集对参赛者进行评分排名,排名最高几位可以分享奖金,更重要的是,kaggle为全世界数据分析及机器学习爱好者们提供了一个交流学习的平台,里面不乏机器学习的顶尖高手,各大公司也常年在kaggle上招募比赛名次好的团队和选手,良好的kaggle竞赛履历绝对是简历上的加分项,如果你参加过多次Featured(商业问题,有奖金)和Research(学术类)类型的比赛,并且多次进入TOP10%甚至TOP5%,那么你只用蹲在家里,猎头自会找上门。

Kaggle分为5个大的板块:

- Competitions(竞赛)

分为商业竞赛、学术类竞赛、入门级竞赛和一些由大公司如Google、Fackbook不定时举办的邀请赛。

- Datasets(数据集)

公司或个人贡献的各类型的数据集,搞机器学习最怕找不到数据,kaggle给大家获取数据练习提供了一些捷径。

- Kernels(数据分析及建模)

有点类似GitHub的代码管理,说直白点就是给用户提供了云上的数据分析和建模的环境,不过涉及到代码上传,我厂童鞋请慎用...

- Discussion(讨论区)

里面有全世界各地的数据科学、机器学习的专家和爱好者,针对题目、算法、建模等热烈的讨论,冥思苦想几天的问题看看大牛们的解题思路说不定就秒懂。

- Jobs(工作)

一些公司会直接在kaggle上放出数据挖掘、机器学习类的岗位,基本都是欧美的中小型公司。

一、Kaggle竞赛的一般步骤

下图是kaggle竞赛步骤的简单示意图,中间迭代的步骤也可以看做是一般机器学习建模及验证的步骤,需要特别注意的是,比赛结束以前,kaggle提供用来验证的测试数据集是Public数据集,提供给大家进行及时验证和反馈模型效果的,所以在Publlic Leaderboard上的排名和得分并不是最终结果,待比赛结束后,会用Private数据集进行最终的计分和排名,目的是防止模型过拟合,能真正在未知数据上取得好成绩的才是优秀的模型。

好了,说了这么多,不在Kaggle上刷刷榜,怎么好意思说自己在学习数据挖掘和机器学习呢:-),我们以Kaggle上最为知名的入门题目 Titanic: Machine Learning from Disaster(利用机器学习预测泰坦尼克乘客是否生还)为例,看看怎么玩Kaggle。

二、软件环境

sklearn + numpy + pandas + seaborn

我使用的是sklearn,很成熟的机器学习框架,最新版本也支持深度神经网络,当然数据处理和可视化还需要用到numpy,pandas,seaborn,当然你也可以使用tensorflow等其他框架,kaggle并不要求上传模型本身,只需要预测结果就可以了,强烈推荐大家使用python3.6的科学发行版Anaconda,这些库里面都有。

三、理解题目&下载数据

题目地址:https://www.kaggle.com/c/titanic
这是Kaggle上热度最高的题目,迄今为止参赛的队伍已经超过10000支,基本上所有参与Kaggle的人都会拿这个题目练手。所以题目虽简单,但取得好的名次也不容易。

Kaggle机器学习入门实战 -- Titanic乘客生还预测相关推荐

  1. Titantic乘客生还预测数据分析报告—基于python实现

    Titantic乘客生还预测数据分析报告-基于python实现 1. 问题提出 2. 数据描述 3. 特征独立分析 4. 数据处理 5. 模型评估 1. 问题提出 Titantic数据集是Kaggle ...

  2. 机器学习项目实战(五) 住房价格预测

    机器学习项目实战系列   住房价格预测 目录 机器学习项目实战系列   住房价格预测 一.概述 二.分析数据 1.数据导入 2.基础统计运算 3.特征观察 4.建立模型 5.分析模型表现 (1)学习曲 ...

  3. 《机器学习入门实战》第 01 篇 如何入门机器学习?

    文章目录 机器学习与数据挖掘 传统入门方法的问题 逆向学习方法 专栏内容介绍 目标人群 专栏章节 机器学习与数据挖掘 如果你是一个想要入门数据科学的初学者,首先需要面对的就是各种相关的名词和概念.例如 ...

  4. kaggle竞赛入门:titanic数据预测学习(翻译)

    原文地址:https://www.kaggle.com/startupsci/titanic-data-science-solutions/notebook 我已经发布了一个新的Python库Spee ...

  5. 机器学习入门实战---波士顿房价预测

    波士顿房价预测 波士顿房价数据集介绍 波士顿房价数据说明:此数据源于美国某经济学杂志上,分析研究波士顿房价( Boston HousePrice)的数据集.数据集中的每一行数据都是对波士顿周边或城镇房 ...

  6. 机器学习决策树算法泰坦尼克号乘客生存预测

    目录 1 决策树算法api 2 泰坦尼克号乘客案例背景 2.1 步骤分析 2.2 代码实现 2.3 决策树可视化 2.3.1 保存树的结构到dot文件 2.3.2 网站显示结构 3 决策树总结 4 小 ...

  7. 初学者的机器学习入门实战教程!

    点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」,购票请扫码咨询 ↑↑↑ 作者 | Adrian Rosebrock 译者 | kbsc13,京东算法工程师,研究领域计算机视觉 来源 ...

  8. 机器学习(实战)facebook地址预测

    目录 一.读取数据 二. 数据处理 1.缩小数据范围 2.得到正常时分秒 2-1.时间戳化时分秒 2-2.得到时间列表 2-3.添加时间信息到数据data中 3.得到数据集 3-1.获取各地点签到次数 ...

  9. 机器学习入门04——共享单车数据预测实验

    共享单车骑行数据预测 任务说明 1. 任务描述 请在Capital Bikeshare (美国Washington, D.C.的一个共享单车公司)提供的自行车数据上进行回归分析.根据每天的天气信息,预 ...

最新文章

  1. Jsp实现BBS论坛交流系统
  2. html网页自动铺满屏幕,如何使HTML元素的区域铺满全屏
  3. iOS Airplay Screen Mirroring 同屏技术详解
  4. latex-bib参考文献人名特殊字符
  5. 数据库实验二 SQL语言
  6. CSS 实现按钮及线呼吸灯效果
  7. Spring MVC 流程图解析
  8. JavaScript字符集编码与解码
  9. Tricks(四十二)—— 数据集分块
  10. html向php传中文没有值,php - 为什么我的PHP / HTML表单没有向我发送数据 - SO中文参考 - www.soinside.com...
  11. 聊聊reactive streams的schedulers 1
  12. 从拉新、促活/留存和营收说起,做运营到底是在做什么?
  13. C++泛型编程——迭代器
  14. 学材分析计算机一体化,计算机一体化课教案.doc
  15. 《彩虹屁》快夸夸我!彩虹屁生成器
  16. 三角脉冲信号的表达式_脉冲发生器产生一个单三角脉冲,其波形如图所示,例1写出电压U 与.pdf...
  17. 网络编程之Socket零基础入门Demo
  18. 关键词竞争度如何分析?
  19. [VB.NET]设置TextBox的提示文字
  20. as 运行java 程序失败,为JBoss AS 7运行Java服务包装程序时出错

热门文章

  1. C++中#if,#ifdef,ifndef
  2. ptr = (char *)malloc(0)
  3. 常考数据结构与算法:在二叉树中找到两个节点的最近公共祖先
  4. Access界面基础操作
  5. 教你一招画素描, 不写程序时陶冶陶冶情操
  6. matlab练习程序(图像旋转,最邻近插值)
  7. 设计模式 之 适配器模式
  8. Linux01-bash脚本编程之六使用脚本选项及组合条件测试23
  9. DOS下处理含特殊字符[如:]的字符串
  10. 一天一点T-SQL:使用登录触发器进行安全管控