你可能听说过Kaggle数据科学竞赛,但你知道Kaggle还有许多其他功能,可以帮助你完成机器学习项目吗?对于为机器学习项目寻找数据集的人,Kaggle允许你访问别人的公共数据集,并共享你自己的数据集。对于那些希望构建和训练自己的机器学习模型的人,Kaggle还提供了浏览器上notebook开发环境和一些免费的GPU时长。你也可以查看其他人的公开的notebook!

除了网站之外,Kaggle还有一个命令行界面(CLI),你可以在命令行中使用它来访问和下载数据集。

概述

本博客分为五个部分;它们是:

  • Kaggle是什么?
  • 设置Kaggle notebook
  • 在kaggle中使用 gpu / tpu
  • 使用Kaggle数据集
  • Kaggle CLI工具

Kaggle是什么?

Kaggle最出名的可能是它主办的数据科学比赛,其中一些比赛提供5位数的奖金池,有数百支队伍参加。除了这些比赛,Kaggle还允许用户发布和搜索数据集,这些数据集可以用于他们的机器学习项目。要使用这些数据集,您可以在您的浏览器或Kaggle的公共API中使用Kaggle notebook下载他们的数据集,然后用于机器学习项目。


除此之外,Kaggle还提供了一些课程和一个讨论页面,让你了解更多关于机器学习的知识,并与其他机器学习从业者交流!

设置Kaggle Notebook

要开始使用Kaggle Notebooks,需要使用谷歌帐户或使用您的电子邮件创建一个Kaggle帐户。
然后,进入“Code”页面。

你可以看到你自己的notebooks,也可以看到别人公开的notebooks。要创建自己的笔记本,点击“New Notebook”。


这将创建一个新的notebook,它看起来像一个Jupyter notebook,有许多类似的命令和快捷方式。

您还可以通过转到File ->Editor Type在笔记本编辑器和脚本编辑器之间进行切换。

将编辑器类型改为script显示如下:

在Kaggle中使用 gpu / tpu

谁不喜欢机器学习项目的免费GPU呢?gpu可以极大地加速机器学习模型的训练和推理,尤其是深度学习模型。

Kaggle提供了一些免费的gpu和tpu分配,您可以将它们用于您的项目。在撰写本文时,在用电话号码验证您的帐户后,gpu每周可用30小时,tpu每周可用20小时。

如果想在笔记本电脑上安装加速器,请访问Settings ▷ Environment ▷ Preferences.


您将被要求用电话号码验证您的帐户。

然后这一页列出了你剩下的可用量,并提到打开gpu会减少可用的cpu数量,所以这可能只是在用神经网络进行训练/推理时的一个好主意。

Kaggle Notebook使用Kaggle数据集

机器学习项目是渴求数据的怪物,为我们当前的项目寻找数据集或寻找数据集来启动新项目总是一件苦差事。幸运的是,Kaggle有一个丰富的数据集,由用户和比赛贡献。对于为当前机器学习项目寻找数据或为项目寻找新想法的人来说,这些数据集可是一个宝库。

让我们探索如何将这些数据集添加到我们的Kaggle笔记本。

首先,单击右边栏的Add data

这时会出现一个窗口,显示一些公开可用的数据集,你也可以上传自己的数据集,用来开发。

在本博客中,我将使用经典的titanic数据集作为我的例子,你可以通过在窗口右上角的搜索栏中输入你的搜索词来找到它。

之后,该数据集就可以供notebook使用了。要访问这些文件,请查看文件的路径并添加../input/{path}。例如,titanic数据集的文件路径是:

../input/titanic/train_and_test2.csv

执行notebook第一个单元格的代码,就可以显示所有数据的路径

在notebook中,我们可以使用以下方法读取数据:

import pandaspandas.read_csv("../input/titanic/train_and_test2.csv")

利用Kaggle CLI工具使用Kaggle数据集

Kaggle也有一个带有CLI工具的公共API,我们可以使用它来下载数据集,与竞赛交互,以及更多。我们将研究如何使用CLI工具设置和下载Kaggle数据集。

首先,使用以下命令安装CLI工具:

pip install kaggle

对于Mac/Linux用户,你可能需要:

pip install --user kaggle

然后,您需要为身份验证创建一个API令牌。进入Kaggle的网页,点击右上角的个人资料图标,进入Account


从那里,向下滚动创建新的API令牌:

这将下载一个kaggle.json。您将使用Kaggle CLI工具对自己进行身份验证。你必须把它放在正确的位置,它才能工作。对于基于Linux/Mac/ unix的操作系统,这应该放在~/.kaggle/kaggle。对于Windows用户,它应该放在C:\Users\<Windows-username>\.kaggle\kaggle.json.

把它放在错误的位置并在命令行中调用kaggle将会给出一个错误:

OSError: Could not find kaggle.json. Make sure it’s location in … Or use the environment method

现在,让我们开始下载这些数据集吧!
要使用搜索词搜索数据集,例如,titanic,我们可以使用:

kaggle datasets list -s titanic

根据搜索,我们得到:

kaggle datasets list -s titanic
ref                                                          title                                           size  lastUpdated          downloadCount  voteCount  usabilityRating
-----------------------------------------------------------  ---------------------------------------------  -----  -------------------  -------------  ---------  ---------------
datasets/heptapod/titanic                                    Titanic                                         11KB  2017-05-16 08:14:22          37681        739  0.7058824
datasets/azeembootwala/titanic                               Titanic                                         12KB  2017-06-05 12:14:37          13104        145  0.8235294
datasets/brendan45774/test-file                              Titanic dataset                                 11KB  2021-12-02 16:11:42          19348        251  1.0
datasets/rahulsah06/titanic                                  Titanic                                         34KB  2019-09-16 14:43:23           3619         43  0.6764706
datasets/prkukunoor/TitanicDataset                           Titanic                                        135KB  2017-01-03 22:01:13           4719         24  0.5882353
datasets/hesh97/titanicdataset-traincsv                      Titanic-Dataset (train.csv)                     22KB  2018-02-02 04:51:06          54111        377  0.4117647
datasets/fossouodonald/titaniccsv                            Titanic csv                                      1KB  2016-11-07 09:44:58           8615         50  0.5882353
datasets/broaniki/titanic                                    titanic                                        717KB  2018-01-30 04:08:45           8004        128  0.1764706
datasets/pavlofesenko/titanic-extended                       Titanic extended dataset (Kaggle + Wikipedia)  134KB  2019-03-06 09:53:24           8779        130  0.9411765
datasets/jamesleslie/titanic-cleaned-data                    Titanic: cleaned data                           36KB  2018-11-21 11:50:18           4846         53  0.7647059
datasets/kittisaks/testtitanic                               test titanic                                    22KB  2017-03-13 15:13:12           1658         32  0.64705884
datasets/yasserh/titanic-dataset                             Titanic Dataset                                 22KB  2021-12-24 14:53:06           1011         25  1.0
datasets/abhinavralhan/titanic                               titanic                                         22KB  2017-07-30 11:07:55            628         11  0.8235294
datasets/cities/titanic123                                   Titanic Dataset Analysis                        22KB  2017-02-07 23:15:54           1585         29  0.5294118
datasets/brendan45774/gender-submisson                       Titanic: all ones csv file                      942B  2021-02-12 19:18:32            459         34  0.9411765
datasets/harunshimanto/titanic-solution-for-beginners-guide  Titanic Solution for Beginner's Guide           34KB  2018-03-12 17:47:06           1444         21  0.7058824
datasets/ibrahimelsayed182/titanic-dataset                   Titanic dataset                                  6KB  2022-01-27 07:41:54            334          8  1.0
datasets/sureshbhusare/titanic-dataset-from-kaggle           Titanic DataSet from Kaggle                     33KB  2017-10-12 04:49:39           2688         27  0.4117647
datasets/shuofxz/titanic-machine-learning-from-disaster      Titanic: Machine Learning from Disaster         33KB  2017-10-15 10:05:34           3867         55  0.29411766
datasets/vinicius150987/titanic3                             The Complete Titanic Dataset                   277KB  2020-01-04 18:24:11           1459         23  0.64705884

要下载该列表中的第一个数据集,我们可以使用:

kaggle datasets download -d heptapod/titanic --unzip

使用一个Jupyter Notebook来读取文件,类似于Kaggle Notebook的例子,我们得到:

参考

Kaggle: https://www.kaggle.com
Kaggle API文档:https://www.kaggle.com/docs/api

应用kaggle进行机器学习项目开发相关推荐

  1. 《机器学习项目开发实战》送书活动结果公布

    截止到8月8日24:00,本次送书活动 共收到70位同学参与回复,本次很多同学在看到活动的书<机器学习项目开发实践>,自行就到各大网络商店上购买了书,据反馈这个书很不错,小二昨天也收到一本 ...

  2. Java语言开发在线购物推荐网 购物商城推荐系统 基于用户、物品的协同过滤推荐算法 SSM(Spring+SpringMVC+Mybatis)开发框架 大数据、人工智能、机器学习项目开发

    Java语言开发在线购物推荐网 购物商城推荐系统 基于用户.物品的协同过滤推荐算法 SSM(Spring+SpringMVC+Mybatis)开发框架 大数据.人工智能.机器学习项目开发ShopRec ...

  3. Java语言开发在线音乐推荐网 音乐推荐系统 网易云音乐爬虫 基于用户、物品的协同过滤推荐算法 SSM(Spring+SpringMVC+Mybatis)框架 大数据、人工智能、机器学习项目开发

    Java语言开发在线音乐推荐网 音乐推荐系统 网易云音乐爬虫 基于用户.物品的协同过滤推荐算法 SSM(Spring+SpringMVC+Mybatis)框架 大数据.人工智能.机器学习项目开发Mus ...

  4. 使用Java+SSM(Spring+SpringMVC+Mybatis)开发在线美食推荐网 美食推荐系统 美食天下美食爬虫 基于用户、物品的协同过滤推荐算法实现 大数据、人工智能、机器学习项目开发

    使用Java+SSM(Spring+SpringMVC+Mybatis)开发在线美食推荐网 美食推荐系统 美食天下美食爬虫 基于用户.物品的协同过滤推荐算法实现 大数据.人工智能.机器学习项目开发Fo ...

  5. Java开发在线购物推荐网 购物商城推荐系统 基于用户、物品的协同过滤推荐算法 京东商城爬虫 SSM(Spring+SpringMVC+Mybatis)开发框架 大数据、人工智能、机器学习项目开发

    Java开发在线购物推荐网 购物商城推荐系统 基于用户.物品的协同过滤推荐算法 京东商城爬虫 SSM(Spring+SpringMVC+Mybatis)开发框架 大数据.人工智能.机器学习项目开发Sh ...

  6. Java语言开发在线美食推荐网 美食推荐系统 基于用户、物品的协同过滤推荐算法实现 SSM(Spring+SpringMVC+Mybatis框架 人工智能、大数据、机器学习项目开发

    Java语言开发在线美食推荐网 美食推荐系统 基于用户.物品的协同过滤推荐算法实现 SSM(Spring+SpringMVC+Mybatis框架 人工智能.大数据.机器学习项目开发FoodRecomm ...

  7. 使用Google colab进行机器学习项目开发

    您是否曾经想要一个易于配置的交互环境来运行您的机器学习代码,免费访问图GPU?Google Colab 正是我们要找的.在云上运Jupyter notebooks是一种方便易用的方式,但是免费版本对G ...

  8. 【送书活动】机器学习项目开发实战

    出版时间  2016-08-01 定价:59元 作者: Mathias Brandewinder是Microsoft F# 最有价值专家(MVP),住在加州旧金山,在那里他为Clear Lines C ...

  9. 机器学习项目开发实战,应用

    1.图像分类----分类 1.1模型---构建一个数字识别系统 数据集组织,图像由像素点组成 读取数据, 从CSV文件读取数据放入一组观测值中, 计算图像之间的距离,取得两个像素数组,并返回描述它们的 ...

最新文章

  1. 区块链和智能合约的关系
  2. python实现cc攻击_运维纪录:遭遇CC攻击,防御与查水表
  3. 阿里云Elasticsearch 智能化运维实践
  4. 问题战略[置顶] 十八年开发经验分享(四)问题解决篇(下)
  5. 绿联网卡转接mac设置_物联网卡这样设置一下上网全程4G!建议收藏!
  6. Twitch 沈悦时:国内外互联网直播生态差异
  7. 分享几个可供学习,休闲的网站
  8. vue3新增Suspense组件
  9. pygame之key模块
  10. vmware 安装报错:failed to install hcmon drivers 完美解决(含VMware15激活码)
  11. python matplotlib 矢量图svg emf
  12. 分布式系统与海量数据处理
  13. 【思科模拟器实验】三层交换机(1)
  14. java支付宝提现发请求没反应_支付宝调用页面无法显示
  15. Liunx安装Ubuntu系统
  16. 《持续集成实践指南》第1章 DevOps实践简介
  17. [含lw+源码等]微信小程序考勤签到管理系统+后台管理系统[包运行成功]Java毕业设计计算机毕设
  18. 7-1 汽车加油问题
  19. 体验腾讯云区块链服务平台TBaaS
  20. 第一节 模式识别的基本概念

热门文章

  1. 温暖、醇厚 - 小可评测Peluso P49电子管话筒
  2. lims实验室管理系统试用版应该有哪些功能?都在这了
  3. mysql开启mrr_MySQL MRR介绍
  4. php微信小程序支付
  5. 【排错】光纤故障处理思路
  6. Cycle-GAN 与 ADN
  7. hdfs auditlog(审计日志)
  8. 办公技巧,习题表格排序
  9. WiGig 和 WirelessHD 和 802.11ac
  10. win 10计算机文件,教你win10电脑怎么打开ai文件