全文共2451字,预计学习时长7分钟

图源:viaboxx

学习数据科学绝非易事。能找到一个可以分享代码、数据和想法的社区对我们的学习大有裨益,有一个地方汇聚了这些特质,那就是Kaggle。

我在大学时第一次接触了这个平台,当时,笔者正在攻读数据科学硕士学位,主攻机器学习,想看看在专业的第一堂课上自己在机器学习模型比赛的准确度挑战中能位列何处,对比在最后一堂课上又能取得怎样的名次。

笔者很快意识到,Kaggle上有成百上千的数据科学家,正在尝试提升并提交他们的评分。这么多聪明的有志之士参与竞争,让人叹为观止。除了评价技能,这一平台还可以对比代码,学习其他出色之人的新想法。在踏上成为数据科学家之旅的第一周就能得到这样的体验,笔者感到万分庆幸,不出意外,我成了这一网站的常客。

Kaggle

比赛结果

在Kaggle上,人们可以分享想法,获得启发,同其他数据科学家展开竞争,学习新事物和编程技巧,观察诸多真实数据科学应用的实例。这里有许多能应用于多种场合的数据集,或简单如电子游戏销售,或庞杂重要如空气污染数据。

这些数据取自现实世界,几经引用参考,可用来训练并评测那些真正对人有帮助的项目模型。Kaggle另有许多实用的特色功能,比如数据、代码、社区、灵感、竞赛和课程等。

优势

Kaggle有许多优势,这些都是你应当使用Kaggle的原因。

1.数据

Kaggle上有一些可用的数据集。大多数数据集的文件格式是CSV,JSON、SQLite、archives和BigQuery格式的数据集不太普遍,但依旧用途颇广。练习使用多种文件格式有所助益,你在工作中有可能遇到这些文件格式。下面是三个目前最热门的数据集。

· COVID-19开放研究数据集挑战赛

· UNCOVER COVID-19挑战赛

· ProZorro.乌克兰公共采购数据集

2.代码

Kaggle上有大量代码。如果你想查看其他Kaggle用户的不计其数的代码,在Notebooks上进行检索很方便,其中包括代码以及大多数用户对代码的注释。这能帮助我们学习和练习,并借鉴他人处理类似问题的方式。大多数人使用Python进行编程,但也不乏一些人采用包括R、SQLite和Julia在内的其他编程语言。

代码通常是记事本(又称为Jupyter Notebook)形式,保存在后缀为.ipynb的文件中。有一些展示了端到端机器学习模型的例子,其中一些包括数据提取与清洗、探索性数据分析、特征工程、基础模型创建、最终机器学习模型实现、以及结果的输出和解释。

大多数数据科学家在工作中经常用到这些步骤,因为这对于其他数据科学家和相关工作者来说,都是简便且易于遵循的流程。

code languages supported on Kaggle: Python, R, SQLite, and Julia

3.社区

与Medium、GitHub、Stack Overflow和LinkedIn类似,Kaggle作为一个社区,数据分析师、数据科学家和机器学习工程师可以在其中学习、成长和互动。

你可将自己的工作(如数据,代码和记事本文件)发布在其上和他人分享,以发展自己的社区。作为社区的成员有其独到的优势,所以笔者强烈建议以Kaggle作为起点,培养自己的社区,并与其他社区建立联系。

4.灵感

通过这里的数据、代码、社区、课程和竞赛,你可以收获绝妙的灵感。观看别人参与到对他人和企业有助益的比赛之中,欣赏其精彩发挥,这着实激励人心。

如果你正在思索下一步该学习什么,亦或是如何实现某一功能,也许应该看一看别人如何实现某一模块,例如以特定方式实现随机森林。你可以在Kaggle上找到这些,最终激励自己更上一层楼。

5.竞赛

如果你想检测自己的水平,了解自己在同行中的排名,丰富简历或者挣些外快,竞赛是个合适的选择。Kaggle提供了不计其数的竞赛,上面的截图显示了排行前三的竞赛及其对应的奖金。这些比赛不但趣味盎然,而且意义深远(例如助力健康事业)。

笔者借助Kaggle上的赛事来对比自己的前后表现。起初,笔者仅掌握了些许数据科学方面的知识;后来有了将近两年的数据科学从业经验。两相比较,意料之中的进步显著。

笔者在将近8000人中位列前50%,这对于初出茅庐的人来说不算差。不难看出,当有成千上万的数据科学家为同一个目标而展开竞争时,能为识别某些健康异常的项目做出何等巨大的贡献。

6.课程

图源:unsplash

我还发现Kaggle开设有一些数据科学课。我个人最喜欢这里的一些SQL课程,因为作为数据科学家,最需要的就是SQL。与其他课程网站相比,这里的机器学习的可解释性和游戏AI与强化学习导论也是比较独特的课程。下面是能在Kaggle上找到的所有课程:

PythonIntro to Machine LearningIntermediate Machine LearningData VisualizationPandasFeature EngineeringDeep LearningIntro to SQLAdvanced SQLGeospatial AnalysisMicrochallengesMachine Learning ExplainabilityNatural Language ProcessingIntro to Game AI and Reinforcement Learning

Kaggle能为锐意进取的优秀数据科学家提供丰富的资源,千万不要错过它。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

ipynb是什么文件_数据科学家的神器:为什么大家都用Kaggle?相关推荐

  1. 西雅图治安_数据科学家对西雅图住宿业务的分析

    西雅图治安 介绍 (Introduction) Airbnb provides an online platform for hosts to accommodate guests with shor ...

  2. 知识产权大数据平台_数据科学家的知识产权

    知识产权大数据平台 Data Scientists use software they didn't write and data they don't own pretty much all the ...

  3. 数据模型最佳实践_数据科学家应了解软件工程最佳实践

    数据模型最佳实践 意见 (Opinion) 介绍 (Introduction) I have been eagerly researching, speaking to friends and tes ...

  4. 数据探查_数据科学家,开始使用探查器

    数据探查 Data scientists often need to write a lot of complex, slow, CPU- and I/O-heavy code - whether y ...

  5. 数据科学家 数据工程师_数据科学家应该对数据进行版本控制的4个理由

    数据科学家 数据工程师 While working in a software project it is very common and, in fact, a standard to start ...

  6. os.popen read()报编码错误_数据科学家易犯的十大编码错误,你中招了吗?

    选自 Medium 作者:Norm Niemer 机器之心编译 参与:李诗萌.王淑婷 数据科学家比软件工程师擅长统计,又比统计学家擅长软件工程.听起来牛逼轰轰,事实却是,许多数据科学家有统计学背景,却 ...

  7. 快速近似最近邻算法_数据科学家指南,以选择最佳近似最近邻算法

    快速近似最近邻算法 by Braden Riggs and George Williams (gwilliams@gsitechnology.com) Braden Riggs和George Will ...

  8. 数据科学家 数据工程师_数据科学家实际上赚了多少钱?

    数据科学家 数据工程师 目录 (Table of Contents) Introduction介绍 Junior Data Scientist初级数据科学家 Mid-Level Data Scient ...

  9. 面向数据科学家的实用统计学_数据科学家必知的统计数据

    面向数据科学家的实用统计学 Beginners usually ignore most foundational statistical knowledge. To understand differ ...

最新文章

  1. 【知识碎片】Asp.Net 篇
  2. 009_JMS中的事务
  3. GDB入门:A GDB Tutorial with Examples
  4. LeetCode 629. K个逆序对数组(DP)
  5. php通过字符串生存hashCode
  6. 开发中常用的加密算法大全初步总结
  7. 【JS】用JS发送电子邮件
  8. 认知神经学lecture1---感受与感知
  9. application.html.erb
  10. 关于无刷电机驱动器的布板建议(FOC)
  11. win11系统下word文档中鼠标指针消失解决方案
  12. QMenu 设置菜单图标 生成菜单树
  13. 2006.7-8,九方公司网站维护
  14. 竖排显示变横排显示的方法
  15. 泰州电信内部正是由于上述反应不及时的问题
  16. html图片颜色加深,PS图层混合模式解析:变暗/正片叠底/颜色加深/线性加深/深色...
  17. 智邦国际31.85版本ERP系统好不好用?有哪些作用?
  18. 连连看算法js实现解析(降维改进版)--附自制小程序「五十音连连看」助记平假名/片假名
  19. 优傲机器人UR ROBOT socket通信脚本解释
  20. python3基础教程pdf下载-廖雪峰Python3基础教程完整版电子书免费下载

热门文章

  1. C/C++由字符串转JSON/JSON转字符串/数组解析/数组添加
  2. 二维傅里叶变换是怎么进行的?
  3. DirectX学习笔记_关于Sprite.Draw2D的说明
  4. MFC的Main函数跑哪去了
  5. uni-app-微信小程序实现输入卡号 每四个为一组中间为空格(也可以取消空格)
  6. 清理临时目录mysql,把MySQL的临时目录迁移到内存上-临时文件夹
  7. 以独占方式锁定此配置文件失败.另一个正在运行_JVM深入解析:运行时数据区+HotSpot+JMM+堆+GC+JVM优化+类加载
  8. 程序员基本功04JAVA的内存回收
  9. mysql dump hbase_mysqldump导出全数据库
  10. 哨兵2号波段_艾略特波段理论分析,A50和恒指走势的蛛丝马迹,完全暴露A股主力意图!...