通过关注这5件事来提高你的学习曲线,而不是参加更多的在线课程。

本文来自Julia Nikulski

许多指南都会给一些建议,说明如何开始数据科学:要上哪些在线课程,为你的投资组合实施哪些项目,以及要获得哪些技能。但是如果开始了学习,有些人却不知道下一步该怎么办?

我想分享我关注的5件事情,这确实帮助我提高了数据科学学习,并建立了更深刻的知识和技能,提高了我的技术和非技术能力,以实施成功的项目并取得成果。如果你还在徘徊期,不妨可以试试。

1.从头到尾参与大项目的执行

大多数人往往会从实践中学到最好的东西,这就是为什么在线课程通常会教一种技能或概念,然后要求在一个小练习或项目中实施。所以在项目上工作会教会你很多,虽然从头到尾实施大型项目,可能会有很多陷阱,这将教会更多知识。

如果你作为在线课程的一部分参与一个项目,那么研究问题、数据集,有时甚至无需选择模型和评估指标,只需要关注代码和实现。然而,决定一个研究问题、数据集、模型和评估指标实际上是棘手的部分!

无论数据分析师、BI分析师还是数据科学家,部分工作都是识别大量数据中的模式,而无需任何人告诉具体要查找什么。在其他情况下,您可能要调查一个特定的问题,但没有数据集,需要考虑可以使用什么来回答这个问题以及如何获取它。

为了练习实现之外的技能,应该从头开始开发自己的项目—从研究问题开始,到部署结束。以下资源可帮助你完成此任务:

1、开发项目想法:如果你需要灵感来提出独特的数据科学项目想法。

2、项目规划方法:本文介绍了10种不同的方法来帮助规划和管理数据科学项目。它们包括CRISP-DM、agile、ad hoc、和waterfall方法。

3、数据科学项目结构:Cookiecutter Data science提供了一个标准化的项目结构,帮助创建可复制的、自文档化的项目。它考虑了项目中的所有步骤——从收集和转换数据到生成包含结果的报告。

除了从开始到完成一个项目的实施,对更大项目的关注也会增加学习经验,同时处理大型数据集、实现更多的模型和回答更多的问题将出现更多的问题和困难。虽然实践可能会令人沮丧,但它实际上教会了宝贵的知识和技能。面对一个问题,然后自己解决,这是一种比被告知潜在问题及其解决方案更有效的学习方式。

2.创建自己的数据集

对于许多数据科学家来说,建模是最令人兴奋的一部分——找出要使用的算法、实现、微调和评估它们,但需要高达80%的时间来处理数据收集和清理。

因此,了解什么样的数据与特定的研究问题相关,在哪里以及如何获取这些数据,以及采取什么样的预处理步骤是至关重要的。您应该练习web抓取,熟悉提供现有数据集和api的源代码(可以对其进行组合和扩展),并转换数据以进行进一步的分析和建模。

尽管许多项目组合需要一次性获取数据,但现实中的应用程序通常需要ETL管道不断地提取、转换和加载新数据。因此,通过编写一个脚本,不断地提取新数据、转换数据并将其保存到数据库中,就可以将数据采集转化为ETL过程。

以下资源可帮助开始创建自己的数据集和ETL管道:

Kaggle上的数据集:Kaggle上的用户共享了他们创建的数百个数据集。其中许多解释了获取数据的来源和过程,并让您知道在哪里可以找到数据。

数据科学的网页抓取:

Kerry Parker为数据科学家写了一本关于网络抓取的指南。

数据科学API:22个API-包括IBM Watson、Spotify和Census.gov-为数据科学和机器学习提供数据。

AwesomeETL:用各种语言(包括Python)构建ETL管道的资源概述。

3.阅读学术论文

当我想获得一个主题的高层次概述或了解算法的基本机制时,我会去找包括关于数据科学和其他网站的博客文章。然而,一个高层次的理解只能让你走这么远。

阅读介绍、比较和对比算法和机器学习方法的学术论文,将提供比任何博客文章都更深刻的知识。例如,了解为什么引入某个特定的算法,它在数学上是如何工作的,有哪些其他研究和模型可以解决类似的问题,以及未来的研究需要解决哪些问题。

此外,阅读学术论文有助于掌握所在领域的最新进展,ML算法和NLP模型都是由研究人员开发的,并在random forests、XGBoost、BERT、GPT-3等论文中介绍。

通过定期阅读学术论文获得的知识,将能够更好地解释算法的内部工作原理,为用例选择合适的模型,并证明自己的决策是正确的。读科学著作可能很难也很累,但这是值得的。

以下资源可以帮助您开始学习学术论文:

1、学术论文阅读指南:

Kyle M Shannon解释了为什么阅读学术著作是如此困难,以及如何才能在这方面做得更好。

2、深度学习论文阅读:

Robert Lange每月出版推荐的深度学习论文新摘要。

3、RSS提要:使用RSS提要来更新最新的研究,arXiv feed允许访问与特定类别相关的研究,如计算机科学、统计学或机器学习。

4.写技术博客

根据 Feynman技术,向别人解释一个话题是自我学习的好方法。当在Medium或TDS上写关于数据科学的技术文章时,需要足够详细地理解材料,以便向读者解释。因此,写数据科学是 Feynman技术的一个很好应用。

写技术文章的一个极好的好处是有自己的资源,如果想重新了解一下刚才实现的算法或项目,可以回到自己的文章中。此外,这些博客文章还可以向雇主证明,你了解某个主题,并且精通数据科学。最后,写作有助于练习你的沟通技巧,这是数据科学家的一项重要技能!

以下资源可帮助你入门并提高写作能力技术:

1、如何开始数据科学写作:

Rashi Desai提供如何撰写数据科学文章的理由和指导。

2、数据科学写作指南:

Elliot Gunn创建了TDS文章的概述,讨论如何改进数据科学写作。

3、发布成功文章的工具和建议:

Anne Bonner分享在媒体上写博客的一般建议,并讨论一些有价值的工具,如语法和 Hemingway App。

5.与他人合作

与其他数据科学家或程序员合作,以及为朋友或当前雇主解决与数据相关的问题,可以教会您在线课程所缺乏的技能:

1、与技术和非技术受众沟通并向他们展示自己的成果。

2、解决与业务相关的问题,其中错误可能会产生实际影响、。

3、根据用户反馈调整自己的想法和代码。

要开始与他人合作,请与可能面临数据和编码技能可以解决的问题的朋友交谈。如果你认识数据科学家或程序员,与他们在一个联合项目上合作。在工作中要注意发现可以利用数据科学技能的潜在机会。也有许多机会与在线社区合作,例如DataKind、Data for Good或Statistics Without Borders。

总结

学习数据科学很难——不仅仅是因为你需要掌握所有的技术知识。规划你的学习之旅,坚持下去,让你的努力得到回报的感觉是很有挑战性的。我曾经认为网络课程是成为伟大数据科学家的秘诀。

我发现从头到尾从事大型项目、创建自己的数据集和ETL管道、阅读研究论文、撰写技术博客文章以及与他人合作,教会了我宝贵的技能,否则我将无法获得这些技能。我希望你能自己尝试一下这些技巧,提高你的数据科学学习。

5个增加数据科学学习的技巧相关推荐

  1. 数据科学学习心得_学习数据科学时如何保持动力

    数据科学学习心得 When trying to learn anything all by yourself, it is easy to lose motivation and get thrown ...

  2. 大数据软件学习入门技巧

    大数据软件学习入门技巧,一般而言,在进行大数据处理时,会先使用大数据数据库,如 MongoDB. GBase等.然后利用数据仓库工具,对数据进行清理.转换.处理,得出有价值的数据.接着用数据建模工具建 ...

  3. (数据科学学习手札61)xpath进阶用法

    一.简介 xpath作为对网页.对xml文件进行定位的工具,速度快,语法简洁明了,在网络爬虫解析内容的过程中起到很大的作用,除了xpath的基础用法之外(可参考我之前写的(数据科学学习手札50)基于P ...

  4. 数据科学学习心得_学习数据科学

    数据科学学习心得 苹果 | GOOGLE | 现货 | 其他 (APPLE | GOOGLE | SPOTIFY | OTHERS) Editor's note: The Towards Data S ...

  5. Python数据科学学习进阶

    Python菜鸟到Python Kaggler 如果你梦想成为一名数据科学家,或者已然是数据科学家的你想扩展自己的工具库,那么,你找对地方啦.本文旨在为做数据分析的Python人提供一条全方位的学习之 ...

  6. (数据科学学习手札32)Python中re模块的详细介绍

    一.简介 关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结: re作为Python中专为正则表达式相关功能做出支持的模块,提供 ...

  7. 数据科学学习心得_如何快速学习数据科学

    数据科学学习心得 Learning R can take a lot of time. But while it's impossible to become an expert overnight, ...

  8. 详细安装使用教程】店侦探 - 跟踪店铺数据,学习运营技巧,引流关键词,电商人必备工具

    简介 店侦探插件是一款电商网络浏览插件,能够帮助店主更好地运营自己的网店,这款插件功能十分全面强大,可以全面跟踪店铺的销量情况.引流关键词.直通车.营销活动.宝贝变更跟踪!感兴趣的朋友快来体验吧,跟踪 ...

  9. 项目案例:qq数据库管理_2小时元项目:项目管理您的数据科学学习

    项目案例:qq数据库管理 Many of us are struggling to prioritize our learning as a working professional or aspir ...

最新文章

  1. 【转载】如果你身边有程序员的朋友,请善待他们
  2. [web安全]深入理解反射式dll注入技术
  3. android 访问服务器sql_XSS 攻击、CSRF 攻击、SQL 注入、流量劫持(DNS 劫持、HTTP 劫持)—— 浏览器安全
  4. 微信小程序自定义组件(二)
  5. Android Studio(14)--点9图片怎么玩
  6. 华为屏下前置摄像头专利曝光:消灭刘海
  7. wp7开发第一课:软件生命周期(其一)
  8. 字符串拼接的双引号和单引号问题,转义字符
  9. 鸡蛋究竟宜不宜生吃——看阿里云计算怎么破?
  10. killer网卡服务器未运行,外星人killer control center服务未运行怎么解决?
  11. linux查看nginx昅 电视,PHP实现查询汉字笔画、笔画排序、笔画统计
  12. 《UEFI原理与编程》读书笔记
  13. 《一树梨花》旋转特效
  14. 人工蜂群算法求解货位优化问题
  15. Timer定时器每天的固定时间执行
  16. android 人物行走动画,android 3D 游戏实现之人物行走(MD2)
  17. MySQL中的uuid()和uuid_short()函数
  18. GEE学习笔记 八十七:python版GEE动态加载地图方法(更新版)
  19. 电源服务器原理,破坏性拆解一个HP服务器1300W的电源 【精华】
  20. Elasticsearch 7.10 之 Slow Log

热门文章

  1. 线性表的应用——多项式的计算
  2. 精通Dubbo——Dubbo配置文件详解
  3. 假如你来发明编程语言
  4. kafka指定偏移量拉取与偏移量半自动提交
  5. win 10 如何删除需要获取管理员权限的文件和退出安全模式
  6. 机器学习笔记(吴恩达老师)
  7. C语言经典例题:有一对兔子,从出生后第 3 个月起每个月都生一对兔子,小兔子长到第三个月后每个月又生一对兔子,假如兔子都不死,两年内每个月的兔子总数为多少?
  8. 互联网产品经理职业规划图(转载)
  9. jeecg官网(jeecg官网 ios开发)
  10. echarts地图 自定义区域