从白宫雇佣DJ Patil作为第一位首席数据科学家到联合国运用预测分析来预报可能发生在学校中的爆炸事件,无论何时何地,大数据、数据科学和预测分析都是最热门的话题。

每个月都有很多家创业公司如雨后春笋般出现,让我们即使耗尽想象力也难以完全理解当下的技术会如何改善我们的生活以及我们所做的一切。数据科学的市场需求巨大,增长态势也如同被打了鸡血一样极为迅猛。

根据领英(Linkedin)的数据,“统计分析”和“数据挖掘”是今年求职者能被雇佣的头两个技能。高德纳咨询公司表示,2015年全球提供给数据科学家及其相关职位的工作机会有440万,单在美国就有190万。一个数据科学相关的工作还可以再创造三个非信息领域的工作,因此总共会产生大约1300万个职位。可问题是你要做些什么才能确保职位,梦想成真?你如何才能成为全球这440万工作机会的合格候选人?

全球至少有50个开设数据科学学位课程的大学,学费从5万到27万美金不等,以及需要1到4年的时间。如果你正想要去读大学,这可能是一个不错的选择。比起其它类似或不那么类似的学科,数据科学有它自己独特的优势。但是,对于发展中国家的人来说,学费过于高昂;同时,对于职场人士,投入几年时间的代价很大。

另外,也有一些不错的暑期课程、研究协会和训练营,它们承诺可以在短时间内让你成为数据科学家。这当中有一些虽然是免费的,但是很难有机会加入,而有些要求博士等高学历,还有些两个月左右的课程却要价1.5万到2.5万美金。对于即将毕业的博士生来说,这些都是能获得一些实战经验的好机会,然而我们目前还不清楚这些短期受训者是否能媲美资深的行业分析师。我个人非常喜欢其中的一些项目,比如Data Incubator,Insight Fellowship,Metis Bootcamp,Data Sciencefor Social Goods 和著名的 Zipfian Academy 项目。

付费资源

在介绍如何不花钱成为数据科学家之前,我提一下我很喜欢几个的付费资源。第一个是Booz Allen公司的探索数据科学项目(Explore Data Science program),费用是1250美元,但是物有所值。第二个是Tim Chartier 录制的《大数据:数据分析如何改变我们的世界》(Big Data: How Data Analytics is transforming the world)DVD,只要80美元,值得一试。

下面两个课程来自麻省理工:一个是《应对大数据的挑战》(Tackling the Big Data Challenges),学费是500美元,这个课程为你提供了坚实的大数据理论基础;另一个是只要100美元学费的《分析学前沿》(The Analytics Edge),课程精辟地讲解了分析法是如何被用于解决日常运营问题。如果你每天可以抽出几小时的时间,那么试试Udacity提供的针对数据分析师的Nanodegree课程,每月支付200美元,6个月左右能完成,他们和facebook、Zipfian学院和MongoDB合作提供这个课程。ThinkFul每月收费500美元的项目是有一个导师实时指导你成为数据科学家。

那么,那些想成为数据科学家,但是负担不起或者进不了竞争激烈和收费高昂的项目的人应该怎么办呢?还有那些来自于发展中国家,想在数据科学这一重要领域提高他们的竞争力,或者即使只是尝试应用这些先进技术改善他们的周边环境、社区和国家的人又该怎么办呢?

免费资源

以下就是我不花一分钱成为数据科学家的“独门秘籍”:

1. 理解数据:单纯的、没有任何背景的数据是没有意义的,也容易让人误解。数据需要有具体的背景才能说明问题。数据就像是一种颜色,需要有一个具体的外观才能证明它的存在。以红色为例,它需要一些具体的外观才能让我们看到,比如红色的汽车、红色的围巾、红色的领带、红色的鞋子或任何红色的东西。同理,数据也需要和它的环境、内容、模型、方法以及它产生、发生、使用、修改、执行和终止的整个生命周期结合在一起。

我还没发现一个数据科学家和我谈数据的时候不提及像Hadoop、NoSQL、Tableau的技术或其它老牌供应商与流行语。你需要与你的数据建立亲密的关系,你需要彻底地了解它。问他人“你的”数据为何出现异常就像是问自己的妻子怀了谁的孩子一样荒谬。我们在与联合国的合作以及确保学校远离爆炸的相关软件中具备一个独有的优势是:对底层数据的控制力。当全世界在使用统计图表讨论这些数据时,我们是那些回家体验数据的人,让它融入我们的日常生活,这些数据的价值、细节和增值,是我们不能在其它地方找到的。对于其它的项目和客户,我们也是同样对待的。

2. 理解数据科学家:不幸的是,“数据科学家”恰好是数据科学这个领域中最容易使人困惑和被误用的词之一。有人将其联想为知晓世间所有事情的神秘预言家;有人认为他们仅仅是统计学家;少数人认为他们只是一些熟悉Hadoop 和 NoSQL的人;还有人认为他们就是一些会做简单测试或是在管理会议中使用很多晦涩难懂的数学和统计学术语的人。甚至于,某些人眼中的可视化控制面板,在另一些人看来只是永无止境的ETL(Extract-Transform-Load,数据仓库技术 )过程。在我看来,数据科学家是一类比数据创造者少一些对科学的理解,比数据生成者少一点对数据的理解的人,而他们恰恰是知道如何把这两部分工作融会贯通的人。一个好的数据科学家应该知道外部有哪些资源可用,应该和哪些人联系,应该雇佣什么样的人,以及采用什么样的技术可以完成工作;可以将商业目标和数据集市(data mart)连接起来,可以把每一个点,从商业利益到人类行为、从数据生成到付出的款项简单地联系在一起。

3. 观看Ted网站上的这13个视频

http://www.ted.com/playlists/56/making_sense_of_too_much_data

4. 观看Hans Rosling的视频,理解可视化的力量

http://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen

5. 收听PartiallyDerivative的关于数据科学的每周博客,查看博客中提供的一些有用资源

http://www.partiallyderivative.com/

http://www.partiallyderivative.com/resources/

6. 华盛顿大学的两个课程:

《数据科学入门》(Introto Data Science)和《数据分析计算》(Computing for data analysis)会是个好开头

7. 利用GitHub上的资源,要尽量多读

8. 浏览Measure for America网站(http://www.measureofamerica.org/),了解数据如何起作用

9. 阅读免费图书Field Guide to Data Sciences(http://www.boozallen.com/media/file/The-Field-Guide-to-Data-Science.pdf)

10. 努力完成“如何成为数据科学家”的信息图中的每一个步骤

11. 阅读博客“The DataCamp”(http://blog.datacamp.com/),提高R编程技术

12. 阅读博客“simplystats”(http://simplystatistics.org/),提高统计分析能力

13. 阅读Zipfian学院网站上一篇非常实用的文章“A Practical Intro to Data Science”(http://www.zipfianacademy.com/blog/post/46864003608/a-practical-intro-to-data-science)

14. 试着完成“The Open SourceData Science Masters”系列课程

http://datasciencemasters.org/

15. 学习Coursera网站创始人之一AndrewNg的机器学习课程

https://www.coursera.org/learn/machine-learning

16. 尽一切努力完成Coursera上的数据科学专项课程(DataScience Specialization),完成所有9门课以及核心项目

https://www.coursera.org/specializations/jhudatascience

17. 如果你缺乏计算机科学的背景或是想侧重于数据科学中的编程部分,请完成Coursera 上数据挖掘专项课程(Data Mining Specialization)

https://www.coursera.org/specializations/datamining

18. (可选项)根据你想从事的领域,可以参考下面这些专业相关的数据科学课程:医疗保健分析——入门和专项课程(healthcare analytics – intro and specialization), 教育(education), 性能优化(performanceoptimization)和一般学术研究(general academic research)

https://www.coursera.org/course/bigdataanalytics

https://www.coursera.org/specializations/medicaltech

https://www.open2study.com/courses/big-data-for-better-performance

http://www.liebertpub.com/big

19. 如果要了解数据科学应用的部署方面,Coursera上的“云计算”专项课程以及免费的AWS(Amazon Web Services)培训则是“必修课”

https://www.coursera.org/specializations/cloudcomputing

http://aws.amazon.com/training/intro_series/

20. 学习“海量数据挖掘”(MiningMassive Datasets)和“过程挖掘”(Process Mining)这两门顶尖课程

https://www.coursera.org/course/mmds

https://www.coursera.org/course/procmin

21. 27本最好的免费数据挖掘类书籍

http://www.dataonfocus.com/21-free-data-mining-books/

22. 每天阅读Data ScienceCentral,类似这样的文章可以让你在面试中节约很多时间。

23. 尽可能多在Kaggle上参与比赛项目

24. 如果还想更上一层楼,以下这些Coursera上的统计课程会让你脱颖而出:推论统计学(InferentialStatistics), 描述统计学(Descriptive Statistics),数据分析和统计学(Data Analysis and Statistics),Passion driven stats和MakingSense of Data

25. 关注预测分析领域大牛的Twitter:@mgualtieri,@analyticbridge, @doug_laney, @Hypatia_LeslieA, @hyounpark, @KDnuggets,@anilbatra

26. 关注大数据和数据科学领域大牛的Twitter:AlistairCroll, Alex Popescu, @rethinkdb, Amy Heineike, Anthony Goldbloom, Ben Lorica,@oreillymedia., Bill Hewitt, Carla Gentry CSPO, David Smith, David Feinleib,Derrick Harris, DJ Patil, Doug Laney - Edd Dumbill, Eric Kavanagh, Fern Halper,Gil Press, Gregory Piatetsky, Hilary Mason, Jake Porway, James Gingerich, JamesKobielus, Jeff Hammerbacher, Jeff Kelly, Jim Harris, Justin Lovell, Kevin Weil,Krish Krishnan, Manish Bhatt, Merv Adrian, Michael Driscoll, Monica Rogati,Neil Raden, Paul Philp, Peter Skomoroch, Philip (Flip) Kromer, Philip Russom,Paul Zikopoulos, Russell Jurney, Sid Probstein, Stewart Townsend, Todd Lipcon,Troy Sadkowsky, Vincent Granville, William McKnight, Yves Mulkers

这张表里的全部内容需要3-12个月的时间完成,但是完全免费。并且我保证你掌握这些技能后,工作机会就会滚滚而来。即使你只完成了一半,通知我一声,我也可以告诉你接下来该怎么办。现在就看你的了,无论你在哪里,能负担多少,如果你想拥有超过平均水平至少四倍的收入,这就是你接下来该做的事,至少是接下来这十年,这十年中每人每年将会产生20TB的数据,是过去十年的20倍。

原文发布时间为:2015-10-19

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

重磅:如何不花钱就成为数据科学家?相关推荐

  1. 疫情期间自我提升指南:十大资源,为你铺平数据科学家之路!

    来源:大数据文摘 本文约2800字,建议阅读7分钟 本文为你带来了十大资源,更为你安排好了学习顺序,网课刷起来! 疫情在家太无聊,网课自然是打发时间又能自我提升的不二之选.在众多学科中,数据科学又可说 ...

  2. 必读 | 六月份不容错过的十大重磅好文,机器学习和数据科学的小伙伴拿走不谢 原创 2017-07-10 爱收藏的 AI科技大本营 作者 | Flavian Hautbois 翻译 | AI科技大

    必读 | 六月份不容错过的十大重磅好文,机器学习和数据科学的小伙伴拿走不谢 原创 2017-07-10 爱收藏的 AI科技大本营 作者 | Flavian Hautbois 翻译 | AI科技大本营( ...

  3. 数据科学家 数据工程师_数据科学家实际上赚了多少钱?

    数据科学家 数据工程师 目录 (Table of Contents) Introduction介绍 Junior Data Scientist初级数据科学家 Mid-Level Data Scient ...

  4. 我是如何用6个月,从0编程经验变成数据科学家的?

    来源 | medium 编译 | 武明利 责编 | Carol 出品 | CSDN云计算(ID:CSDNcloud) 我叫Kate,刚从长达 8 年的学习和艰苦的工作中走出来,没有任何预兆.你可能想问 ...

  5. 为什么数据科学家需要承担开发运维的工作?

    作者 | Caleb Kaiser 译者 | 弯月,责编 | 夕颜 头图 | CSDN下载自视觉中国 出品 | CSDN(ID:CSDNnews) 以下为译文: 如果你需要创建一个生产环境下的机器学习 ...

  6. 不学好数学也想当数据科学家?不存在的

    大数据文摘作品 编译:文明 修竹 高宁 天培 数据科学家需不需要有扎实的数学基础呢? 随着越来越多优秀开源项目的涌现,各类数据科学工具都实现了"半自动化",数据分析的背后数学原理似 ...

  7. 高考季选专业丨想做数据科学家?先听听多位教授经验谈

    导语:数据科学有着极其陡峭的学习曲线,学习者往往有面对"钢锯岭"之感. 如今数据科学.大数据.人工智能.区块链.数字经济等热词横行.放眼宏观,<2018政府工作报告>中 ...

  8. 计算机科学与技术双一流_世界一流的数据科学家

    计算机科学与技术双一流 数据科学 , 意见 (Data Science, Opinion) We've all seen the 'controversial' Medium articles tha ...

  9. 【重磅】世界区块链组织首席科学家白硕:区块链技术与数据隐私讲座

    [重磅]世界区块链组织首席科学家白硕:区块链技术与数据隐私讲座 本讲座选自世界区块链组织首席科学家白硕于2018年3月29日在清华大数据"应用·创新"系列讲座上所做的题为<区 ...

最新文章

  1. 【Flutter】Dart 面向对象 ( 抽象类 | 抽象方法 )
  2. Levenberg-Marquardt快速入门教程
  3. .net Mvc Controller 接收 Json/post方式 数组 字典 类型 复杂对象
  4. AttributeError: 'module' object has no attribute 'version'
  5. Android 浏览器启动应用程序
  6. 硬件开发板-嵌入式开发
  7. java标识符定义_Java标识符命名规范
  8. php网站系统说明,国外CMS系统介绍(总结)
  9. SQL Server设置SQL Server身份验证
  10. php 干扰曲线,曲线干扰控制
  11. Deep Nets Sublinear Memory Cost 笔记
  12. Debian下Apache2安装与设置 一 ZT
  13. 谷歌地图的简单轨迹移动播放
  14. 不小心点了计算机一键还原怎么操作,电脑一键还原的恢复方法步骤
  15. matlab2017硬件加速,现场影像增强中的硬件加速机制研究
  16. 如何入门新媒体运营?
  17. 来闯关吗?一个有趣的 Python 解谜网站!我已经懵逼了!
  18. 南京工业大学计算机专业复试科目,南京工业大学复试科目.pdf
  19. Python3,9分钟撸完一个电脑录屏神器,女神说今晚要给我加鸡腿。
  20. ubuntu安装wine QQ无法启动问题解决

热门文章

  1. bShare分享-分享到微信、微博、QQ
  2. Arduino与掌控板通过软串口通信将数据上传阿里云
  3. 博客之星-参赛博主:墨家巨子@俏如来-来来来,给俏如来扎起。
  4. 微型计算机对社会和环境的影响,科学技术在计算机领域对社会发展的作用及影响.docx...
  5. 大厂都在做的jmeter接口自动化测试登峰造极的JMETER实现接口自动化测试
  6. ​详细教程:如何使用代理服务器进行网页抓取?
  7. Java基础项目一:家庭记账软件
  8. 在win7系统上使用Python3.8.10进行开发使用
  9. 你们要的代码来了!爬了菊姐的两万条评论——详细代码解读篇
  10. 软件测试方法和技术 - 基础知识概括