全文共3243字,预计学习时长10分钟

来源:Pexels

数据科学、机器学习和分析被认为是最热门的职业之一。

工业界、学术界和政府对熟练数据科学的从业人员的需求正在迅速增长。因此,目前的“数据热潮”正吸引着大量专业人士,他们有着不同的背景,如物理学、数学、统计学、经济学和工程学。数据科学家的工作前景非常乐观。IBM预测到2020年,对数据科学家的需求将飙升28%:

https://www.forbes.com/sites/louiscolumbus/2017/05/13/ibm-predicts-demand-for-data-scientists-will-soar-28-by-2020/#7916f3057e3b.

数据科学是一个非常广泛的领域,包括几个分支,比如数据准备和探索、数据表示和转换、数据可视化和表示、预测分析、机器学习等。对学习数据科学基础感兴趣的初学者可能会有以下问题:

1. 学习数据科学的基础知识需要多长时间?

2. 学习数据科学有哪些资源?

选择上述标题的动机是基于彼得·诺维格(Peter Norvig)关于成为编程专家所需时间的这一观点。如果读者还没有读过这篇文章,笔者在此建议读者阅读彼得诺维格(谷歌机器学习主管)的《十年自学编程》。以下是文章的链接:http://norvig.com/21-days.html.

这里的要点是,不需要花10年的时间来学习数据科学的基础知识,但是匆忙学习数据科学肯定没有帮助。成为一名数据科学家需要时间、努力、精力、耐心和奉献精神。

来源:Pexels

彼得·诺维格的建议是,学习需要时间、耐心和承诺。当心那些说可以在4周或1个月内学习数据科学的文章、书籍或网站。如果对学习数据科学的基本原理感兴趣,就要准备投入适当的时间和精力,这样不仅可以掌握浅层概念,而且可以掌握深入的数据科学概念。

笔者花了两年的时间深入学习掌握了数据科学的基础知识(通过自学),这是因为笔者拥有物理学博士学位,而且有扎实的数学和编程背景。掌握数据科学的基础知识需要多长时间取决于个人背景。一般来说,在数学、统计学、计算机科学、工程学或经济学等分析学科有扎实的背景是有利的。

彼得·诺维格“十年自学编程”的三个心得体会

· 掌握数据科学的基础知识需要时间、精力、耐心和奉献精神

数据科学是一个跨学科领域,需要在高等数学、统计学、程序设计和其他相关的数据分析、数据可视化、模型构建、机器学习等方面有扎实的背景知识。笔者花了两年的时间来专门学习并掌握了数据科学的基础知识,这是因为笔者具有扎实的数学、物理和编程背景。以下是一些帮助掌握数据科学基础知识的资源。

1. 数据科学专业证书(通过edX从HarvardX获取):https://www.edx.org/professional...

包括以下课程,全部使用R语言教学(可以免费听课或购买认证证书):

(1) 数据科学:R基础;

(2) 数据科学:可视化;

(3) 数据科学:概率论;

(4) 数据科学:推理与建模;

(5) 数据科学:生产力工具;

(6) 数据科学:争论;

(7) 数据科学:线性回归;

(8) 数据科学:机器学习;

(9) 数据科学:顶点

2. 分析学:基本工具和方法(通过edX从Georgia TechX获取):https://www.edx.org/micromasters/analytics-essential-tools-methods

包括以下课程,全部使用R、Python和SQL进行教授(可以免费听课或购买认证证书):

(1) 分析建模导论;

(2) 数据分析计算概论;

(3) 商业数据分析。

3. Python专业的应用数据科学(通过Coursera从密歇根大学网站获取): https://www.coursera.org/special...

包括以下课程,全部使用python进行教授(可以免费听大多数课程,有些课程需要购买认证证书):

(1) Python数据科学概论;

(2) 应用Python进行绘图、制图和数据表示;

(3) 应用Python进行机器学习;

(4) 应用Python进行文本挖掘;

(5) 应用Python进行社交网络分析。

4. 数据科学教材

从教科书中学到的知识比从网络课程中学到的更精细、更深入。本书介绍了数据科学和机器学习,包括代码:《Python机器学习》,作者是塞巴斯蒂安·拉什卡(Sebastian Raschka)。他以一种非常容易理解的方式解释了机器学习的基本概念。此外,还包括代码,因此可以使用提供的代码来实践和构建自己的模型。笔者认为这本书在自己作为数据科学家的旅程中非常有用。笔者会向任何有志于数据科学的人推荐这本书。只需要基本的线性代数和编程技巧就能理解这本书。还有很多其他优秀的数据科学教科书,比如韦斯·麦金尼 (Wes McKinney)的《利用Python进行数据分析》、马克斯·库恩和谢尔·约翰逊的《应用预测建模》 、伊恩·H·威滕和马克A. 霍尔的《数据挖掘:实用机器学习工具与技术》等等。

5. 与其他数据科学爱好者建立网络

从个人经验来看,通过与其他数据科学爱好者合作,笔者从每周的数据科学和机器学习主题的小组对话中学到了很多东西。与其他有志于数据科学的人建立关系,在GitHub上分享代码,在领英上展示技能,这将真正有助于在短时间内学会很多新的概念和工具,也会接触到新的做事方式,以及新的算法和技术。

· 理解数据科学的理论基础和动手操作的数据科学技能一样重要

数据科学是数学密集型学科,需要具备以下知识:

1. 统计和概率

2. 多元微积分

3. 线性代数

4. 优化与运筹学

尽管Python的scikit-learn和R的Caret库包含了一些用于进行数据科学和构建机器学习模型的工具,但是理解每种方法的理论基础是非常重要的。

· 避免讲机器学习模型作为黑盒工具使用

数据科学的坚实背景将使数据科学家能够建立可靠的预测模型。例如,在建立模型之前,会有这样的问题:

(1) 什么是预测变量?

(2) 目标变量是什么?目标变量是离散的还是连续的?

(3) 应该使用分类还是回归分析?

(4) 如何处理数据集中的缺失值?

(5) 当将变量引入相同的范围时,应该使用规范化还是标准化?

(6) 是否采用主成分分析法?

(7) 如何微调模型中的超参数?

(8) 如何评估模型以检测数据集中的偏差?

(9) 是否应该使用集成方法,即使用不同的模型进行训练,然后进行整体平均,例如使用分类器,如支持向量机(SVM)、K-近邻算法(KNN)、逻辑回归,然后对3个模型的结果进行平均?

(10) 如何选择最终模型?

机器学习模型的好坏取决于一个人理解模型的所有细节的能力,包括关于不同超参数的知识,以及如何调整这些参数以获得性能最佳的模型。把任何一个机器学习模型当作一个黑匣子,却不能完全理解模型的复杂性,将会导致伪造模型的出现。

来源:Pexels

总之,数据科学是当今最热门的领域之一。数字革命创造了成千上万的数据。公司、行业、组织和政府每天都会产生大量的数据。对高技能数据科学家的需求只会继续增长。

现在是花时间掌握数据科学基础知识的最佳时机。在这样做的时候,当心那些说可以在4周或一个月内掌握数据科学的文章、书籍或网站。不要着急,花点时间掌握数据科学的基础知识。

一起来愉快地学习吧~

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

谷歌机器学习主管:10年自学数据科学的3点心得体会相关推荐

  1. 自考数据结构和数据结构导论_我跳过大学自学数据科学

    自考数据结构和数据结构导论 A few months back, I decided I wanted to learn data science. In order to do this, I sk ...

  2. 大疆 机器学习 实习生_我们的数据科学机器人实习生

    大疆 机器学习 实习生 Machine learning practitioners know how overwhelming the number of possibilities that we ...

  3. 年中盘点:2021年炙手可热的10家数据科学和机器学习初创公司

    当今企业正在利用不断增长的数据获得竞争优势,也就是采用数据科学.人工智能.机器学习.甚至是深度学习领域的新兴技术来准备和组织大数据,开发机器学习算法和预测模型,为分析师和IT员工所使用的业务智能应用提 ...

  4. 机器学习和数据科学的最佳公共数据集

    作者|Towards AI Team 编译|Flin 来源|medium 此资源不断更新.如果你知道任何其他合适且开放的数据集,请通过电子邮件通知我们:pub@towardsai.net 或者在下面发 ...

  5. 机器学习、数据科学、人工智能、深度学习和统计学之间的区别!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:Vincent Granville,来源:机器之心 在这篇文章中, ...

  6. 哪些电脑最适合做机器学习、数据科学和深度学习呢?这里有份调研报告

    选自Medium 机器之心编译 作者:Towards AI Team 编辑:陈萍.杜伟 一份来自 Towards AI 的关于机器学习.数据科学和深度学习的最佳笔记本电脑.在预算范围内,入手最适合的笔 ...

  7. 独家 | 2020年22个广泛使用的数据科学与机器学习工具(附链接)

    作者:RAM DEWANI 翻译:欧阳锦 校对:陈汉青 本文长度为4600字,建议阅读11分钟 本文为大家从两个方面--大数据和数据科学,介绍了本年度的22个被广泛使用的数据科学和机器学习工具.结合了 ...

  8. 一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别!

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 作者:Vincent Granville 来源:机器之心公众号 链接:http://www.d ...

  9. netflix 数据科学家_数据科学和机器学习在Netflix中的应用

    netflix 数据科学家 数据科学 , 机器学习 , 技术 (Data Science, Machine Learning, Technology) Using data science, Netf ...

最新文章

  1. Toolbar中Overflow Menu不显示问题
  2. Linux的僵尸进程产生原因及解决方法
  3. 一个很不错的LINUX基本操作归纳
  4. Jmeter测试并发https请求成功了
  5. PHP汉字转拼音的类
  6. jQuery实现多条件筛选
  7. storm1.x支持主节点nimbus高可用 多master集群部署
  8. 使用换IP软件的代理IP速度缓慢的原因是什么?详解!
  9. 如何使用Java开发QQ机器人 方法一
  10. MQL5 编程基础:数组
  11. Unity IOS设备陀螺仪控制相机旋转
  12. wegame更改计算机设备,WEGAME手机串流怎么设置 WEGAME手机串流设置教程
  13. 北洋 BTP-R380 打印机驱动
  14. Linux中shell的ls,linux系统shell中ls指令
  15. A4纸的像素和分辨率
  16. 初学者入门学习Java,如何选择Java培训机构?
  17. 在js中实现新窗口打开
  18. 银川二中2021高考模拟考试成绩查询,银川市第二中学2020—2021年第一学期高一月考成绩分享会...
  19. Linux安装Googlepinyin
  20. IoT 设备离线时,云端下行消息触达方案

热门文章

  1. 类中的静态成员变量和静态成员函数
  2. LSA(Latent semantic analysis)
  3. 跳板机的工作原理和简单的跳板机实现
  4. Fatal error: Uncaught Error: Call to undefined function mysql_connect()问题解决
  5. js圆形轨迹公式(转)
  6. 周鸿袆眼里的程序员创业
  7. [转载]推荐:互联网思维必读十本书
  8. 7-41 计算阶乘和
  9. 数组——sort排序、reverse倒序
  10. 行业分析-全球与中国便携式自动超声波探伤仪市场现状及未来发展趋势