全文共4047字,预计学习时长8分钟

通往数据科学之路 (Aleksandr Barsukov发布于 Unsplash)

数据科学的热浪席卷大多数行业,如《哈佛商业评论》所述,数据科学家已成为21世纪最性感的工作。

虽然市场对经验丰富的数据科学家的需求越来越大,但对这份工作的描述大都很模糊。此外,很多招聘经理对数据科学和数据分析或数据工程的定义都很宽泛。行业标准的缺乏让许多想要转行至数据科学的专业人士十分困扰。

了解有关人工智能和机器学习的信息非常关键,但是没有任何指导,人们很难知道该从哪里下手。

本文的作者是Zoopla的一名数据科学家,他将详细分享自己从分析师到数据科学的职业生涯中学到的经验。

分享就是关心!( https://imgur.com/gallery/oJSx1YR)

打好扎实的数学基础

大多数机器学习算法都是建立在多变量微积分、线性代数和非线性代数的基础上的。熟练的数据科学家能够从数学层面改变计算机程序,从而真正推动模型性能提高。掌握数学技能很重要,尤其是统计学和线性代数。具备学习和理解机器学习技术的能力是成为一名数据科学家的必要条件。无论读的是心理学、数学、博士还是在线课程都不重要,学会数学就好。

目前有很多数据科学家拥有博士学位,但这并不是铁律。

秘诀1:关注自身的能力而非背景

作为一名数据科学家,经常要将困难、开放、定义模糊的问题一步步分解。这是读硕士的3到6年间不断培养的技能。但这种技能也可以从工作中锻炼。

教机器前先自学

数据分析师报告、总结并解释过去和现在的信息,以为业务服务。这与数据科学家截然不同。数据科学家负责总结数据,从而预测未来或作出决策。他们的核心任务是训练、测试和优化机器学习算法,因此技能也集中在机器学习建模上。

初学者可以在各媒体平台上浏览博客文章,找到可以指导解决特定问题的方法。以下是一些有用的文章:

· 模式识别与机器学习——Bishop(被称为机器学习圣经)

传送门:https://cds.cern.ch/record/998831/files/9780387310732_TOC.pdf

· 机器学习课程——Hal Daumé III

传送门../../../Documents/WeChat Files/Tristaphy/FileStorage/File/2019-07/机器学习课程

· 神经网络与深度学习——Michael Nielsen

传送门:http://neuralnetworksanddeeplearning.com/

理论和繁杂的方程式有时会让人不知所措,但不应该是让人离开这个领域的原因。你可以边阅读边写代码。例如,试着从头构建一个单层感知器(一种最简单的一种神经网络)来完全理解书中读到的内容。

学习三连:读书、上课、写代码

秘诀2:应用所学的科学方法

网上也有许多课程在理论和实践上各有偏重,涵盖了机器学习的基本原理。推荐一些实用的课程:

· Coursera 机器学习课程由该领域的领军人物Andrew Ng讲授,涵盖一些基础知识。用Python而不是Octave/Matlab来做作业会更好,因为如果有很强的Python技能,会在就业市场上处于更有利的位置。

传送门:https://www.coursera.org/learn/machine-learning

· Fast.ai课程由机器学习名人杰里米·霍华德(Jeremy Howard)和雷切尔·托马斯(Rachel Thomas)博士创建。课程以启发式教学为理念,更侧重实际应用。

传送门:https://www.fast.ai/

面向程序员的机器学习入门:http://course18.fast.ai/ml

面向程序员的实用深度学习:http://course.fast.ai/

面向程序员的前沿深度学习:http://course18.fast.ai/part2.html

· 斯坦福大学(Stanford university)分享了一系列人工智能课程材料。比如:

cs224n用于视觉识别的卷积神经网络:http://web.stanford.edu/class/cs224n

cs231n用于深度学习的自然语言处理:http://cs231n.stanford.edu/

这些课程的目标既不是记住公式和推导,也不是逐页阅读书和讲稿。学习的目标应该是掌握大多数模型和算法以不同方式处理的基本概念。比如,神经网络中的drop-out层、消失梯度、信号/噪声关系。获得将问题与基本原理联系起来的能力,将使你成为一名优秀的应用数据科学家,而这正是许多雇主想要的。

科学研究

秘诀3:为业务设置和问题选择正确方法

数据科学家的真正技能是,知道手头的业务问题需要什么样的技术和机器学习方法。

这个领域过去的十年里蓬勃发展。作为一名数据科学专业人士,不断学习新知识是成功的必要条件。强烈建议阅读已发表的学术论文,还有不同科技公司和该领域关键人物的机器学习/人工智能方面的博客。需要解决没有提供即时方案的抽象问题时,所学会派上用场。通过研究现有情况找到正确的解决方案,工作就完成了80%。

安德烈·卡帕西(Andrej Karpathy)在斯坦福大学cs231n课程上说得很好,“不要逞英雄”。商业世界期望人们快速交付(失败),因此,如果可能的话,不要重新发明轮子,而应该站在巨人的肩膀上。

“如果说我看得更远,那是因为我站在巨人的肩膀上”——艾萨克·牛顿(1775)

(https://me.me/i/3487477)

提高编程技能

数据分析师用数据来帮助企业做出明智决策。他们精通SQL、Excel和Tableau或Power BI等可视化工具。而数据科学家需要构建强大的模型来推断和解决大规模业务问题,因此需要提升编程技能。学习编程永远不会太晚。

Python正成为世界上最流行的编程语言,并拥有无数经过良好测试且不断更新的数据科学库。所以大多数数据科学团队都在寻找会Python的人。所以,如果不懂Python,那就报名参加网络课程学习一些基础知识。不要忽略PEP8之类的格式指南,耐心学习,因为多实践才会有期望的成果。此外,学习如何使用Jupyter对加快工作流程和数据/模型探索十分关键。

秘诀4:一直持续不断练习,让编程技能更快更好更强

会编程有魔法

参加黑客马拉松、kaggle竞赛、进行个人编码项目都是提高编程技能的方式。从分析中找到并把握住数据科学机会有助于在当前工作中获得经验。学习预测和异常检测的算法也有助于推动从数据分析师发展为数据科学家。本文作者在这个行业的第一个数据科学项目是设计自动完成某电商网站搜索查询的算法。这个项目的灵感就来自他还在做初级分析师时报告的关于搜索和购物车的一些有趣的分析。

掌握软件工程技能

如果想让自己的模型有生产的可能,软件工程技能非常必要。出于方法和法律原因,培养一种旨在通过自动化重现项目和结果的编码态度至关重要。在拥有成熟数据科学文化的公司中,有的人创建原型,有的人编写生产代码,还有的人负责部署。实际上,无论公司规模大小,都不太可能获得所有需要的支持,仅仅知道统计数据不足以交付数据科学项目。

数据科学家程序列表

秘诀5:尽早将自己的项目步骤自动化

因此,初级数据科学愿望清单可能是这样的:

· 可重现数据管道(如在spark和python中):是否有必须重现以前做过的分析的经历?创建逻辑数据流(如原始(不可变数据)->中间(正在进行的工作)->处理(最终特性))和使用Makefile将节省自己和同事的时间。我和我的团队都是cookiecutter的忠实粉丝,它提供了像这样的逻辑项目结构。

· 培训和评分的端到端自动化:模型大多数时候是鲜活的有机体,需要新的预测,并且数据可能会发生变化,所以要再训练、评分和完善。然后必须将模型参数、秘密和随机种子放入配置文件中,将DS项目分解为不同的元素并应用modularity。如创建可在训练和评分时使用的共享特性库。

· 单位测试范围:人人都想要无忧无虑的睡眠和不受打扰的假期。所以为了确保稳健性,为项目编写测试是很重要的。

· 构建API提供预测:为了表达想法和模型需要证明概念,这时通常需要REST API。如果不想使用Python之外的其他语言,那么可以使用带有Swagger UI的Flask和Flasgger。Swagger对于记录并可视化基于REST的网络服务非常有用。

· ECS部署或生产环境的数据科学解决方案的容器化:Docker可以隔离项目及其依赖项,在环境之间移动模型,并且每次以完全相同的方式运行代码以达到100%的可重现性。这将有助于与DevOps和工程师的协作,这样他们就能使用打包好的容器作为黑盒,无需了解数据科学。

将科学翻译成领域内语言

通过在数据中寻找代理或者让它成为机器学习中的潜在因素,研究数据的主题专家可以克服如业务失踪或定义KPI等障碍。数据科学通常会造成业务中断,因此需要说服高层领导以获得适当的支持和资源。

有人说,让业务中的所有利益相关者都能理解算法是一种艺术。因而需要不断学习如何阐释建立的算法,并向他人展示其重要性。正如毕马威(KPMG)现任数据科学与工程主管丽贝卡•波普(Rebecca Pope)在“硅谷女性圆桌会议”(Women of Silicon Roundabout)上强调的,“永远记住,你(而非你的代码)是有影响力的。人们不买算法,他们相信你和你的能力。”因此,要关注并花时间培养将数学转换成垂直行业的视觉叙事的能力。

秘诀6:用垂直行业术语来沟通工作

没人懂我……一名数据科学家正在解释深度学习

(https://memegenerator.net/img/instances/63241330.jpg)

正是成长的时机

从事新兴职业虽然艰难,但更令人兴奋。找到一个有助于成长的团队,拥有像海绵一样的头脑,将会加速通往成功的旅程。理想情况下,你的上级会理解你的日常工作和想要达到的目标。不然也可从团队或公司之外寻找所需的额外指导,如求助大学校友或教授,或者网上友好的数据科学家。聚会和会议也可能很有启发性,有助于找到良师益友。

秘诀7:记住,没有教科书或课程比导师更重要

请用考利昂老头子的声音念

综上所述,要想在数据科学领域开始职业生涯,应该关注的技能包括统计学、多变量微积分和线性代数、机器学习、编程技能、软件工程和可视化技能。

数据科学维恩图 绘制:Steven Geringer Raleigh, NC.

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

7个秘诀,带你由数据分析师成长为数据科学家相关推荐

  1. 成都python数据分析师职业技能_数据分析师需要什么技能,数据分析行业都有什么职业?...

    就目前而言,很多人看到了数据分析行业的光明前景,于是就想进入数据分析的行业中,但是,想成为一名合格的数据分析师,需要掌握很多的技能,那么一名合格的数据分析师需要掌握哪些技能呢?现在的数据分析行业中有数 ...

  2. python生物数据分析师职业技能_数据分析师需要什么技能,数据分析行业都有什么职业?...

    就目前而言,很多人看到了数据分析行业的光明前景,于是就想进入数据分析的行业中,但是,想成为一名合格的数据分析师,需要掌握很多的技能,那么一名合格的数据分析师需要掌握哪些技能呢?现在的数据分析行业中有数 ...

  3. 数据分析师、大数据开发、Hadoop开发工程师、数据挖掘、算法工程师的工资薪水到底怎么样?

    据最新发布的<大数据人才报告>显示,目前全国的大数据人才仅46万,未来3-5年内大数据人才的缺口将高达150万. 领英报告表明,数据分析人才的供给指数最低,仅为0.05,属于高度稀缺.数据 ...

  4. 你可曾了解过,数据分析师与商业数据分析师?

    作为长期在大数据行业工作的你,是否有过成为数据分析师或者商业分析师的想法呢? 其实,各行各业都有自己的分析师,比如金融类的就有证券分析师.金融分析师.股票分析师:统计类的就有数据分析师.调查分析师.信 ...

  5. 大数据分析师,比数据分析师厉害在哪

    最近看到个段子: 你是个数据分析师,平时主要都用 Python 的 Pandas 处理分析数据,一天,上司甩来一个文件让你清洗好顺便提取些数据,下班前给到他. 你一看文件有几十个 GB 大,有点傻眼, ...

  6. 人人都是数据分析师-数据分析之数据图表可视化(下)

    当前的BI报表.运营同学的汇报报告中数据图表大多为 表格.折线图.柱状图和饼图,但是实际上还有很多具有代表性的可视化图表,因此将对常见的可视化图表进行介绍,希望这些图表可视化方法能够更好的提供数据的可 ...

  7. 数据分析师使用统计数据的7种方式

    数据分析 1.设计和解释实验以指导产品决策 观察:广告变体A的点击率比变体B高5%. 数据分析师可以帮助确定这种差异是否足够显着,以致需要引起更多的关注,关注和投资. 它们可以帮助我们了解实验结果,这 ...

  8. 数据分析师不是数据科学家

    这是关于从事数据科学工作系列帖子中的第二篇.(第一篇请点击这里) 误区1:当你变得更有经验时,你可以担任数据分析师的工作,并能够将其发展为数据科学. 数据分析师不是数据科学家的初级阶段,他们是完全不同 ...

  9. python数据分析师 前景_数据分析师是否有前途

    再过不久,我在房地产领域的数据分析工作,就要满3年了.对于每一个职场人来说,3年是个坎,能力需要再次升级,才能让自己走得更顺畅.我自己也深知自己这两年埋身于工作中,忽略了硬件技能的锻炼和提升,所以,趁 ...

最新文章

  1. 机器学习博士在获得学位之前需要掌握的九种工具!
  2. Tensor for ‘out‘ is on CPU, Tensor for argument #1 ‘self‘ is on CPU
  3. 开发中经常使用的5种设计模式
  4. centos7安装mongodb3.6
  5. jQuery使用ajaxStart()和ajaxStop()方法
  6. (七)JS基础知识四(搞定异步)【三座大山之三,必考!!!】
  7. 计算机过程控制系统教材,过程控制系统-样章试读.PDF
  8. 「分布式系统理论」系列专题整理
  9. Python使用numpy和pandas模拟转盘抽奖游戏
  10. vue函数如何调用其他函数?_C语言函数学习-函数的嵌套调用
  11. BZOJ 1211: [HNOI2004]树的计数 purfer序列
  12. 数据结构与算法 —— 动态数组
  13. 宏定义不是c语言语句 行末不必加分号,模拟C语言试题-02(2).doc
  14. 【学习记录】名词和名词性从句
  15. 乱弹集锦:火柴棍艺术大神
  16. 如何深刻理解IEEE浮点数的表示(IEEE floating-point representation)
  17. 运筹与决策(二)excel画图、公式与函数用法
  18. unrar file.rar 解压rar 问题,找不到unrar 命令。安装rar unrar流程及bug处理
  19. WPS文档消除格式并消除大片空白格
  20. 佐治亚大学计算机科学与工程,2019上海软科世界一流学科排名计算机科学与工程专业排名佐治亚大学排名第401-500...

热门文章

  1. OD修改 exe文件 成功登录,je、jmp、nop、test汇编指令分析《逆向工程》
  2. 小蒟蒻的小生活(持续更新)
  3. WMS的先进先出功能设计
  4. 加密算法的重要性以及了解加密算法分类
  5. 长沙连续召开全市企业上市工作座谈会和经济运行调度会:越是“吃劲”越向前
  6. centos7安装后只有lo网卡
  7. 青少年编程-Python之扑克牌第十幕
  8. 万顿思电商:为什么拼多多退店不成功?
  9. Python3操作MongoDB数据库
  10. 无锡设计培训——室内设计风格有哪些?