这是关于从事数据科学工作系列帖子中的第二篇。(第一篇请点击这里)

误区1:当你变得更有经验时,你可以担任数据分析师的工作,并能够将其发展为数据科学。

数据分析师不是数据科学家的初级阶段,他们是完全不同的两个东西。

数据分析师

数据科学家

与业务员同坐

与工程师同坐(但也谈及业务)

产生报告、简报

产生软件

隔行如隔山,数据分析师想进入数据科学会存在很大的障碍。因为他们没有必备的工具,所以不管他们是否拥有正确的技能,都不能立即开始做数据科学。所谓的必备工具是指:

1.获得完整的生产数据。

2.访问数据工具去做某事(hadop,spark,compute instances)。

3.访问代码库(code repositories)。

虽然这些东西可以在快速学习获得,但还有其他的东西难以获得:

1.不熟悉公司的技术堆栈(stack)

2.没有对堆栈(stack)/执行功能进行必要更改的任务等。

任何曾经在大公司工作的人都应该明白这一点:你不只是走进一个软件团队。有时需要几个月的培训才能为团队中的新开发人员做出第一个真正的贡献。对于来自不同业务部门的外部人员来说,要做到这一点是闻所未闻的。

误解2:数据分析是数据科学的良好训练

作为数据分析师:

l 你将不会学习机器学习/统计技术,因为它们的准确性和效率都得到了优化,而不是解释能力(这是分析人员所关心的)

另一方面你将会做:

l 探索性数据分析。

l Excel,SQL,也许是一些一次性的R(one-off R)和Python脚本

我认为数据科学家和分析师有可能使用一些相同的工具,但是他们对于这些工具的用途具有很大的不同。而数据分析师所作的小小技术工作实际上对他们的数据科学教育造成了更多的伤害。

数据分析师的代码

数据科学家的代码

人工操作序列的脚本,点击GUIs等

完全自动化的管道

只有你能看到的代码

代码将被他人使用和维护

一次性的脚本

代码是一个存在的应用程序或预定的管道

代码调整直到它能够一次性运行成功

代码优化性能、可维护性和可重用性

从数据分析师的角度来看,以某种方式做事可能是有意义的,但数据科学的需求是不同的。当前分析师投入到数据科学项目中并开始应用他们多年来发展的模式来看,结果并不乐观。

亲身体验

我曾经加入了一个由分析师和数据科学家领导的项目:我们正在建立一个管道的原型,让客户端的数据上进行一些的机器学习,并显示出漂亮的图表。我加入时面对的第一个问题是:你如何从客户端里获取数据?。过程是:

1.在瑞典发送电子邮件X,查询他在客户端的数据库上运行。X下载一个csv的结果,并把它放在一个FTP服务器上。

2.从FTP下载csv到你的笔记本电脑。

3.将其上传到我们拥有Python的服务器。

4.在服务器上运行一个Python脚本来清理数据(脚本在Y的主目录中)。

5.在笔记本电脑上下载结果。

6.通过GUI将结果上传到我们的数据库。

7.在GUI中运行一个SQL脚本加入我们的其他表。

8.下载结果。

9.上传到我们开发的MySQL数据上。

10.运行另一个SQL(Y在她的笔记本电脑上有脚本)。

11.将数据从MYSQL中拉到服务器上的Rstudio中。

12.在R服务器上做实际的分析。

要想在新的数据上再次运行流水线需要几周的时间(而当时要求的在几秒内),因为他们使用的技术迫使他们只使用1%的可用数据,这个工作流程使任何事情都无法完成。

最重要的是,管道中的每一个脚本都非常变态和脆弱-这就是为什么:面对任务时,分析师将开始编写代码。如果它一开始不起作用,他们会加入并调整它,指导它。一旦产生结果(通常是一个csv文件),他们就进入下一步。没有努力确保可再生性,可重用性,可维护性,可扩展性。以这种方式制作的脚本是充满了硬编码(hard-coded)的数据库口令,魔术常量(Magic constant)和未经测试的关于输入数据的假设,一直通向本地目录。它类似于名叫Jenga Tower的游戏,你看着它们表面平静,但是你知道,如果你触摸它,它会崩溃。

如果只是我的同事完全不懂的编码技术,他们将会雇佣一名工程师来完成编码工作,而他们自己也会专注于准备说明书。这种安排也许不是很理想,但我保证结果会好很多。这就是为什么我认为数据分析师的经验不仅是无用的,而且对数据科学也是有害的。

最终,尽管错误不在于分析师,而在于管理(management)和任务的不匹配。也是时候让管理人员知道:

1.   数据科学是软件工程。

2.   软件工程很难。

3.   软件工程界已经开发了一些工具并试着减少它的难度。

4.   你需要一个软件专家来使用这些工具。

5.   在SAS中编写脚本不会使其成为软件专业人员。

结束语

如果你是一名分析师,想要转行到数据科学,我建议你忘记你所学的关于编码的一切,重新开始学习。

如果你是一名研究生,认为数据分析师是为了作为数据科学的培训而存在的,我强烈建议你找一个初级软件开发者的工作。如果你幸运的话,你可能会做一些机器学习,然后进入全面的数据科学。但即使不是这样,几乎所有你在入门级工程学习中学到的东西都会使你成为一名更好的数据科学家。

本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。

文章原标题《What They Don’t Tell You About Data Science 2:Data Analyst Roles Are Poison》

作者:Nadbor Drozd

译者:虎说八道。

文章为简译,更为详细的内容,请查看原文


数据分析师不是数据科学家相关推荐

  1. 7个秘诀,带你由数据分析师成长为数据科学家

    全文共4047字,预计学习时长8分钟 通往数据科学之路 (Aleksandr Barsukov发布于 Unsplash) 数据科学的热浪席卷大多数行业,如<哈佛商业评论>所述,数据科学家已 ...

  2. 成都python数据分析师职业技能_数据分析师需要什么技能,数据分析行业都有什么职业?...

    就目前而言,很多人看到了数据分析行业的光明前景,于是就想进入数据分析的行业中,但是,想成为一名合格的数据分析师,需要掌握很多的技能,那么一名合格的数据分析师需要掌握哪些技能呢?现在的数据分析行业中有数 ...

  3. python生物数据分析师职业技能_数据分析师需要什么技能,数据分析行业都有什么职业?...

    就目前而言,很多人看到了数据分析行业的光明前景,于是就想进入数据分析的行业中,但是,想成为一名合格的数据分析师,需要掌握很多的技能,那么一名合格的数据分析师需要掌握哪些技能呢?现在的数据分析行业中有数 ...

  4. 大数据分析师,比数据分析师厉害在哪

    最近看到个段子: 你是个数据分析师,平时主要都用 Python 的 Pandas 处理分析数据,一天,上司甩来一个文件让你清洗好顺便提取些数据,下班前给到他. 你一看文件有几十个 GB 大,有点傻眼, ...

  5. 数据分析师、大数据开发、Hadoop开发工程师、数据挖掘、算法工程师的工资薪水到底怎么样?

    据最新发布的<大数据人才报告>显示,目前全国的大数据人才仅46万,未来3-5年内大数据人才的缺口将高达150万. 领英报告表明,数据分析人才的供给指数最低,仅为0.05,属于高度稀缺.数据 ...

  6. 你可曾了解过,数据分析师与商业数据分析师?

    作为长期在大数据行业工作的你,是否有过成为数据分析师或者商业分析师的想法呢? 其实,各行各业都有自己的分析师,比如金融类的就有证券分析师.金融分析师.股票分析师:统计类的就有数据分析师.调查分析师.信 ...

  7. 人人都是数据分析师-数据分析之数据图表可视化(下)

    当前的BI报表.运营同学的汇报报告中数据图表大多为 表格.折线图.柱状图和饼图,但是实际上还有很多具有代表性的可视化图表,因此将对常见的可视化图表进行介绍,希望这些图表可视化方法能够更好的提供数据的可 ...

  8. 数据分析师使用统计数据的7种方式

    数据分析 1.设计和解释实验以指导产品决策 观察:广告变体A的点击率比变体B高5%. 数据分析师可以帮助确定这种差异是否足够显着,以致需要引起更多的关注,关注和投资. 它们可以帮助我们了解实验结果,这 ...

  9. 数据分析师入门_数据分析师入门基础指南

    数据分析师入门 Back in the summer of 2018, I was just starting my first internship as a Data Analyst. 早在201 ...

最新文章

  1. IOS UiView frame哪里来?
  2. elif else if oracle_shell中if做比较
  3. python打包exe黑框一闪而过,解决pyinstaller打包exe文件出现命令窗口一闪而过的问题...
  4. Spring Validation
  5. 【领域综述】NLP领域,你推荐哪些综述性的文章?
  6. 山东省计算机考试无法报名,12月20日开始报名!山东2020年3月全国计算机等级考试注意事项来咯...
  7. kettle分布式部署_kettle服务器集群
  8. love death+robot中的哲学思考
  9. 后台管理系统项目整体流程
  10. 从C到C++衔接——浅析两种语言的差别
  11. 【5G系列】一文打尽 IMSI、TMSI、GUTI、P-TMSI、S-TMSI、LMSI、5G-TMSI、5G-GUTI、5G-S-TMSI
  12. CSS实现实心三角形和空心三角形
  13. 怎样给公司定义一份完美的maven parent pom 文件
  14. 【DeepLearning】吴恩达深度学习课程笔记思维导图
  15. 【js-xlsx和file-saver插件】前端html的table导出数据到excel的表格合并显示boder
  16. ctfshow web入门-sql注入
  17. 拼团商城是如何盈利的?
  18. 注册用户数破亿 平安金管家APP成全球寿险首个过亿应用
  19. 复旦大学计算机科学技术学院院长姜育刚:人工智能算法治理|达观WAIC回顾
  20. Excel将写好的VBA嵌入菜单栏

热门文章

  1. 东华oj-进阶题第66题-字符串统计
  2. C# ClipCursor
  3. 带渐变色的柱状图,看着挺美~
  4. 后浪小萌新Python --- 基础语法
  5. element表格在Safari浏览器下列对不齐
  6. element中Dialog和MessageBox弹框按钮和关闭图标样式修改
  7. 听说高度近视的人不能打拳击?其实真相是这样的......
  8. 百度是如何让我们的网速变慢的
  9. linux patch命令
  10. Matlab 显著性检测模型评价算法之KL距离