原文题目:Want to Becomea Data Scientist? Read This Interview First

作者:Kevin Gray

翻译:韩海畴

校对:闵黎

本文长度为3800字,建议阅读8分钟

本文为你解答数据科学究竟是什么及一个好数据科学家应具备的品质。

市场营销学者Kevin Gray对肯纳索州立大学研究生院副院长、统计学及数据科学教授Jennifer Priestley做了一个采访,请教数据科学究竟是什么、一个好数据科学家应具备哪些品质以及如何成为一个好的数据科学家,访谈全文如下。

Q:您能否用简单、外行人也能听得懂的话向我们解释数据科学?

A:我认为Slack的数据工程总监Josh Wills给出的定义非常恰当——“(数据科学家是)擅长统计学的软件工程师与擅长软件工程的统计学家的混合体。”,我还想在这里加上我本人的“Priestly推论”:“(数据科学家是)擅长对数据分析结果进行商业解释的科学家与擅长数据分析的MBA的混合体”

Q:统计学家和数据科学家之间的区别是什么?


A:这是个好问题。我也经常被问到计算机科学家和数据科学家之间的区别是什么。事实上这两个学科也都在探索隐藏在数据中的新内涵。虽然二者都对数据科学这一新生领域作出了令人瞩目的贡献,他们并非完全独立的。

数据的增长不仅体现在其规模上,还体现在我们对数据这个词定义的延伸上。举个例子,文本和图像已成为日益常见的数据形式并被纳入分类及风险建模等分析范畴中。对数据定义的延伸迫使统计学和计算机科学从各自的传统核心领域进入边缘领域——在这样的边缘领域里,新的思路开始萌发——两个学科在边缘领域的融合成为了数据科学的基础。

统计学的多数传统核心内容还未做好处理以十亿为单位的记录及非结构化数据的准备。同样,计算机科学的核心领域虽然擅长高效获取并存储大量结构化和非结构化数据,但在通过建模、分类和可视化等形式将数据转换成信息的能力上存在短板。

我同意统计学家在数据科学界容易处于弱势的说法。我认为这很不幸。几年前,“简单统计学”(SimplyStatistics)博客发布了一篇名为《为什么大数据陷入了麻烦:他们忘了运用统计学》的文章。这篇文章指出了人们兴冲冲地倒腾机器学习、文本挖掘、神经网络却忽视与数据行为(behavior of date)密切相关的变量、置信度、分布等基本统计学概念,导致了糟糕的决定。虽然数据科学不是统计学,但统计学为这门学科贡献了基础方法。

Q:我们中绝大多数人直到最近几年才听说过数据科学。您能否向我们简要介绍它的历史?


A:这个词最早是计算机科学家Peter Naur在1960年提出的观点,但“数据科学”在统计学中也留下了进化的种子。1962年,John W. Tukey(我们那个年代最为人所熟知和尊敬的统计学家之一)写到:“在很长一段时间里,我认为我是一个统计学家,致力于通过特定样本推断总体的面貌。但自从我看到了数理统计的进化,我发现我真正感兴趣的领域是数据分析……数据分析本质上是一门经验科学。”

1996年,国际分类学联合会(IFCS)在第五次大会中首次使用了“数据科学”一词。大会标题为“数据科学,分类及相关方法”。 1997年,吴建福教授(目前在佐治亚理工学院)在密歇根大学统计系就任H. C. Carver讲席教授的公开演讲中呼吁将统计学更名为数据科学,统计学家更名为数据科学家。

2002年发生了一件数据科学的关键里程碑事件,第一本学术同行评论期刊《数据科学学报》(Data ScienceJournal)正式创刊。此后又出现了其他几个期刊,专门促进和传播这一领域的学术研究成果。

专门的学术期刊的出现对于学术界来说尤为重要——这些期刊促成了新的博士课程(比如我们的)和学术部门,为相关研究、奖学金和发表提供了平台。现在数据科学教师和博士生可以在自己的圈子里——而不是计算机科学、数学、商学的圈子里——开展研究和分享。

Q:2011年麦肯锡作出了一项广为人知的研究预测,在2018年“仅美国一国就会面临14万到19万具备深度分析能力人才的缺口,与此同时存在至少150万名懂得如何运用大数据做出有效决定的管理人员和分析师的缺口。”这个预测有多准确?我们现在有其他替代方案吗?


A:我被问到这个问题很多次了——具体来说,许多公司高管问过我诸如“数据科学这事是否只是一时的风潮?”的问题。我想我们应该重新给这个议题划个框架。

我的观点是,我们不需要具有深刻的分析能力的“19万人”或“150万管理者”。我认为每个人都需要有一定程度的分析技能。我认为基础分析素养应该像阅读、数学一样成为我们的教育体系的基础部分。如今看到越来越多小学里也开始教授基础的编程技巧让我备受鼓舞。在大学的层面,我认为数据科学应成为基础课的一部分。(我现在可以听到我们的教务办公室的人在大喘气了)。

所以,虽然目前的人才缺口是实实在在的,但这是与市场需求不符的教育制度的造成的。各级教育正在转向,并很可能在可预见的将来继续下去。我预计在一代人中,对这些技能的需求不会减少,但供给方面会与之匹配得更密切。

Priestley推论:“数据科学家擅长对数据分析结果进行商业解释的科学家与擅长数据分析的MBA的混合体”。

Q:许多人,包括那些考虑到职业生涯中期转型的人,已经把目光投向了数据科学。但恐怕并非所有人都适合走这条路。请问数据科学工作中需要哪些能力和技能?成为数据科学家的最佳途径有哪些?


A:这是个绝佳的问题。我们需要做些什么来让我们的下一代准备好,但实际情况是,从20多岁到40多岁的人里很多人正在寻找机会转行进入数据科学领域工作。

我在办公室看到很多这样的人。我已经有不止一次遇上“我刚刚为了拿一张数据科学的文凭向XX大学付了一万美元......而我还是找不到工作”之类的对话。虽说这些“文凭”中的一些很有含金量,但悲剧的是,大部分都是垃圾。

首先,你不能指望通过参加一个5天结业拿文凭的课程就从诗人变成数据科学家。指望线上的远程课程就更不靠谱了。

第二点,我认为人们需要对他们完成自己的职业目标要付出的努力抱有正确的期望。这些技能之所以被如此热切的需要并能给你带来高薪是因为它们很难——你最最起码也得主动学习和精进。

第三点,我认为人们需要清楚他们目前的技能有哪些,他们的目标是什么。这个问题的答案将决定你如何实现目标。那些受到了简单的在线证书课程诱惑并深陷其中的人应该想想爱丽丝梦游仙境里的那只Cheshire猫 - “如果你不知道要去哪里,走哪条路都没用”。

我对向询问这一领域相关问题的人给出以下建议:

  • 如果你是个想转行做数据科学的诗人——我是说正儿八经地的投入它并以一种深刻而有意义的方法将它作为你的事业——你需要放下你的羽毛笔,拿出你的牛仔裤和背包,上全日制的学校课程。大多数数据科学研究生课程时间不超过两年,其中多数会提供各种形式的研究生助学金。你应该争取参与包括编程,统计,建模的项目。而且还有充足的机会与当地公司,非营利组织,地方政府等等一起进行真正接地气的项目。

我觉得怎么强调实际操作、自己动手,实际经验对一切数据科学项目的重要性都不为过。这就是为什么在线/短期证书课程对于想在这一领域从头开始的人来说不起作用。直接上手做项目会帮助你们了解数据科学的更多潜在方面 - 如讲故事的作用,创造力(很遗憾地被忽视了)和项目管理。

  • 如果你是个计算机科学家/程序员,就去找找带有分析课程或者经常使用统计学的商学院课程。你的编程和数学技能多半是他们需要的——你则可能需要上些统计/建模/分析的课程——以及(又一次被)培训如何讲述故事,并学习如何在和你有不同想法的人组成的团队中工作。

  • 我会鼓励所有人去学习Tableau之类的基本的数据可视化工具。我同时鼓励所有人定期参加线上/异步编程课程。这些课程都很便宜(有的还不要钱)并能让你保持犀利的技术。

我的观点是,并不是每个人都想成为一名计算机程序员——我就不是特别喜欢编程。我是为了获得我的研究问题的答案而不得不去学编程。如果我能用我信赖的HP-12C计算器和自动铅笔就找到答案的话那我早那么做了。在21世纪里,你必须对基础数学有所了解,你必须能够阅读、写作并胜任基本编程的工作。

Q:数据科学家常谈到在许多组织里,管理层并不真正知道如何将分析手段运用于决策制定。决策制定仍然多数取决于直觉并且很大程度上受到公司政治的影响。您是否有相同经历?

A:我经常对公司事务发表评论,只要问题发生,不管它多不引人注意我都会发表意见。我划分了谈话框架——组织可以大致分为原生数据组织非原生数据组织两类。

 “原生数据公司”是那些现在占据头条以及股票市场的公司,如亚马逊、谷歌、脸书。这些公司在30年前不可能存在。不仅仅因为作为他们存在和运营模式基础的数据在当时并不存在,还因为即使他们做了,当时也不能获取足够的计算能力或执行与人工智能、机器学习、深度学习等方式相关的深度分析方法让这些公司从事他们现在正在做的业务。

然而,这些公司的另一个维度往往被忽视:由于它们是原生于数据本身,也因此在企业文化上受到了巨大的影响。它们是从组织图的顶部到底部都由数据驱动的公司。数据贯穿于他们整个公司的DNA。大多数进入这些公司的人都有以数据为中心的方向——并且可能会研究一个计算学科——越来越侧重于数据科学。脸书、谷歌的员工年龄中位数是29岁,亚马逊则为30岁(不包括仓库员工)。

 “非原生数据公司”是在我们听到诸如“数据科学”和“大数据”这样的术语很久以前就取得成功的公司。例子包括沃尔玛和Arby’s。它们都是非常成功的公司,成立之初并没有数据贯穿于其DNA。

虽然这些公司现在已经大力侧重将数据用于公司决策及提供产品和服务,但与建立在计算文化上的组织架构有巨大的不同。这些公司的管理层非常有前瞻性,他们把自己的公司转变为以事实为基础、用数据做驱动的组织,从而在市场上获得了领先者地位。他们各自市场上的对手们(希尔斯百货,梅西百货 ... 麦当劳,温蒂快餐)则没有。

Q:最后一个问题,您认为人工智能和自动化在未来10-15年里对数据科学造成怎样的影响?

A:我并非这一领域的专家,但我认为做出任何预测统计学、计算机科学或数据科学会因自动化而消亡的预言都为时过早。计算器只是让数学计算“自动化”……但是如今的数学比以前的计算要更广阔也更复杂。我期待在数据科学的领域中也是一样。

原文链接:

https://www.kdnuggets.com/2017/10/become-data-scientist-read-interview-first.html

 译者简介

韩海畴,中国人民大学2014届市场营销系本科毕业生,目前在海南工作。对大数据在市场营销及金融方面的运用感兴趣。希望能在数据派THU这个平台上与志同道合的朋友们一起学习和交流。

翻译组招募信息

工作内容:将选取好的外文前沿文章准确地翻译成流畅的中文。如果你是数据科学/统计学/计算机专业的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友,数据派翻译组欢迎你们加入!

你能得到:提高对于数据科学前沿的认知,提高对外文新闻来源渠道的认知,海外的朋友可以和国内技术应用发展保持联系,数据派团队产学研的背景为志愿者带来好的发展机遇。

其他福利:和来自于名企的数据科学工作者,北大清华以及海外等名校学生共同合作、交流。


点击文末“阅读原文”加入数据派团队~


为保证发文质量、树立口碑,数据派现设立“错别字基金”,鼓励读者积极纠错

若您在阅读文章过程中发现任何错误,请在文末留言,或到后台反馈,经小编确认后,数据派将向检举读者发8.8元红包

同一位读者指出同一篇文章多处错误,奖金不变。不同读者指出同一处错误,奖励第一位读者。

感谢一直以来您的关注和支持,希望您能够监督数据派产出更加高质的内容

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”加入组织~

独家 | 想成为一名数据科学家?你得先读读这篇文章相关推荐

  1. 如何成为一名数据科学家?(二)

    联合编译:Blake.高斐 编者注:作者Alec Smith是数据科学领域中资深HR,之所以写这篇文章是因为经常被问到一个问题:"如何才能获得一份数据科学家的职位?" 不仅这个问题 ...

  2. BDL 百度研究院大数据实验室的吴海山,做一名数据科学家有怎样的体验,问我吧!

    我是百度研究院大数据实验室的吴海山,做一名数据科学家有怎样的体验,问我吧! 思想 2015-06-16 已关闭提问 如果说"大数据"是一扇门,使人们得以更深入地认识这个世界和世界上 ...

  3. 数据分析师的基本素养——论如何成为一名数据科学家 Part 1

    https://yq.aliyun.com/articles/69441?spm=5176.100239.bloglist.39.xWRlR1 第二部分 https://yq.aliyun.com/a ...

  4. 如何成为一名数据科学家

    作者简介: 林荟,美国杜邦公司商业数据科学家,美国爱荷华州立大学博士.<套路!机器学习:北美数据科学家的私房课>作者.2017年1月至今主持美国统计协会市场营销在线数据科学讲座.个人网站: ...

  5. 数据科学家是干什么的,成为一名数据科学家,主要划分为哪几个步骤?

    数据科学家是干什么的呢?哪些地方需要数据科学家?怎么样才能成为数据科学家?如果你正因为这些问题而犹豫要不要开始学习数据科学,那么我可以告诉你,成为数据科学家其实非常简单 从行业内部的蓬勃发展,到招聘会 ...

  6. 如何自学成为一名数据科学家?

    编者按:数据科学家被认为是21世纪最性感的职业.可是如果你没有大学学位,对数据和编程几乎没有了解该怎么办?又或者你原先干的不是这一行想要转行又怎么办?一直致力于为学习数据科学提供指导的Dario Ra ...

  7. 想成为抢手的数据科学家,你需要掌握这些进阶技能

    数据科学家有多牛?为抢数据科学家,苹果开出 16 万美金到 20 万美金的年薪: 数据科学家有多稀缺?单在领英(Linkedln)美国上,至少就有近十万个对数据科学家职位的需求: 数据科学家工资有多高 ...

  8. 大数据哪个省才是高考地狱_是一名数据科学家,确实是地狱附近最性感的工作...

    大数据哪个省才是高考地狱 数据科学与人工智能领域的职业 (CAREERS IN DATA SCIENCE & AI) Alan Turing was 27 years old when the ...

  9. 爬虫爬到的网页源代码不是真正的源代码_Python爬虫经常爬不到数据?你可以看一下这篇文章...

    近期,通过做了一些小的项目,觉得对于Python爬虫有了一定的了解,于是,就对于Python爬虫爬取数据做了一个小小的总结,希望大家喜欢! 1.最简单的Python爬虫 最简单的Python爬虫莫过于 ...

  10. 你想读留学读计算机博士吗?先看看这篇文章

    今天花时间好好看了看我的导师页面上贴出的关于Graduate Student的建议,尤其是对于博士学生的建议.应该说自己还是感到很惭愧的,因为很多问题自己并没有好好思考过,而且也没有认真去看过别人的建 ...

最新文章

  1. 【译】Android系统简介—— Activity
  2. 盘点 12 个 GitHub 上的高仿项目
  3. 「后端小伙伴来学前端了」分析Vue脚手架结构
  4. VTK:图表之AdjacencyMatrixToEdgeTable
  5. CodeForces - 1506G Maximize the Remaining String(单调栈+贪心)
  6. JavaFX官方教程(四)之Hello World,JavaFX样式
  7. 赛码网算法: 军训队列( python实现 )
  8. php生成pdf中文断码_Rmarkdown导出中文PDF解决方案
  9. iconfont 图标转为字体_App 中使用 Iconfont 的整套方案
  10. 一个flash网页图片播放器
  11. 路由添加失败 参数错误_路由器故障排错三大经典案例详解
  12. java jlist删除选中的项_java jlist removeListSelectionListener 怎样删除已经建好的 ListSelectionListener...
  13. 图像视频压缩:深度学习,有一套
  14. Markdown——让你专注写作
  15. 青鸟影院售票系统(一)
  16. c++反向输出一个三位数
  17. c#语言求两个数最大公约数,C#趣味程序---求两个数的最大公约数和最小公倍数...
  18. 推荐系统系列——经典推荐算法
  19. 古马其顿国王-亚历山大
  20. Contour Processing

热门文章

  1. 机器学习西瓜书-代价曲线
  2. 我的第一本人生规划手册_笔记_Part3(完结) - 知乎
  3. codeforces 607B Zuma 区间dp
  4. (转)全球顶级对冲基金TOP50
  5. iBeacon技术解析
  6. 像“钢铁侠”埃隆·马斯克那样,成为超速学习者
  7. bzoj 4453: cys就是要拿英魂!(后缀数组+二分)
  8. 开源项目—swift开发记事本APP
  9. linux 如何解压z01文件
  10. 计算机图形学复习笔记