来源:大数据文摘

作者:seattle data guy

编译:王梦泽、吴双、蒋宝尚

想成为一名高级数据科学家除了拥有卓越的专业技能,你还需要其它技能来拉近和业务经理的距离。这看起来简单,但随着每年新技术的不断累积,技术和业务之间的距离会继续增大。因此,我们发现管理者和数据科学家有清晰的合作方向是非常重要的。

业务和IT知识都是十分专业的,然而由于技能的专业化,许多企业都出现了两个专业间的空白。我们的任务是帮助填补它!

数据科学家必须有技术方面的扎实基本功,这包括编程、查询、数据清洗等。然而随着数据科学家的成长,他们需要更多地关注设计决策以及与管理者的沟通,这会大大增强经验丰富的数据科学家的影响力。他们可以做出更高层次的决策,并帮助陷入困境的年轻数据科学家,而不是被困在日复一日的编码中。更有经验的数据科学家能利用他们的经验来做出简化复杂系统、优化数据流的设计决策,同时协助决定哪些项目最为恰当,这使得数据科学家自身及其公司都能有更大获益。

能够做到化繁为简

数据科学家往往希望将他们所知道的每一种技术和算法都应用于每一个问题的解决方案上。相应地,这就会使系统非常复杂难以维护。

数据科学确实需要复杂抽象的模型及大量的复杂技术(从Hadoop到Tensorflow)。在这个充斥着复杂性的领域,人们会倾向于开发复杂的系统和算法,稍不留神就会在开发中涉及四、五种不同的技术并使新的热门算法或框架。然而,像大多数涉及工程的其他领域一样,减少复杂性往往会带来诸多好处。

如果冯•诺依曼,埃尔温•薛定谔和爱因斯坦可以帮助我们理解数学和物理驱动领域的复杂性,那么我们数据科学家不能隐藏在复杂性背后。

工程师的角色就是去简化任务。如果你曾经建造或看到过鲁布•戈德堡机械(Rube Goldberg machine),你会理解什么是用复杂方法去完成简单任务。一些数据科学家的算法和数据系统看起来像是用胶带和口香糖粘起来的老鼠夹,而不是简洁有效的解决方案。更简单的系统意味着随着时间推移系统会更加容易维护,并且未来的数据科学家能够按需添加和删除模块。但若你使用三种不同的语言,两个数据源,十个算法且没有留下任何文档资料,未来的工程师可能会默默诅咒你哦。

简单的算法和系统也应使添加和删减模块是容易的。因此当需要技术进行改变和更新或者需要删除模块时,可怜的未来数据科学家不会陷入和你的代码一起玩叠叠乐积木游戏(Jenga)的困境 。但会纠结于“如果删了这段代码,系统会不会崩溃”。(这一纠结的根源是怕出现技术债务)

知道如何在没有主键的情况下关联匹配数据

强大的数据专家能做的重要工作之一是:将可能没有主键或明显联系的数据集关联在一起。数据可以呈现人之间或业务之间的日常交互。能够在这些数据中找出统计模式,是数据科学家可以帮助决策者作出明智决定的重要能力。然而,你想要关联在一起的数据并不总是位于相同的系统或有着相同粒度。

与数据打交道的人会知道,数据并不总是很好的整合在一个数据库中。比如,财务数据与IT服务管理数据通常是分开存放的,外部的数据源往往可能并不是在同一个维度进行的聚合。这会成为一个问题,因为找出数据中的价值有时确实会需要来自其他部门或系统的数据。

数据啮合是需要在相同的粒度级别上进行的。一种理解的方式是:将一块大拼图与由许多小块数据拼图组成的大拼图组合起来。

例如,假如给你提供了医疗保单、信用卡和社区犯罪率的数据,想由此找出这些社会经济因素如何影响病人,你会怎样处理?一些数据可能是以人为单位,而另一些数据可能是街道或城市级别,而且没有明确的方式来关联这些数据集。最好的处理方式是什么?这成为了一个不能忽视且必须被解决的问题。

对项目进行优先排序

作为数据科学家,你需要知道如何解释可能不划算的项目的投资回报率(ROI)。这与良好的直接沟通有关(我们的团队永远不会停止讨论如何沟通),也与能够清楚表达价值并且对长短期目标进行优先排序有关(重申一遍,说起来容易做起来难)

团队总是会有超出他们处理能力的过多的项目和项目要求。有经验的团队成员需要起带头作用来帮助决策者决定哪些项目是值得进行的。在有很大机会成功但可能不会有最高投资回报率的短期项目和很有可能会失败但同时也会产生较大投资回报率的长期项目之间需要有一个良好的平衡。

这种情况下,决策矩阵会有助于简化过程。

经典的决策矩阵之一是一个2*2矩阵,行和列分别为重要性和紧迫性。多数的大学商业课程中都会出现这种矩阵,它很简单,这也是它很棒的原因。

我曾在公司和一些很聪明的人共事,但还是工作中的每个项目都被列为优先。如果你没听过这个说法,我会在这里讲出来:

如果每件事都被优先考虑,那么,相当于没有事情被排在优先。

选择正确的项目意味着必须做出取舍。不是所有的事情都是高优的。

许多公司都存在这个问题,这就是为什么对于数据科学家团队中有经验的成员,能够清晰表达出哪些项目需要当下执行还是以后执行是非常重要的。而使用这个简单的矩阵能带来一定帮助。

(简洁十分重要,使用矩阵来明确投资回报率是有帮助的)。

有了简明直接的沟通,项目继续向前推进,信任也随之建立起来了。

能够开发出稳健且最优的系统

做出能在受控环境中操作的算法或模型是一回事。将稳健模型集成到实时且能处理大量数据的系统又是另一回事。根据公司的不同,有时数据科学家只需开发算法本身,之后开发人员或机器学习工程师会负责将其转为上线的产品。

然而还会有其他的情况,小的公司和小的团队可能会需要数据科学家团队来将代码转为上线产品。这意味着算法需要能以合理的速度控制数据流量。如果算法要运行三个小时并且需要被实时访问,这显然不能在产品上使用。因此,良好的系统设计及优化是必要的。

随着数据增多,越来越多的人会与系统交互,模型跟上脚步是十分重要的。

当高级数据专家的技术能力和其他能力相结合时,才能对他们自身和其公司产生最大的影响。数据科学家宝贵的经验是非常有价值的,这些经验能够指导年轻的开发人员做出更好的设计决策,帮助管理者找出哪些项目会带来最好的投资回报率,从而也放大了他们的参与对于团队的影响。

原文链接:

https://hackernoon.com/4-must-have-skills-every-data-scientist-should-learn-8ab3f23bc325

精彩活动

福利 · 阅读 | 免费申请读大数据新书 第23期

推荐阅读

2017年数据可视化的七大趋势!

全球100款大数据工具汇总(前50款)

论大数据的十大局限

大数据时代的10个重大变革

大数据七大趋势 第一个趋势是物联网

Q: 你认为数据科学家还需要具备哪些能力?

欢迎留言与大家分享

请把这篇文章分享给你的朋友

转载 / 投稿请联系:hzzy@hzbook.com

更多精彩文章,请在公众号后台点击“历史文章”查看

身为数据科学家怎么能不掌握这四大技能!相关推荐

  1. 想成为抢手的数据科学家,你需要掌握这些进阶技能

    数据科学家有多牛?为抢数据科学家,苹果开出 16 万美金到 20 万美金的年薪: 数据科学家有多稀缺?单在领英(Linkedln)美国上,至少就有近十万个对数据科学家职位的需求: 数据科学家工资有多高 ...

  2. 【数据科学家】每个数据科学家都应该学习4个必备技能

    摘要: 作为一个数据科学家你必须要掌握的四个必备技能,值得每个想要成为数据科学家和已经成为数据科学家的人去学习. 这篇文章对应之前发表过的一篇关于如何成长为一名具备其他技能的高级数据科学家的文章.希望 ...

  3. 论一枚数据科学家的自我修养

    作者 | 林荟 责编 | 何永灿 在回答这个问题之前,希望你先想想另外一个问题:为什么要成为数据科学家?当然,如果你是为了10万美元的年薪也无可厚非,但是我衷心希望你能将这个职业和自己的价值感挂钩.因 ...

  4. [译]从零开始成为数据科学家的9个步骤

    [译]从零开始成为数据科学家的9个步骤 原文链接:http://www.datasciencecentral.com/profiles/blogs/9-steps-to-become-a-data-s ...

  5. 避坑指南:数据科学家新手常犯的13个错误(附工具、学习资源链接)

    作者:Pranav  Dar 翻译:和中华 校对:张玲 本文约6000字,建议阅读10+分钟. 本文是老司机给数据科学家新手的一些建议,希望每个致力于成为数据科学家的人少走弯路. 简介 你已经决定把数 ...

  6. 数据科学家所需的大脑训练

    前言 让我们以一个小练习开始本文.请拿出笔和纸,一有答案就写下来.不要反复思考,应该在15秒内完成. 请在纸上写下对于"一个成功的数据科学家需要哪些技能?"的问题的答案. 很多读者 ...

  7. 数据科学家最需要什么技能?

    本文整理了多个求职网站的信息,对雇主最希望数据科学家具备的技能进行了分析,并提供了一些建议. 数据科学家需要涉猎很多--机器学习.计算机科学.统计学.数学.数据可视化.通信和深度学习.这些领域中有几十 ...

  8. 从菜鸟成为数据科学家的养成方案

    首先,各个公司对数据科学家的定义各不相同,当前还没有统一的定义.但在一般情况下,一个数据科学家结合了软件工程师与统计学家的技能,并且在他或者她希望工作的领域投入了大量行业知识. 大约90%的数据科学家 ...

  9. 大数据业务学习笔记_学习业务成为一名出色的数据科学家

    大数据业务学习笔记 意见 (Opinion) A lot of aspiring Data Scientists think what they need to become a Data Scien ...

最新文章

  1. AngularJS recursive(递归)
  2. 跟我一起学Redis之Redis事务简单了解一下
  3. 记得把每一次面试当做经验积累,深夜思考
  4. FEIM Studios 团队欢迎您加入
  5. 程序人生:我最真实的10年软件测试感悟...【建议收藏】
  6. 洛谷 p1434 滑雪【记忆化搜索】
  7. NSGA2算法中文版详细介绍
  8. 概率论与数理统计---------分布函数
  9. .styl格式的CSS样式文件是什么文件
  10. 解决navicat闪退
  11. js设置北京时区_JavaScript 实现北京时间转其他时区时间,根据系统对对应时区转换...
  12. Python 决策树计算熵、gini系数、误分率
  13. 黑马程序员Java零基础视频教程(2022最新Java)B站视频学习笔记-Day13-面向对象进阶01
  14. 网络游戏的基本数据埋点和数据统计---2016/7/25
  15. 计算机dns怎么设置方法,dns设置_dns怎么设置【步骤|图文教程】-太平洋IT百科
  16. 安卓系统控制服务器,安卓系统远程控制云服务器
  17. NetworkManager的命令行工具nmcli
  18. Opengl入门基础-shader着色器画方形并且填颜色
  19. oracle utl file putf,UTL_FILE学习
  20. 中密歇根大学计算机专业,密歇根大学计算机工程排名,真是要细心看懂

热门文章

  1. Linux学习笔记-对父子进程直接通信基础与实例
  2. Qt工作笔记-对QObject::connect函数进一步认识(重载)
  3. 在5个数中找最大的数,并把他放入MAX单元
  4. mysql5.0操作手册_MySQL 操作手册
  5. MYSQL 表 部分数据导出、导入
  6. 使用python写一个倒计时_Python 实现一个计时器
  7. java:数字转string 报空指针_超干货详解:kotlin(4) java转kotlin潜规则
  8. uos命令_ubuntu、debian、uos的命令
  9. 计算机网络之数据链路层:8、介质访问控制之信道划分介质访问控制
  10. 计算机网络之数据链路层:7、选择重传协议(SR)