作者:Amadeus Magrabi

翻译:陈振东

校对:吴金笛

本文约2400字,建议阅读6分钟

本文从目前数据科学行业发展角度出发,总结了顶级数据科学家必备的几项技能。

数据科学领域的劳动力市场正发生着快速的变化。曾经,能够搭建机器学习模型被认为是只有少数顶尖的数据科学家才能掌握的尖端技能,但如今,有一点基本编程经验的人就能根据教程完成Scikit-learn或者keras的模型训练。

顶着“本世纪最性感的职位”,行业内的招聘人员不得不面对大量的数据科学相关的求职申请,而这样火热的程度目前看不到降温的趋势,同时越来越多的数据科学相关的开发工具也变得更加易用。人们对数据科学家能给我们带来什么的期望已经改变,越来越多的公司逐渐认识到,训练机器学习模型只是在数据科学领域取得成功所需的很小一部分工作。

这里,我们列举了四项成为伟大的数据科学家最有价值的品质:

一、重点关注业务影响

对于数据科学家而言,最常见的驱动力之一源自对于发现数据模式的好奇心:潜心于探索数据特征的探索、利用最新技术进行实验、系统性的测试并最终得到新的发现,这些工作都让数据科学家们感到兴奋。这种科学动机是数据科学家应该具备的。但如果它是唯一的动力,那也成了一个问题。

如果仅停留在数据层面,思路就会变的局限,最终迷失在数据统计的细节之中,忽略了具体应用场景和更大的公司业务背景。

顶尖的数据科学家懂得如何将他们的成果融入到公司整体的业务之中,并最终将其转化成商业价值。如果存在简单适用的技术,他们不会花费过多的时间去追求复杂的技术实现方式;在真正制定方案之前,他们会明确项目的意义并直击问题所在;他们会关注行动或者方案对整个团队的影响,并提前与相关人员进行沟通;他们会对新的项目和计划提供层出不穷的思路,并不介意自己在别人眼中是否过于“脑洞大开”;他们会对自己的方案帮助到更多的人感到自豪,而不是使用了更先进的技术。

数据科学目前仍是一个不规范的行业,学术教育与产业需求间存在着很大的代沟。顶尖的数据科学家无惧于走出“舒适区”,去面对更棘手的问题并最大限度地发挥其作用。

二、扎实的软件工程技能

当设想数据科学家的理想形象时,浮现在人们脑海中常常是在工作在顶级大学中的著名的AI学科教授。在企业需要提升模型准确率去面对更激烈的竞争时,纳入这样的人才无疑是明智的。因为为了提高传统方法准确率最后剩余的几个百分点,必须去关注数学方法的细节,验证复杂的方案,甚至为了特定问题去定制化的研发统计学技术。

但在实际工作中,这种场景太少见了。对于大部分企业而言,标准模型的准确率已经足够,再投入大量时间和人力去把模型优化成最好、最先进的模型并不那么具备性价比。更重要的是尽早建立精度尚可的模型并建立模型与业务系统的回馈循环,可以让你能开始迭代并快速找到模型的最佳使用场景。纠结于准确率的细微差别通常并非一个数据科学项目成败的关键点,这也是在实际业务开发中,工程技能比科学技能更重要的原因。

通常,一个数据团队的运作流程是这样的:首先数据科学家建立解决方案的原型,并提供试错和意面式的代码(覆盖功能点但没有系统化的代码);如果结果看起来还不错,代码就会交付给软件工程师,由软件工程师将这些草稿改写成可扩展的、高效的、可维护的代码。数据科学家并不要求像软件工程师那样提交产品级的代码,但如果数据科学家对软件工程更加熟悉,并且对可能发生的架构问题有所了解的话,整个工程会变的更加顺畅和高效。

随着越来越多的数据科学工作流程正在被全新的软件框架所替代,扎实的软件开发技能也成为了数据科学家们的必备技能之一。

三、谨慎的期望管理

站在领域外的角度看,数据科学是一个边界模糊并且令人难以捉摸的领域。这是炒作还是世界正在经历革命性的变革?是否所有的数据科学项目都是机器学习项目?这些人的身份是科学家、工程师还是统计学家?他们是做什么的,软件产品还是可视化的仪表盘?为什么模型给我的结果是错的,有谁能修复这个bug么?他们现在只给了这么几行代码,过去的几个月他们都做了什么?

面对数据科学,很多事情都显得那么不清楚,而同一个企业中的不同的人于数据科学家的期待也不一样。

对于数据科学家很重要的一点是:主动并持续与工作相关的人员进行沟通交流,明确工作预期,尽早消除误解,并让大家的认知达成一致。

顶尖的数据科学家懂得面对不同背景、不同目标的人采用不同的沟通方式,因为各种因素都会造成对数据科学的不同预期。顶尖的数据科学家要能通过一种简单易懂的方式给零技术基础的人讲清楚复杂的数据处理方法,以便达成工作目标;他们知道什么时候去消除过于乐观的预期,什么时候该说服过于悲观的同事。最重要的是,他们强调数据科学固有的实验性质,当一个项目的成功仍不明朗时,他们不会过度承诺。

四、熟悉云服务

云计算是数据科学工具的核心部分。在很多情况下,在本地服务器上运行Jupyter Notebook达到硬件资源极限后仍不足以完成任务。当需要在计算能力强大的GPU上训练机器学习模型、在分布式集群上并行化数据预处理、部署REST API来发布机器学习模型、管理和共享数据集或查询数据库以进行大规模分析时,云服务尤其重要。

目前,最大的云服务提供商包括亚马逊云服务(AWS),微软的Azure和谷歌云平台(GCP)。

 

考虑到大量的服务和平台之间的差异,云服务提供商提供的服务并不能胜任数据科学的全部方面。但重要的是要对云计算有一个基本的了解,以便在你需要他们的时候能够通过浏览文档来了解他们是如何工作的。至少,这可以让你提出更好的问题,并为友好的社区数据工程师制定更具体的要求。

结语

好了,对于那些希望从零开始组建数据科学团队的公司,我推荐他们去寻找那些务实的问题解决者,他们具有强大的工程技能和敏锐的业务价值洞察力。统计学技能的优势可以带来很多价值,但在很多应用场景中,它并非像以前那么重要,尤其对于创建初期的数据科学团队。

但目前而言,大多数公司更倾向于雇佣具有强大学术背景的数据科学家,比如数学或物理学博士。考虑到数据科学行业近年来的发展趋势,未来是否会有更大比例的软件工程师或技术产品经理转变为数据科学角色,将是一个有趣的问题。

原文标题:

What Separates Good from Great DataScientists?

原文链接:

https://towardsdatascience.com/what-separates-good-from-great-data-scientists-2906431455fd

译者简介

陈振东,工资不高、想法不少,目前工作于北京银行软件开发部,负责核心系统的建设,主要方向包括客户信息(CIF)模型、三方支付交易等,并作为主要成员参与银行分布式与云计算平台的搭建。热衷于对金融数据架构与统计分析方法的研究,希望通过更多的交流拓宽工作和学习的思路。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:datapi),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

独家 | 是什么让数据科学家从优秀变得伟大?相关推荐

  1. 是什么让数据科学家从优秀变得伟大?

    数据科学领域的劳动力市场正发生着快速的变化.曾经,能够搭建机器学习模型被认为是只有少数顶尖的数据科学家才能掌握的尖端技能,但如今,有一点基本编程经验的人就能根据教程完成Scikit-learn或者ke ...

  2. 独家 | 11步转行数据科学家 (送给数据员/ MIS / BI分析师)

    来源:Analytics Vidhya 翻译:国相洁 校对:丁楠雅 本文约7100字,建议阅读10+分钟. 本文为从数据分析/数据仓库/商业智能跳转到数据科学家提供了学习路径. 数据科学作为一个专业领 ...

  3. 独家 | Deepnote测评:数据科学家的新IDE

    作者:Thiago Candido 翻译:陈之炎 校对:和中华 本文约2500字,建议阅读8分钟 本文为你介绍免费的在线数据科学集成开发环境. 在利用Deepnote开发了一个Python课程后,我决 ...

  4. 独家 | 准确度VS速度——数据科学家能从搜索中学到什么?(附链接)

    作者:Radu Miclaus,Lucidworks人工智能产品总监 翻译:陈   丹 校对:吴金笛 本文长度约为2600字,建议阅读5分钟 本文作者从搜索的角度告诉我们抉择准确度和速度的重要性,以及 ...

  5. 独家 | 13大技能助你成为超级数据科学家!(附链接)

    翻译:张睿毅 校对:王威力 本文约4000字,建议阅读8分钟. 本文为你介绍超级数据科学家的13大基本技能. (链接:https://www.linkedin.com/feed/update/ urn ...

  6. 13大技能助你成为超级数据科学家!(附链接)

    翻译 | 张睿毅 校对 | 王威力 来源 | 数据派THU(ID:DatapiTHU) 好的数据科学家和超级数据科学家有什么区别? 发布在领英上的问题 令人惊讶的是,我得到了许多来自不同行业的顶级数据 ...

  7. 麦肯锡:优秀数据科学家的5个特征!

    作者:Tessa Xie 本文约3700字,建议阅读5分钟本文总结了成为优秀数据科学家的五大关键准则. 近些年来,数据科学家这一岗位已经变得越来越炙手可热,也吸引了大批年轻人涌入渴望在激烈的竞争中抢占 ...

  8. 独家 | 麦肯锡教我的数据科学家的五大黄金法则

    作者:Tessa Xie 翻译:苗雨校对:欧阳锦本文约3700字,建议阅读5分钟本文总结了成为优秀数据科学家的五大关键准则. 图来源于Dan Dimmock在Unsplash上的拍摄 近些年来,数据科 ...

  9. 独家 | 降维是数据科学家的必由之路

    作者:shanthababu 翻译:王可汗校对:欧阳锦本文约2200字,建议阅读10分钟本文为大家介绍了降维的概念及降维技术主成分分析(PCA)在特征工程中的应用. 本文作为数据科学博客马拉松的一部分 ...

最新文章

  1. CentOS7安装Nagios并配置出图详解
  2. 详解如何实现在线聊天系统中的实时消息获取
  3. 程序员面试100题之十四:强大的和谐
  4. php if require,关于php:required_if Laravel 5验证
  5. js前端——滑稽官网的亮瞎眼系列滑稽大法
  6. source insight 4.0 无法同步文件问题
  7. html 父模板,详解vue父子模版嵌套案例
  8. 七. 并发编程 (进程队列)
  9. 经典C语言编程100例——题目+答案代码(完结)
  10. VOA ECONOMICS REPORT - Nearly Half of US Jobs Now Held by Women
  11. 你所谓的诗和远方,不过是虚荣感作祟
  12. 自动化网络安全防御的问题
  13. 华为USG防火墙及NGFW高可用性的规划与实施详解
  14. 关于airplay协议实现镜像功能研究
  15. 大数据和云计算技术周报(第81期)
  16. 鼠标悬停物体上时,出现一个跟随光标的标签
  17. Pycharm安装matplotlib
  18. android storage 路径,风儿带你了解Android存储路径。
  19. 公司网站建设的几点建议—竹晨网络
  20. PHP网络在线学习云课堂源码在线教育学习云课堂源码

热门文章

  1. 使用metasploit中Evasion模块
  2. 如何改变Redis用不好的误区
  3. 创建3层的服务模板 (1)--- 概述
  4. iOS中系统自带正则表达式的应用
  5. 10分钟精通SharePoint - SharePoint升级
  6. D3.js可视化库入门视频教程
  7. 【算法导论学习笔记】第3章:函数的增长
  8. pc端,自适应屏幕分辨率
  9. 金山电子表格金山电子表格为何会死机?
  10. 深入剖析ISAServer 网页缓存及配置