数据科学家40%是个吸尘器,40%是个清洁工,剩下20%是个算命的。

作者 | Jingles

译者 | 香槟超新星,责编 | 夕颜

出品 | CSDN(ID:CSDNnews)

根据《哈佛商业评论》的说法,数据科学家是21世纪最性感的工作。在现在这个大数据的世界中,数据科学家们用AI 或深度学习方法来发掘宝贵的商业见解。

而我,挂着“数据科学家”头衔已经五年了,却仍然没有完全搞明白自己究竟哪里性感,除了我新烫的头发让我看起来像个韩国欧巴(此词通常用来代指韩国偶像剧男主角)。

确实,云的出现和商业向互联网的转移已经引起了数据爆炸。这导致了某些部门中对于数据科学家的需求增加,造成此职位的人员短缺。

但是,数据科学家们每天工作的具体内容包括哪些呢?

通过分析LinkedIn上发布的职位,我们就能找到这个问题的答案。以下是我总结的一些主要的点:

  • 对业务和客户有所了解,对假设进行验证

  • 建立起预测模型和机器学习流水线,进行A / B测试

  • 给商业的利益相关者们概念化分析

  • 开发能够做出业务决策的算法

  • 实验并研究新技术和方法来提升技术能力

这些听上去都很性感,对不对?

除非你的工作内容只包含处理Kaggle数据集,否则以上这些工作描述只是数据科学家们生活的一小部分。

以下调查结果来自CrowdFlower,对一个数据科学家的一个平常的工作日作了以下总结:

数据科学家大部分时间都在干什么?图源:CrowdFlower

如上表所示,数据科学家的大部分时间都花在了收集数据集,清洗以及组织数据上。

21世纪的高性能数据吸尘器

数据湖(data lakes)是集中存储公司所有数据的地方。它们使组织能够使用公司的数据来搭建机器学习模型和仪表板。而不幸的是,有的人会认为数据湖是可以用来丢弃数据的垃圾场,或一个超大的硬盘。

许多组织(公司)在开始布施数据湖时,对应该如何处理收集到的数据一无所知。他们说:“那我们就把所有的东西都收集起来吧。”尽管数据湖的意义在于将公司的所有数据集中在一个地方,但根据特定项目的需求来对它进行设计仍然是至关重要的。不进行计划几乎就像创建一个“新建文件夹”,然后把公司的全部数据都复制粘贴到里面一样。

当你把桌面当做数据垃圾场时

从历史上看,糟糕的计划很少会带来,或者说从未带来过定义明确的元数据,这就使所有人都很难搜索(并找到)自己所需的数据。数据科学家们会经常需要与不同部门联系来获取数据。他们可能需要从各种类型的数据所有者那里得到有关数据的信息。只对数据进行存储而不进行分类简直大错特错。要使数据湖变得有用起来的关键是要确保元数据是被明确定义的。

由于数据管控或数据所有者们(他们往往是不同部门的利益相关者)太过忙碌,重要数据的获取甚至可能需要花费数周的时间。在等待的游戏结束之后,到头来数据科学家们却有可能发现数据不相关或存在严重的质量问题。

当数据科学家终于能接触到数据时,他们还需花费大量时间来探索以及熟悉数据。他们必须将这些混乱的数据块重组成与项目需求一致的新表。

21世纪的高层次数据清洁工

每个与数据打交道的人都应该听说过“脏数据”(dirty data)一词。脏数据会破坏数据集的完整性,它的某些特征是不完整,不准确,不一致,或者重复的。

不完整”是指,有些必要特征空缺。例如,假设你的任务是预测房价,而“房子的区域”对于良好的预测至关重要,但这个值却是缺失的。这样的话预测房价可能对你来说就有很大的挑战性了,并且你的模型也可能表现欠佳。

“不准确”和“不一致”就是指,技术上来说数值是正确的,但在具体语境下却是错误的。例如,当一名员工更改了自己的地址,并且未更新,又或者,某项数据有很多版本,但数据科学家拿到的是旧版。

“重复”是一个常见的问题。让我来跟你分享一个以前我在电子商务公司工作时发生的事情吧。按照计划,当访问者单击“收取收据”按钮时,网站会向服务器发送一个响应,这就使得我们能够计数已收取了收据的用户数量。

该网站运行良好,直到一天某个变化发生了,但我对此一无所知。前端开发人员添加了另一个响应,在有人成功收取了收据时发送。理由是某些收据可能短缺,他们想记下单击了该按钮以及收取了收据的访问者。

那时,两个响应会被发送到同一日志表。我看着我的报表工具,发现收据的数量似乎在一夜之间翻了一番!因为我前一天部署了一个模型,所以想当然的认为是自己新模型的功劳。记得当时我还在内心里暗暗地为自己的小模型鼓掌致意了呢,后来才意识到只是因为重复计算而已!

另外,在过去五年中,作为一名数据科学家,我收到数据中的一部分是由公司员工手动输入的。这些数据存在Excel表中,其中许多都不准确,不完整,不一致。

无论数据是来自人工手动输入还是机器日志,在现实世界中数据整理都占了工作内容的很大的比例。数据科学家们必须面对这件事情。为了使监督学习能有效,我们需要可靠的,带有标签(label)的数据。只有数据被正确地标记了,你才可能建立起预测模型,但没人喜欢标记数据。

许多人将这种情况描述为80/20规则。数据科学家们只有20%的时间是用于构建模型的,而其他80%的时间则用于收集,分析,清洗和重组数据。脏数据是一个普通数据科学家工作中最耗时的一项。

有必要指出的是,数据的清洗是必不可少的。从乱糟糟的数据无法生产出良好的结果。你可能已经听说过“垃圾进,垃圾出”(Garbage in, garbage out.)这句话了。

数据科学家们在数据中漫游时确实会发现一些东西。但在开始训练任何模型之前,数据科学家必须首先成为数据清洁工。数据需要经历清洗,数据需要经历标记。

我是一名数据科学家...

我并不觉得我的工作性感。

我40%的功能像个吸尘器,另外40%像清洁工。

而最后的20%......就当是个算命先生吧。

原文链接:

https://towardsdatascience.com/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845

本文为CSDN翻译文章,转载请注明出处。

《原力计划【第二季】- 学习力挑战》正式开始!即日起至 3月21日,千万流量支持原创作者!更有专属【勋章】等你来挑战

推荐阅读:时间复杂度的表示、分析、计算方法……一文带你看懂时间复杂度!
Linux 会成为主流桌面操作系统吗?
识别率惊人的 GitHub 口罩检测 | 原力计划
西二旗大厂复工记
智能合约编写之Solidity的基础特性
Javascript函数之深入浅出递归思想,附案例与代码!
真香,朕在看了!

数据科学家是个性感的工作?我信你个鬼!相关推荐

  1. “数据科学家”或许不再性感,但“数据团队”的产业化才刚开始 | 专访领英全球数据科学团队负责人...

    来源:大数据文摘 本文约5750字,建议阅读6分钟. 本文为清华大学大数据研究中心联合大数据文摘发起的年度白皮书<顶级数据团队建设全景报告>系列专访的第二篇内容.<报告>囊括专 ...

  2. “数据科学家”或许不再性感,但“数据团队”的产业化才刚开始 | 专访领英全球数据科学团队负责人

    大数据文摘出品 作者:魏子敏.夏雅薇.牛婉杨 定下"顶级数据科学团队"这个研究话题时,我们第一时间想到了领英(LinkedIn). 2008年,正是在这家公司,DJ Patil建立 ...

  3. hadoop将消亡_数据科学家:适应还是消亡!

    hadoop将消亡 Harvard Business Review marked the boom of Data Scientists in their famous 2012 article &q ...

  4. 颓废的人怎样振奋精神_5个令人振奋的行业,从事数据科学家在科技行业以外的工作...

    颓废的人怎样振奋精神 重点 (Top highlight) For many aspiring data scientists, the dream job is in one of the glob ...

  5. 数据科学家:21世纪最脏的工作

    全文共2311字,预计学习时长7分钟 来源:cfzyjsxy 在大数据世界里,数据科学家受到人们的尊敬,他们采用人工智能或深度学习的方法,提出宝贵的商业见解,造福社会. <哈佛商业评论>曾 ...

  6. 暗流涌动,为何​数据科学家迫不及待地辞职、换工作?

    高管. CxO(电商企业首席惊喜官). C-Suitefolks(全球高管).投资方,所有在企业高层的人都想展示,他们的公司或项目处于最新技术进步的前沿. 这就是问题所在--无数高管都觉得人工智能是解 ...

  7. 走在“辞职”路上的数据科学家们!

    [CSDN 编者按]很多文章都说,数据科学是21世纪"最性感"的工作,数据科学家可以赚得盆满钵满,以至于数据科学看起来是完全梦幻般的美妙工作.但事实表示,数据科学家们通常每周都会花 ...

  8. 大咖 | “大数据之父”达文波特:成功的数据科学家不一定要有研究生学位

    大数据文摘作品 作者:托马斯·H·达文波特 2006年6月,乔纳森•高德曼(Jonathan Goldman)进入商务社交网站LinkedIn工作.作为斯坦福大学物理学博士,他醉心于无处不在的链接和丰 ...

  9. 应聘苹果数据科学家,你需要知道些什么?

    作者 | Jay Feng 译者 | 孙薇,责编 | 屠敏 头图 | CSDN 下载自东方 IC 出品 | CSDN(ID:CSDNnews) 以下为译文: 苹果公司是全球最大的技术公司之一,从事电子 ...

最新文章

  1. python基础考核试题及答案
  2. 设计模式的征途—21.迭代器(Iterator)模式
  3. 【易懂】Java源码角度分析put()与putIfAbsent()的区别——源码分析系列
  4. efcore 批量_【EF Core】Entity Framework Core 批处理语句
  5. 《重构》-重新组织函数
  6. scala 排序接口Ordering
  7. 完成一个简单的时间片轮转多道程序内核代码
  8. 【原创smarty仿淘宝商品图片轮播+放大镜效果】
  9. 监控系统存储服务器和磁盘阵列,监控怎样用磁盘阵列存储服务器
  10. C语言 实现99乘法口诀表
  11. 蓝桥杯之单片机学习(三)——共阳数码管的静态显示
  12. 苹果开发者账号购买流程
  13. 仿鱼爪新媒交易账号过户转让平台源码担保第三方账号交易系统公众号服务号抖音快手小红书
  14. raid ahci模式哪个好_一机多用的RAID磁盘阵列 QNAP TR-004体验测评
  15. [BJDCTF 2nd]假猪套天下第一
  16. JUST技术:从GPS数据中挖掘用户行为习惯
  17. Activity跳转方式
  18. 英语情景对话计算机的优缺点,关于英语面试优点缺点口语句型|情景对话
  19. 计算机管理中不显示独立显卡,win10系统下检测不到独立显卡如何解决
  20. 缺货笼罩供应链:智能手机“涨”声一片

热门文章

  1. 辽宁省大学生计算机系统与程序设计竞赛,2019CCF大学生计算机系统与程序设计竞赛(华东分赛区)在我校顺利举办...
  2. hp服务器raid一直显示同步,HP Netserver NetRAID 一致性检查常见问题解答(FAQ)
  3. 吴孟超:用一生为理想去奋斗 丨纪念吴孟超医生
  4. 自从阿里买了Flink母公司以后,你不懂Flink就out了!
  5. SWPU第一届APP程序设计大赛筹备工作
  6. webshell提权教程linux,Linux下WEBSHELL提权
  7. C语言中预定义宏的应用
  8. 【转载保存】lucene优秀文章整理
  9. python利用jieba(textRank、TFIDF)提取关键字
  10. 【转载保存】接口的压力测试工具