全文共2311字,预计学习时长7分钟

来源:cfzyjsxy

在大数据世界里,数据科学家受到人们的尊敬,他们采用人工智能或深度学习的方法,提出宝贵的商业见解,造福社会。

《哈佛商业评论》曾这样描述数据科学家——“数据科学家从事着21世纪最时尚的工作”。

对我来说,虽然过去五年拥有着“数据科学家”这个头衔,但我仍然没有完全弄清楚工作的哪个部分很时尚。可能是我新烫的头发使我看起来像韩国欧巴。

确实,云端的出现以及企业朝着互联网方向的发展,带来了数据的爆炸。这推动了某些部门对数据科学家的需求以及该岗位的短缺。

但是,数据科学家每天要做什么工作呢?

通过分析领英上发布的职位信息,可以找到此问题的答案。以下总结了一些热门的岗位要求:

·        了解业务和客户,验证假设理论

·        建立预测模型和机器学习流水线,进行A/ B测试

·        对业务相关者进行概念化分析

·        开发算法以赋能商业决策

·        试验并研究新技术和方法,提高技术能力。

这些听起来很时尚/高大上,不是吗?

除非工作还包括处理Kaggle数据集,否则这些工作描述只是数据科学家工作的一小部分。

以下调查结果由CrowdFlower发布,总结了数据科学家的日常活动:

数据科学家花费时间最多的事情。[摘自CrowdFlower]

从上表可以看出,数据科学家大部分时间都在收集数据集,清理和组织数据。

21世纪的高性能数据真空

数据湖是一个集中存储库,存储着公司的所有数据。公司得以使用该数据构建机器学习模型和仪表板。遗憾的是,有些人仅仅把数据湖当作数据转储的场所,或者超大硬盘。

许多公司开始实施数据湖时,对如何处理收集到的数据一无所知。这些公司会说:“让我们收集所有的数据吧。”虽然数据湖的重点是将公司的所有数据集中在一个地方,但仍然需要根据特定的项目需求进行设计。如果不进行任何计划,你就像创建了一个新的“无标题文件夹”,然后在其中复制并粘贴公司的全部数据。

如果把台式机视为数据转储场

从历史的角度看,糟糕的计划会带来杂乱无章的元数据,这让任何人都很难搜索或查找所需的数据。数据科学家经常需要与不同部门联系以获取数据。他们可能需要从不同的数据所有者中获取有关数据的信息。仅存储数据而不进行分类是一个很大的错误。建立有效数据湖的关键就是要确保元数据有良好的归类。

由于数据治理问题或数据所有者过于忙碌,且他们往往是不同部门的利益相关者,因此获取重要数据可能需要数周的时间。观察一段时间后,数据科学家可能最终会发现数据不相关或存在严重的质量问题。

当数据科学家最终收集到数据时,他们需要花费大量时间来探索和熟悉这些数据,必须将这些混乱的数据块重组为符合项目需求的新表。

21世纪里高需求的数据管理员

来源:data.lovedata

每个处理数据的专业人员都应该听说过“脏数据”一词。脏数据影响了数据集的完整性。脏数据的特征有:不完整、不准确、不一致和重复。

不完整的数据是指当某些基本功能为空时,例如,假设任务是预测房价。假设“房子的位置”对于做出良好的预测至关重要,但是这一数据却没有。这可能会变得具有挑战性,并且模型的效果也不佳。

不正确的数据和不一致的数据是指该值在技术上是正确的,但在语境下是错误的。例如,一名员工更改了地址,但数据却未更新,或者当数据有很多副本,而数据科学家得到的版本却已过时。

数据重复也是一个常见问题。在此分享一个我在电子商务公司工作时发生的故事。按照设计,当访问者单击“收集优惠券”按钮时,网站将响应发送到服务器。这使我们能够衡量已收集到优惠券的用户数量。

该网站一直运行良好,直到有一天出现了一些变化,而我对此一无所知。前端开发人员在有人成功收集优惠券时添加了另一个响应,理由是某些优惠券可能缺货了。数据科学家想跟踪单击该按钮的访问者,以及已经收集了优惠券的访问者。

这时,两个响应发送到同一日志表。看看我的报告工具,优惠券的数量似乎在一夜之间翻了一番!在前一天部署模型时,我以为新模型是很成功的。我记得曾为这个小模型欢呼鼓掌,但后来意识到这只是在重复计算。

另外,在过去五年里,作为数据科学家,我收集到的一些数据是公司员工手动输入的。在Excel电子表格中,许多数据是不准确、不完整且不一致的。

无论数据是人工输入还是机器日志,数据整理在现实世界中应用广泛。数据科学家必须处理这些数据。为了使监督学习有效,我们需要可靠的、分类好的数据。除非正确标记数据,否则无法建立预测模型。但是没有人喜欢标记数据。

许多人将其描述为二八规则。数据科学家仅花了20%的时间构建模型,而其他80%的时间用于收集、分析、清理和重组数据。处理脏数据是数据科学家日常工作中最耗时的。

来源:Pexels

有必要说明的是,数据清理至关重要,混乱的数据不会带来良好的结果,你可能听过“垃圾进,垃圾出”这句话。

数据科学家在浏览数据时确实会有所发现,但是在数据科学家可以开始训练任何模型之前,必须首先成为数据管理员。数据需要清理,也需要标记。

所以,将数据科学家称为大数据世界的清洁工,应该也挺合适吧……

推荐阅读专题

留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货

编译组:李林虹、高荣蔚

相关链接:

https://towardsdatascience.com/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845

如需转载,请后台留言,遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017 论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

数据科学家:21世纪最脏的工作相关推荐

  1. 颓废的人怎样振奋精神_5个令人振奋的行业,从事数据科学家在科技行业以外的工作...

    颓废的人怎样振奋精神 重点 (Top highlight) For many aspiring data scientists, the dream job is in one of the glob ...

  2. 暗流涌动,为何​数据科学家迫不及待地辞职、换工作?

    高管. CxO(电商企业首席惊喜官). C-Suitefolks(全球高管).投资方,所有在企业高层的人都想展示,他们的公司或项目处于最新技术进步的前沿. 这就是问题所在--无数高管都觉得人工智能是解 ...

  3. IT技术能治病救人-数据是21世纪最伟大的药物

    mark下这篇文章,担心链接失效,摘要些关键信息出来. 链接:https://mp.weixin.qq.com/s?__biz=MzA3NTIyODUzNA==&mid=2649579790& ...

  4. 薪酬与工作满意度大调查:数据科学家还是21世纪最性感的职业吗?

    作者 | ChuangXin Lin 译者 | 王强 策划 | 刘燕 本文最初发布于 Medium 网站,经原作者授权由 InfoQ 中文站翻译并分享. 我们身处一个数据无处不在的时代.过去几年来,劳 ...

  5. 数据科学家是个性感的工作?我信你个鬼!

    数据科学家40%是个吸尘器,40%是个清洁工,剩下20%是个算命的. 作者 | Jingles 译者 | 香槟超新星,责编 | 夕颜 出品 | CSDN(ID:CSDNnews) 根据<哈佛商业 ...

  6. 大数据——21世纪的石油和钻石,怎么用?

    大数据--21世纪的石油和钻石,怎么用? 大数据正在成为目前信息时代的核心战略资源,即,数据是21世纪的石油和钻石.大数据特有的以局部推测整体的能力提升了社会一叶知秋的能力.可以说,大数据作为新型的. ...

  7. 为什么我劝你不要当数据科学家?

    作者丨Chris 译者丨Sambodhi 策划丨陈思 数据科学家这一职位越来越火热,人人都想从事数据科学,这不仅因为这份工作听上去高大上,更重要的是,它真的是一份高薪的工作.但是,数据科学家是人人都能 ...

  8. “数据科学家”或许不再性感,但“数据团队”的产业化才刚开始 | 专访领英全球数据科学团队负责人...

    来源:大数据文摘 本文约5750字,建议阅读6分钟. 本文为清华大学大数据研究中心联合大数据文摘发起的年度白皮书<顶级数据团队建设全景报告>系列专访的第二篇内容.<报告>囊括专 ...

  9. 中国的数据科学家阶层正在形成

    有人给予了大数据专家许多美好的称号,比如"数据开采者"."数据建筑师"等,但其中最时髦的当属"数据科学家".当记者在互联网上搜索" ...

最新文章

  1. MATLAB中subplot函数使用
  2. 网站安全登录 web应用安全登录 密码 防截获
  3. 无中生有 : 对称方波中的二次谐波
  4. UML中类图与对象图的区别
  5. 深度学习核心技术精讲100篇(六十二)-DQN 的三种改进在运筹学中的应用
  6. Efficient Sparse Coding Algorithm
  7. 使用SELECT 和OPEN CURSOR 读取big table的性能比较
  8. linux运行apktool签名,解决Linux中使用ApkTool遇到问题
  9. JS事件的捕获和冒泡阶段
  10. 2.5 Go 算术运算与变量使用技巧
  11. springmvc为什么不能拦截jsp页面?
  12. HDU 2089 不要62(数位DP)
  13. Xcode7.0.1:升级Xcode7上传AppStore失败问题
  14. N 层应用程序中的数据检索和 CUD 操作 (LINQ to SQL)
  15. Vivado设计流程(五)工程实现
  16. atitit.js的 字符串内容 转义  js处理html
  17. request.getcontextPath() 详解(转)
  18. Android P2P语音通话实现(思路探讨)
  19. Spring boot 搭建个人博客系统(六)——文章点击量和阅读排行榜
  20. 如何去做词频统计和关键词共现分析

热门文章

  1. 文秀才文档管理系统文档管理,CAD, 图纸管理, 百度文库, 文档在线预览
  2. html5 frog jump,frog-jump
  3. 好气色“吃”出来 7条守则缔造美肌—多喝水、喝对水
  4. erp系统是什么意思啊
  5. 职场语言的特征3p1A7C指什么,商务礼仪选择题和答案
  6. Linux Ubuntu22.04 安装synaptic包图形化管理工具和cairo-dock(最美观的Linux dock)
  7. MySQL日志双一配置分析实战
  8. 全链路稳定性背后的数字化支撑:阿里巴巴鹰眼技术解密
  9. 超级计算机发展 小记
  10. 一个人窝在摇椅里乘凉 我承认这样真的很安详 和楼下老爷爷一样