数据科学家:21世纪最脏的工作
全文共2311字,预计学习时长7分钟
来源:cfzyjsxy
在大数据世界里,数据科学家受到人们的尊敬,他们采用人工智能或深度学习的方法,提出宝贵的商业见解,造福社会。
《哈佛商业评论》曾这样描述数据科学家——“数据科学家从事着21世纪最时尚的工作”。
对我来说,虽然过去五年拥有着“数据科学家”这个头衔,但我仍然没有完全弄清楚工作的哪个部分很时尚。可能是我新烫的头发使我看起来像韩国欧巴。
确实,云端的出现以及企业朝着互联网方向的发展,带来了数据的爆炸。这推动了某些部门对数据科学家的需求以及该岗位的短缺。
但是,数据科学家每天要做什么工作呢?
通过分析领英上发布的职位信息,可以找到此问题的答案。以下总结了一些热门的岗位要求:
· 了解业务和客户,验证假设理论
· 建立预测模型和机器学习流水线,进行A/ B测试
· 对业务相关者进行概念化分析
· 开发算法以赋能商业决策
· 试验并研究新技术和方法,提高技术能力。
这些听起来很时尚/高大上,不是吗?
除非工作还包括处理Kaggle数据集,否则这些工作描述只是数据科学家工作的一小部分。
以下调查结果由CrowdFlower发布,总结了数据科学家的日常活动:
数据科学家花费时间最多的事情。[摘自CrowdFlower]
从上表可以看出,数据科学家大部分时间都在收集数据集,清理和组织数据。
21世纪的高性能数据真空
数据湖是一个集中存储库,存储着公司的所有数据。公司得以使用该数据构建机器学习模型和仪表板。遗憾的是,有些人仅仅把数据湖当作数据转储的场所,或者超大硬盘。
许多公司开始实施数据湖时,对如何处理收集到的数据一无所知。这些公司会说:“让我们收集所有的数据吧。”虽然数据湖的重点是将公司的所有数据集中在一个地方,但仍然需要根据特定的项目需求进行设计。如果不进行任何计划,你就像创建了一个新的“无标题文件夹”,然后在其中复制并粘贴公司的全部数据。
如果把台式机视为数据转储场
从历史的角度看,糟糕的计划会带来杂乱无章的元数据,这让任何人都很难搜索或查找所需的数据。数据科学家经常需要与不同部门联系以获取数据。他们可能需要从不同的数据所有者中获取有关数据的信息。仅存储数据而不进行分类是一个很大的错误。建立有效数据湖的关键就是要确保元数据有良好的归类。
由于数据治理问题或数据所有者过于忙碌,且他们往往是不同部门的利益相关者,因此获取重要数据可能需要数周的时间。观察一段时间后,数据科学家可能最终会发现数据不相关或存在严重的质量问题。
当数据科学家最终收集到数据时,他们需要花费大量时间来探索和熟悉这些数据,必须将这些混乱的数据块重组为符合项目需求的新表。
21世纪里高需求的数据管理员
来源:data.lovedata
每个处理数据的专业人员都应该听说过“脏数据”一词。脏数据影响了数据集的完整性。脏数据的特征有:不完整、不准确、不一致和重复。
不完整的数据是指当某些基本功能为空时,例如,假设任务是预测房价。假设“房子的位置”对于做出良好的预测至关重要,但是这一数据却没有。这可能会变得具有挑战性,并且模型的效果也不佳。
不正确的数据和不一致的数据是指该值在技术上是正确的,但在语境下是错误的。例如,一名员工更改了地址,但数据却未更新,或者当数据有很多副本,而数据科学家得到的版本却已过时。
数据重复也是一个常见问题。在此分享一个我在电子商务公司工作时发生的故事。按照设计,当访问者单击“收集优惠券”按钮时,网站将响应发送到服务器。这使我们能够衡量已收集到优惠券的用户数量。
该网站一直运行良好,直到有一天出现了一些变化,而我对此一无所知。前端开发人员在有人成功收集优惠券时添加了另一个响应,理由是某些优惠券可能缺货了。数据科学家想跟踪单击该按钮的访问者,以及已经收集了优惠券的访问者。
这时,两个响应发送到同一日志表。看看我的报告工具,优惠券的数量似乎在一夜之间翻了一番!在前一天部署模型时,我以为新模型是很成功的。我记得曾为这个小模型欢呼鼓掌,但后来意识到这只是在重复计算。
另外,在过去五年里,作为数据科学家,我收集到的一些数据是公司员工手动输入的。在Excel电子表格中,许多数据是不准确、不完整且不一致的。
无论数据是人工输入还是机器日志,数据整理在现实世界中应用广泛。数据科学家必须处理这些数据。为了使监督学习有效,我们需要可靠的、分类好的数据。除非正确标记数据,否则无法建立预测模型。但是没有人喜欢标记数据。
许多人将其描述为二八规则。数据科学家仅花了20%的时间构建模型,而其他80%的时间用于收集、分析、清理和重组数据。处理脏数据是数据科学家日常工作中最耗时的。
来源:Pexels
有必要说明的是,数据清理至关重要,混乱的数据不会带来良好的结果,你可能听过“垃圾进,垃圾出”这句话。
数据科学家在浏览数据时确实会有所发现,但是在数据科学家可以开始训练任何模型之前,必须首先成为数据管理员。数据需要清理,也需要标记。
所以,将数据科学家称为大数据世界的清洁工,应该也挺合适吧……
推荐阅读专题
留言 点赞 发个朋友圈
我们一起分享AI学习与发展的干货
编译组:李林虹、高荣蔚
相关链接:
https://towardsdatascience.com/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845
如需转载,请后台留言,遵守转载规范
推荐文章阅读
ACL2018论文集50篇解读
EMNLP2017论文集28篇论文解读
2018年AI三大顶会中国学术成果全链接
ACL2017 论文集:34篇解读干货全在这里
10篇AAAI2017经典论文回顾
长按识别二维码可添加关注
读芯君爱你
数据科学家:21世纪最脏的工作相关推荐
- 颓废的人怎样振奋精神_5个令人振奋的行业,从事数据科学家在科技行业以外的工作...
颓废的人怎样振奋精神 重点 (Top highlight) For many aspiring data scientists, the dream job is in one of the glob ...
- 暗流涌动,为何数据科学家迫不及待地辞职、换工作?
高管. CxO(电商企业首席惊喜官). C-Suitefolks(全球高管).投资方,所有在企业高层的人都想展示,他们的公司或项目处于最新技术进步的前沿. 这就是问题所在--无数高管都觉得人工智能是解 ...
- IT技术能治病救人-数据是21世纪最伟大的药物
mark下这篇文章,担心链接失效,摘要些关键信息出来. 链接:https://mp.weixin.qq.com/s?__biz=MzA3NTIyODUzNA==&mid=2649579790& ...
- 薪酬与工作满意度大调查:数据科学家还是21世纪最性感的职业吗?
作者 | ChuangXin Lin 译者 | 王强 策划 | 刘燕 本文最初发布于 Medium 网站,经原作者授权由 InfoQ 中文站翻译并分享. 我们身处一个数据无处不在的时代.过去几年来,劳 ...
- 数据科学家是个性感的工作?我信你个鬼!
数据科学家40%是个吸尘器,40%是个清洁工,剩下20%是个算命的. 作者 | Jingles 译者 | 香槟超新星,责编 | 夕颜 出品 | CSDN(ID:CSDNnews) 根据<哈佛商业 ...
- 大数据——21世纪的石油和钻石,怎么用?
大数据--21世纪的石油和钻石,怎么用? 大数据正在成为目前信息时代的核心战略资源,即,数据是21世纪的石油和钻石.大数据特有的以局部推测整体的能力提升了社会一叶知秋的能力.可以说,大数据作为新型的. ...
- 为什么我劝你不要当数据科学家?
作者丨Chris 译者丨Sambodhi 策划丨陈思 数据科学家这一职位越来越火热,人人都想从事数据科学,这不仅因为这份工作听上去高大上,更重要的是,它真的是一份高薪的工作.但是,数据科学家是人人都能 ...
- “数据科学家”或许不再性感,但“数据团队”的产业化才刚开始 | 专访领英全球数据科学团队负责人...
来源:大数据文摘 本文约5750字,建议阅读6分钟. 本文为清华大学大数据研究中心联合大数据文摘发起的年度白皮书<顶级数据团队建设全景报告>系列专访的第二篇内容.<报告>囊括专 ...
- 中国的数据科学家阶层正在形成
有人给予了大数据专家许多美好的称号,比如"数据开采者"."数据建筑师"等,但其中最时髦的当属"数据科学家".当记者在互联网上搜索" ...
最新文章
- MATLAB中subplot函数使用
- 网站安全登录 web应用安全登录 密码 防截获
- 无中生有 : 对称方波中的二次谐波
- UML中类图与对象图的区别
- 深度学习核心技术精讲100篇(六十二)-DQN 的三种改进在运筹学中的应用
- Efficient Sparse Coding Algorithm
- 使用SELECT 和OPEN CURSOR 读取big table的性能比较
- linux运行apktool签名,解决Linux中使用ApkTool遇到问题
- JS事件的捕获和冒泡阶段
- 2.5 Go 算术运算与变量使用技巧
- springmvc为什么不能拦截jsp页面?
- HDU 2089 不要62(数位DP)
- Xcode7.0.1:升级Xcode7上传AppStore失败问题
- N 层应用程序中的数据检索和 CUD 操作 (LINQ to SQL)
- Vivado设计流程(五)工程实现
- atitit.js的 字符串内容 转义 js处理html
- request.getcontextPath() 详解(转)
- Android P2P语音通话实现(思路探讨)
- Spring boot 搭建个人博客系统(六)——文章点击量和阅读排行榜
- 如何去做词频统计和关键词共现分析
热门文章
- 文秀才文档管理系统文档管理,CAD, 图纸管理, 百度文库, 文档在线预览
- html5 frog jump,frog-jump
- 好气色“吃”出来 7条守则缔造美肌—多喝水、喝对水
- erp系统是什么意思啊
- 职场语言的特征3p1A7C指什么,商务礼仪选择题和答案
- Linux Ubuntu22.04 安装synaptic包图形化管理工具和cairo-dock(最美观的Linux dock)
- MySQL日志双一配置分析实战
- 全链路稳定性背后的数字化支撑:阿里巴巴鹰眼技术解密
- 超级计算机发展 小记
- 一个人窝在摇椅里乘凉 我承认这样真的很安详 和楼下老爷爷一样