所谓数据科学家就是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人。

--Josh Wills, Cloudera云纪元

毫无疑问,数据科学是如今职场上最受追捧的技能之一。CNBC的一篇文章在综合考虑就业机会、薪水中位数、体力工作强度、工作压力等因素后,将“数据科学家”评选为2017年最受欢迎的10大职业之一。数据科学在职场中确实越来越热,数据科学家年薪的中位数超过了11万美元而且职场中对于数据科学家的需求有16%的预期增长。

话虽如此,想要成为一名数据科学家却并不简单。这份工作在要求全面扎实的技术能力的同时,还要求丰富的想象力。数据科学家必须有能力收集恰当的数据、将之整理为合适分析的形式、设计创造性地方法来实现数据可视化、并挖掘数据信息来回答具体问题。

正因如此,顶级数据科学家在技术型公司通常会得到摇滚巨星般的待遇。然而,数据“极客”的生活跟“轻松”两个字却毫不沾边。新工具和新技术每天都如同雨后春笋般不断涌现,数据科学家必须不断更新知识和技能,才能保住自己在公司的地位。

那么,就让我们来看看数据科学家有哪些日常。

1、当被别人问:“什么是大数据?”

  “啥,你逗我?”⊙o⊙

我们生活在高度数字化的世界,大数据无处不在。通过社交媒体、网银、GPS、电子商务,我们无时不刻都在生成海量的数据。事实上,据报道,我们每天生成的数据量高达2.5兆字节。

大数据已经改变了我们与人沟通的方式和生活方式。借助大数据分析,零售网站得以针对用户喜好发送精准的产品推荐,政府机关得以掌握并预测犯罪行为,交管部门得以管控交通流量,执业医师得以更精确地诊断疾病。

大数据的应用简直不胜枚举,而且切实而有效地提高了我们的生活质量,因此每个人都应该很熟悉“大数据”这个词了。

2、你第一次跑通R代码是什么时候?

有一天,新手数据科学家会懂上边这张图。R编程是数据科学领域最必不可少的技能之一。KDnuggets上就有文章认为, R是2016年分析和数据科学领域最受欢迎的软件,而Python仅排名第二。

考虑到R在市面上的受欢迎程度,当R代码如你所愿发挥作用时,你会情不自禁地认为自己就是数据之王。

3、当你不得不处理非结构化流数据

非结构化数据分析通常被称为“暗黑分析”(dark analytics)。这个令人生畏的名号绝非虚张声势,而是货真价实、毫不夸张。

即使是最娴熟的数据科学家,处理起非结构化流数据来也免不了一个脑袋两个大。不论是社交媒体、视频、客户日志还是地理空间服务数据,分析工作都需要在多元数据上实时、增量进行。此外,时效性也是此类数据分析工作的重中之重。

因此,当你一脚踏入暗黑分析的领域,那种(面对庞然大物茫然不知所措的)感觉就跟试图揭开宇宙奥秘的空间科学家毫无二致。

4、当你模型的预测准确度高于90

这可不是小事。为了做好分析工作,数据科学家必须在数据研究、解读、准备和处理上投入大量的时间,这个过程需要极大的耐心和努力。然而,如果你构建的模型的准确预测度可以达到90%以上,回报也是无比丰厚的。

当客户、经理、同事的赞扬和欣赏如潮水般向你涌来时,你在喜不自胜之余脑海里只会记得一件事 — 周末嗨翻天!

5、当你想要找出模型中的漏洞

从成百上千行代码中找到错误,就跟让宿醉的你去大海里捞针一样痛苦。

但是直面现实吧,这就是工作呀,谁让你是数据科学家呢。

6、当你的经理问及漏洞修复进展

通常情况下,数据科学机构中的经理们都不了解技术性任务的实质,不论是排查模型缺陷或者改善模型性能;他们普遍更加关注项目管理(例如最后时限等。)

面对“这个项目什么时候能结束?”这样的问题,数据科学家能做的就是能拖一会儿就拖一会儿或者干脆消失。

7、当你的小白朋友指出了你模型的漏洞

你死死盯着代码,几个小时过去了却一无所获。就在你几乎要放弃的时候,一个朋友偶然扫了一眼,马上就指出了其中的错误。

最初的尴尬和怒火过去之后,你很快就会松一口气,毕竟麻烦事儿又少了一件。

没什么大不了的,我们可以这样安慰自己:“旁观者清嘛”。

8、当你的SQL查询跑的特别慢

慢吞吞的服务器,糟糕的网络情况,或者别的什么原因,都会导致SQL查询执行的特别慢,就跟看着油漆一点点风干一样;当然你也不用一直盯着电脑屏幕,倒杯咖啡,让SQL自己飞一会吧。

这很无聊,而且极耗耐心;不过大家都是这样过来的。

9、 当你好不容易建好模,用户又要改数据

在费尽九牛二虎之力分析数据、建了无数模型,分析出了无数趋势后,你最不想听到的就是你用的是“错误”数据。

也就是说,你要分析一套完全不同的数据集,所有的模型都要进行重大调整,从头再来一遍。痛苦啊!

10、当你再有20分钟就要见客户,但PPT还没做好

你刚做完见客户的PPT,擦擦皮鞋整整领带就可以去见客户了吧?就大多数情况而言,答案是否定的。

数据工程师需要跟同事和经理复核PPT;这意味着在最后一分钟内PPT会有无数改动。做这些改动是非常有压力的,因为这关系到你的个人声誉、业务成败、公司形象、甚至你的职业前途。

不过,当你最终得到客户首肯时,你会意识到有些改变是非常关键的,而且能让你的案例更有说服力。

正如大名鼎鼎的史蒂芬·乔布斯说的:

“伟大的商业成就绝非一人可为,而是团队之功。”

11、客户最终认同你的模型的输出结果

  这是所有数据科学家都天天幻想的时刻。

面对要求极高、条件极为严苛的客户,你夜以继日的努力工作,力求模型达到最大限度的精确有效。你不得不一次又一次给自己打气,拿出最大的耐心来面对这帮闹心的客户。然而,当客户真心实意地向你竖起大拇指时,最终的胜利是属于你的。

Kirk Borne博士对此有着精辟见解:

“客户可能会出错,但客户永远是客户。”

12、当市场迎来一家新的大数据公司

分析行业发展十分迅猛,新工具和新技术也层出不穷。数据科学家见证着各种大数据、分析和深度学习工具的不断涌现。

数据极客骨子里都是持续学习者,他们对于业内新发展永远持开放态度,并且会随之拓展自己的知识和技能。

本文转自d1net(转载)

感同身受!12个数据科学家秒懂的瞬间相关推荐

  1. 12个数据科学家秒懂的瞬间

    所谓数据科学家就是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人.–Josh Wills, Cloudera毫无疑问,数据科学是如今职场上最受追捧的技能之一.CNBC的一篇文章在综合考虑就业机 ...

  2. 分辨真假数据科学家的20个问题及回答

    [导语]本文分为两个部分,第一部分是quora上很火的一篇问答--[20个分辨真假数据科学家的问题]中赞赏数最高的回答,第二部分则是KDnuggets阅读量非常高的一篇文章[KDnuggets编辑们针 ...

  3. 数据科学家经典20道面试题

    Q1.解释什么是正则化,以及它为什么有用. 回答者:Matthew Mayo   正则化是添加一个调优参数的过程模型来引导平滑以防止过拟合.(参加KDnuggets文章<过拟合>) 这通常 ...

  4. 21天混入数据科学家队伍

    2019独角兽企业重金招聘Python工程师标准>>> 在KDnuggets上,<检测伪数据科学家的20个问题>是1月份阅读量最高的文章,由于作者只是提问而没有给出答案, ...

  5. 如何12个月内成为数据科学家?

    RoyalMail数据科学家Freddie Odukomaiya曾经用12个月的时间让自己成功的成为数据科学家,以下是他的经验分享和他所使用的学习资源. 以下内容译自https://blog.usej ...

  6. 像数据科学家一样思考:12步指南(上)

    介绍 目前,数据科学家正在受到很多关注,因此,有关数据科学的书籍正在激增.我看过很多关于数据科学的书籍,在我看来他们中的大多数更关注工具和技术,而不是数据科学中细微问题的解决.直到我遇到Brian G ...

  7. sql 12天内的数据_想要在12周内成为数据科学家吗?

    sql 12天内的数据 重点 (Top highlight) I see many ads that claim to make you a data scientist in 12 weeks. T ...

  8. 像数据科学家一样思考:12步指南(中)

    像数据科学家一样思考:12步指南(上)<像数据科学家一样思考> 7-工程产品 下一步是建立统计软件.如果统计是分析和从数据中得出结论的框架,那么软件就是将这个框架付诸行动的工具.数据科学家 ...

  9. 像数据科学家一样思考:12步指南(上) 1

    介绍 目前,数据科学家正在受到很多关注,因此,有关数据科学的书籍正在激增.我看过很多关于数据科学的书籍,在我看来他们中的大多数更关注工具和技术,而不是数据科学中细微问题的解决.直到我遇到Brian G ...

最新文章

  1. Linux_CentOS-服务器搭建 六
  2. SAP Spartacus本地启动时的白屏问题分析
  3. python调用c++的库传递二级指针
  4. 组装台式电脑配置清单_攒机必备!各种价位的台式电脑配置清单!
  5. 网页截图和svg模版动态生成图片Java实现
  6. mysql注入式攻击_mybatis的sql中使用$会出现sql注入示例
  7. 连接MySQL和连接文件夹区别_JDBC与JNDI这两种连接方式有什么区别?
  8. android-手势-基础知识总结
  9. python与西门子1200通讯_西门子S7-1200的以太网通信
  10. Artistic Style Dev CPP 运算符 前后空格
  11. [系统安全] 十五.Chrome密码保存功能渗透解析、Chrome蓝屏漏洞及音乐软件漏洞复现
  12. 贝叶斯分析思路 通俗讲法
  13. 【Ps2D】将PS图层导入Unity的插件
  14. Android 开发都有哪些好书值得一读?
  15. 飞浆论文复现:用于图像到图像翻译的具有自适应层实例化的非监督的生成对抗网络
  16. 利用 Itchat 实现微信群发和关键词自动回复
  17. 海尔互联网转型成功了吗?
  18. 超耐磨水笔网站主页开源html源码
  19. java计算机毕业设计医院人事档案管理系源码+系统+mysql数据库+lw文档
  20. 记录:Linux 安装 EMQX MQTT 并启用 SSL/TLS 安全连接

热门文章

  1. Scott用户的四张表:
  2. linux 下的几个配置文件-开机启动,mount硬盘,
  3. POJ3150—Cellular Automaton(循环矩阵)
  4. centos mysql 1130_Linux Mysql 1130错误解决_MySQL
  5. 新支点操作系统linux内核版本,新支点操作系统入围
  6. 《树莓派实战秘籍》——1.8 技巧08获取更多的USB端口
  7. 推广团队的推广员的技能要求
  8. 上传linux文件本地报错
  9. netty与tomcat等nio的比较(取自zhh2009在论坛里的发言)
  10. 容器技术-Docker 容器的端口发布