数据科学家编程能力需要多好

I have held the title of data scientist in two industries. I’ve interviewed for more than 30 additional data science positions. I’ve been the CTO of a data-centric startup. I’ve done many hours of data science consulting.

我曾担任过两个行业的数据科学家。 我已经面试了30多个其他数据科学职位。 我曾担任以数据为中心的初创公司的CTO。 我已经完成了许多小时的数据科学咨询。

With that background, you will hopefully realize that I’m not a data denier. I’m a firm believer in the power of statistics, machine learning, and all the tools in a data scientist’s toolbox. I know that data science is a powerhouse field filled with amazing people that are changing the world.

有这样的背景,您将有希望认识到我不是拒绝数据的人。 我坚信统计,机器学习以及数据科学家工具箱中的所有工具的强大功能。 我知道数据科学是一个强大的领域,充满着改变世界的杰出人士。

That being said, many companies don’t need a data scientist.

话虽这么说,许多公司并不需要数据科学家。

No, that wasn’t strong enough. Let me try again.

不,那还不够强大。 让我再试一遍。

The vast majority of companies that are looking for a data scientist don’t need one.

寻找数据科学家的绝大多数公司都不需要。

Of all the companies I’ve worked or interviewed with as a data scientist, I’d say 80% of them were looking for the wrong role.

在我作为数据科学家工作或采访过的所有公司中,我要说其中80%都在寻找错误的角色。

Some of them just needed a data analyst. Others needed a data engineer or a data architect. The rest didn’t have a data need at all.

其中一些只需要一个数据分析师。 其他人则需要数据工程师或数据架构师。 其余的完全没有数据需求。

您想解决什么问题? (What problem are you looking to solve?)

I always ask this question when someone is looking to hire me. Originally, I asked what they were looking to do with their data, but I’ve since realized that the answer to that latter question doesn’t matter. The focus needs to be on the problem, not the solution. Companies hire to solve problems.

当有人要雇用我时,我总是问这个问题。 最初,我问他们想如何处理他们的数据,但后来我意识到对后一个问题的答案并不重要。 重点需要放在问题上,而不是解决方案上。 公司雇用来解决问题。

Good companies don’t hire a position because it’s trendy to have around. They hire because — for every dollar that employee costs them — they are getting more than a dollar in return. It’s that simple. It’s all about ROI.

好的公司不会雇用职位,因为这很时髦。 他们之所以雇用,是因为-员工每花费1美元,他们就会获得超过1美元的回报。 就这么简单。 都是关于投资回报率的。

All companies understand that when it comes to positions like accounting and sales because they know how ROI works for accounting or sales. They know what problem needs to be solved and they know who can do it.

所有公司都了解会计和销售等职位,因为他们知道投资回报率如何用于会计或销售。 他们知道需要解决什么问题,并且知道谁可以解决。

But data confuses companies. It especially confuses older companies, but startups are not immune. We’ve all been told that there’s gold in them thar data.

但是数据使公司感到困惑。 它尤其使较老的公司感到困惑,但是初创公司并非无法幸免。 我们都被告知这些数据中有黄金。

And who doesn’t love a good gold rush?

还有谁不喜欢淘金热呢?

Just like the gold rush of old, most people don’t know where to look for the gold, many of them have fallen for fool’s gold, and no matter how much a vein has been picked clean, people keep coming back looking for scraps.

就像古老的淘金热一样,大多数人都不知道在哪里寻找黄金,其中许多人已经沦为傻瓜的黄金,而且无论清理了多少静脉,人们都不断回来寻找废料。

The underlying issue is that companies have been told their data is valuable. And it might be. But whether packaged for sale or used internally, data is a part of a solution, and every solution’s value is determined by the cost of the problem it is solving.

根本问题是,公司被告知其数据很有价值。 可能是这样。 但是,无论是打包出售还是内部使用,数据都是解决方案的一部分,每个解决方案的价值都取决于解决方案的成本。

Without a problem, a solution is just an idea. And, as I’ve mentioned in multiple previous posts, ideas are worthless.

没有问题,解决方案只是一个想法。 而且,正如我在之前的多篇文章中提到的那样,想法毫无价值。

Data rushes happen because companies have a solution — data — and they are looking for a problem to apply it to. It’s a completely backward approach. You don’t decide to use screws because you have a screwdriver handy. You decide to use a screwdriver because you need to tighten a screw.

出现数据高峰是因为公司拥有解决方案-数据-并且他们正在寻找将其应用的问题。 这是一种完全落后的方法。 由于螺丝刀很方便,因此您不决定使用螺钉。 您决定使用螺丝刀,因为您需要拧紧螺丝。

Data is a resource. So why is data not treated like any other resource?

数据是一种资源。 那么为什么数据没有像其他资源一样被对待呢?

Data is inherently different than other resources in one important way.

数据在一种重要方式上与其他资源固有地不同。

Let’s look at oil, a pretty standard resource. Unless you are The Beverly Hillbillies, you don’t just find oil lying around in your backyard. If you have thousands of tons of oil, you have it because you planned to have it for a specific purpose. And once you use it for that purpose, it’s gone.

让我们看一下石油,这是一种非常标准的资源。 除非您是The Beverly Hillbillies ,否则您不仅会发现后院周围散布着石油。 如果您有数千吨的石油,那么就拥有它是因为您计划将其用于特定目的。 一旦将其用于此目的,它就消失了。

But companies have exabytes of data. Maybe they had it for a purpose. Maybe there was a regulatory requirement for them to keep it. Maybe it was just easier to keep than to throw away.

但是公司拥有EB级的数据。 也许他们有目的。 也许他们有保留的监管要求。 也许保留起来比扔掉要容易。

Whatever the reason, they have it now, and they want to use it. They just don’t know what to use it for. And they often assume data scientists are the answer. After all, data is right there in the title, and scientists are smart.

无论出于何种原因,他们现在都拥有它,并且想要使用它。 他们只是不知道用它做什么。 他们通常认为数据科学家就是答案。 毕竟,数据就在标题中,科学家是聪明的。

科学家不是你拼写工程师的方式 (S-c-i-e-n-t-i-s-t is not how you spell engineer)

Photo by NeONBRAND on Unsplash
NeONBRAND在Unsplash上拍摄的照片

Let me give these companies the benefit of the doubt and say they actually do have problems that their data could solve. That still doesn’t necessarily make hiring a data scientist the correct next step.

让我给这些公司带来疑问的好处,并说他们确实确实存在其数据可以解决的问题。 但这并不一定使下一步聘请数据科学家成为正确的选择。

Data scientists solve puzzles. They take billions of pieces of data and turn them into a single, cohesive picture. But they can’t do that if you don’t give them all the pieces.

数据科学家解决难题。 他们获取数十亿条数据,并将它们转变为单一的,有凝聚力的图像。 但是,如果您不给他们所有的东西,他们将无法做到这一点。

If your data streams into ten different systems that don’t talk to each other, you are setting your data scientist up for failure. You need someone that can bridge those systems, bringing the data into a single place. That’s the job of a data engineer, not a data scientist. Depending on the situation, you may also need data architecture, data modeling, and database administration.

如果您的数据流到十个彼此不通信的不同系统中,那么您将使数据科学家面临失败的准备。 您需要可以桥接这些系统的人员,将数据放在一个地方。 那是数据工程师的工作,而不是数据科学家的工作。 根据情况,您可能还需要数据体系结构,数据建模和数据库管理。

If you really want to, you can find a data scientist that can handle everything from the engineering to the DB admin work. I’ve been that data scientist. But my rate was much higher than what they would have paid to just hire the correct person for the job.

如果确实需要,您可以找到一个数据科学家,可以处理从工程到数据库管理员的所有工作。 我一直是那个数据科学家。 但是我的薪水比他们仅仅雇用合适的人所付出的薪水要高得多。

Why did they overpay? Because they didn’t yet understand the current status of their data or what a data scientist actually does.

他们为什么多付钱? 因为他们还不了解数据的当前状态或数据科学家的实际行为。

Why did I take the job? Because I was too naive to know better.

我为什么要这份工作? 因为我太天真,无法更好地了解。

Everyone would have been better off if the company had hired a data engineer, waited 6–12 months, then brought on a data scientist when they were fully prepared.

如果公司聘请了一位数据工程师,等待了6到12个月,然后在他们做好充分准备的情况下请来了一位数据科学家,那么每个人都会过得更好。

准备? 有目标吗? 聘请! (Ready? Have an aim? Hire!)

Has your company identified problems that you need data science to solve?

您的公司是否已确定需要数据科学解决的问题?

Is your data in a state that a data scientist can work with?

您的数据处于数据科学家可以使用的状态吗?

If you answered both of these with a definitive ‘yes’, then you may need a data scientist. Congratulations, your company is doing things right. Pat yourselves on the back no more than three times then go do some amazing things.

如果您用肯定的“是”回答了这两个问题,那么您可能需要一位数据科学家。 恭喜,您的公司做对了。 拍拍自己的背部不超过三遍,然后去做一些令人惊奇的事情。

If you answered either question with a ‘no’ or a general look of confusion, then save your money and a data scientist’s sanity by taking down that job posting you just put up. Maybe replace it with a posting for a data engineer or data analyst. Or maybe just be happy not to have to go through the hiring process.

如果您回答“否”或普遍感到困惑,则可以通过删除刚提出的工作来节省金钱和数据科学家的理智。 也许将其替换为数据工程师或数据分析师的帖子。 或者也许只是高兴地不必经历整个招聘过程。

Not sure what you need? Talk to a data consultant before you waste your money.

不确定你需要什么? 在浪费金钱之前,请与数据顾问联系。

Like this advice? Take 0.001% of the money you just saved and buy me a drink someday.

喜欢这个建议吗? 拿走您刚存的钱的0.001%,有一天再给我喝一杯。

翻译自: https://medium.com/swlh/do-we-need-data-scientists-8d8e8062688a

数据科学家编程能力需要多好


http://www.taodudu.cc/news/show-995014.html

相关文章:

  • sql优化技巧_使用这些查询优化技巧成为SQL向导
  • 物种分布模型_减少物种分布建模中的空间自相关
  • 清洁数据ploy n_清洁屋数据
  • 基于边缘计算的实时绩效_基于绩效的营销中的三大错误
  • 上凸包和下凸包_使用凸包聚类
  • 决策树有框架吗_决策框架
  • mysql那本书适合初学者_3本书适合初学者
  • 阎焱多少身价_2020年,数据科学家的身价是多少?
  • 卡尔曼滤波滤波方程_了解卡尔曼滤波器及其方程
  • 朴素贝叶斯分类器 文本分类_构建灾难响应的文本分类器
  • Seaborn:Python
  • 销货清单数据_2020年8月数据科学阅读清单
  • 米其林餐厅 盐之花_在世界范围内探索《米其林指南》
  • spotify 数据分析_我的Spotify流历史分析
  • 纹个鸡儿天才小熊猫_给熊猫用户的5个提示
  • 图像离群值_什么是离群值?
  • 数据预处理工具_数据预处理
  • 自考数据结构和数据结构导论_我跳过大学自学数据科学
  • 在PyTorch中转换数据
  • tidb数据库_异构数据库复制到TiDB
  • 刚认识女孩说不要浪费时间_不要浪费时间寻找学习数据科学的最佳方法
  • 什么是数据仓库,何时以及为什么要考虑一个
  • 探索性数据分析入门_入门指南:R中的探索性数据分析
  • python web应用_为您的应用选择最佳的Python Web爬网库
  • 在FAANG面试中破解堆算法
  • itchat 道歉_人类的“道歉”
  • 数据科学 python_为什么需要以数据科学家的身份学习Python的7大理由
  • 动量策略 python_在Python中使用动量通道进行交易
  • 高斯模糊为什么叫高斯滤波_为什么高斯是所有发行之王?
  • 从Jupyter Notebook到脚本

数据科学家编程能力需要多好_我们不需要这么多的数据科学家相关推荐

  1. mysql 数据为空 none 网页显示空白_用python爬虫爬取股票数据

    前言: 编写一个爬虫脚本,用于爬取东方财富网的上海股票代码,并通过爬取百度股票的单个股票数据,将所有上海股票数据爬取下来并保存到本地文件中 系统环境: 64位win10系统,64位python3.6, ...

  2. wpf datagrid 数据为null时 显示背景图_[C#.NET 拾遗补漏]09:数据标注与数据校验

    数据标注(Data Annotation)是类或类成员添加上下文信息的一种方式,在 C# 通常用特性(Attribute)类来描述.它的用途主要可以分为下面这三类: 验证 Validation:向数据 ...

  3. 政务大数据服务安全能力要求分级方法

    声明 本文是学习github5.com 网站的报告而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 政务大数据服务安全能力要求分级方法 概述 本标准将大数据服务提供者的大数据服务安 ...

  4. python内容推荐理由_好书推荐~第5期 | Python 数据可视化

    今天为大家推荐python 数据可视化学习相关的书籍.本书单是笔者经过个人阅读或多个网站书籍对比(当当/亚马逊/豆瓣等)后推荐的书籍. 1.<Python数据可视化之matplotlib实践&g ...

  5. 交通流分析2:《基于公共交通大数据的上海市居民出行时空特征研究_王宇》和《面向交通拥堵预测大数据的神经网络群组快速学习_沈晴》阅读总结

    上一篇的地址:https://blog.csdn.net/qq_43012160/article/details/103313749 基于公共交通大数据的上海市居民出行时空特征研究_王宇 这篇论文内容 ...

  6. 数据分析中的统计概率_了解统计和概率:成为专家数据科学家

    数据分析中的统计概率 Data Science is a hot topic nowadays. Organizations consider data scientists to be the Cr ...

  7. 近似算法的近似率_选择最佳近似最近算法的数据科学家指南

    近似算法的近似率 by Braden Riggs and George Williams (gwilliams@gsitechnology.com) Braden Riggs和George Willi ...

  8. 外文文献下载网站;数据获取网站;中文文献下载网站;论文原创性保真网站;外包项目申请网站;大数据比赛收录网站;提高编程能力;代码分享网站

    外文文献 名称:IEEE 简介:世界上最大的技术专业组织,180多本高质量期刊 网址:https://www.ieee.org/ 名称:Sci-Hub | Effective Data Cluster ...

  9. 青少年编程python一级真题_青少年编程能力等级测评试卷二及答案 Python编程(一级)...

    青少年编程能力等级测评试卷 Python编程(一级) (考试时间90分钟,满分100分) 一.单项选择题(共20题,每题2.5分,共50分) 1. 运行下方代码段,输出是6,则输入的可能是( C ). ...

最新文章

  1. Android之在Layout中自定义View
  2. 7-二进制,十进制,十六进制
  3. StrokePlus常用脚本
  4. linux系统克隆安装教程,使用Clonezilla克隆Linux安装的方法
  5. BIOS和DOS中断例程的安装过程
  6. Linux内核如何启动并装载一个可执行程序
  7. 绿盾加密如何顺利切换成IP-Guard加密
  8. 对接网络摄像头——使用RTSP协议进行取流
  9. ESET NOD32 v11.0.154
  10. GIS技巧100例——10ArcGIS计算图斑椭球面积
  11. SVN提交失败 Can't write to file 'E:\Repositories\xqgf\db\txn-protorevs\3616-2y4.rev':
  12. vivado中fifo ipcore的empty和dout输出特征
  13. Linux查看主板型号及硬件信息
  14. 《美人天下》颠覆小公主之死 李治掌控全局_0
  15. 名帖13 邓石如 篆书《白氏草堂记》六条屏
  16. html+css 制作简单QQ登录页面
  17. 关于EL表达式获取参数的两种方法
  18. JavaScript的DOM知识点总结
  19. ClickHouse的入门、使用和优化
  20. 【信号处理】心电信号PQRST峰值检测matlab工具箱

热门文章

  1. 框架controller找不到_SpingBoot框架知识详解
  2. 网络层网络层服务及其 IP 地址
  3. Tomcat 学习笔记(0)
  4. Linux 内核网络协议栈 ------sk_buff 结构体 以及 完全解释 (2.6.16)
  5. Java通用流行框架大全,绝对干货
  6. 【嵌入式硬件Esp32】Ubuntu 1804下ESP32交叉编译环境搭建
  7. js进阶 12-5 jquery中表单事件如何使用
  8. 被未知进程占用端口的解决办法
  9. 微信企业号第三方应用开发[二]——创建应用
  10. .NET 请求、事件 处理流程