数据科学家数据分析师

According to a recent survey conducted by Dimensional Research, only 50 percent of data analysts’ time is actually spent analyzing data. What’s the other half spent on? Data cleanup — that tedious and repetitive work that must be done before you can dig into the fancy data science stuff. I’m talking about deduplication, fuzzy matching, replacing invalid characters — basically, all the data wrangling and munging you need to do to make the data easier to understand and work with.

根据Dimensional Research最近进行的一项调查,实际上只有50%的数据分析师时间用于分析数据。 另一半花在什么上面? 数据清理-必须先完成乏味且重复的工作,然后才能深入研究花哨的数据科学资料。 我说的是重复数据删除,模糊匹配,替换无效字符-基本上,您需要对所有数据进行整理和整理以使数据更易于理解和使用。

Typically, data manipulation is accomplished one of two ways, each of which has pros and cons. The first method relies primarily on SQL, which is great for doing the joins, unions, and deduplications that are the bread and butter of data cleanup. For those specific actions that SQL is unable to perform, for example extracting word counts from unstructured text, you simply embed user-defined functions (UDFs) written in a general-purpose programming language, usually Python.

通常,数据操作是通过以下两种方式之一完成的,每种方式都有其优缺点。 第一种方法主要依赖于SQL,这非常适合执行联接,联合和重复数据删除,而重复数据删除是数据清理的基础。 对于SQL无法执行的那些特定操作,例如从非结构化文本中提取单词计数,您只需嵌入用通用编程语言(通常是Python)编写的用户定义函数(UDF)。

The second approach uses a general-purpose programming language, such as Python or Scala, as the “point of entry” for working with data. Operations that you would do in SQL, like joins, are provided by a data frame library like Pandas. Many data scientists naturally gravitate to this approach because they have more experience with Python or Scala, and they view SQL as a lesser tool primarily for business analysts. However, they are missing out on some big benefits of the SQL-first approach:

第二种方法使用通用编程语言(例如Python或Scala)作为处理数据的“入口点”。 您将在SQL中执行的操作(例如联接)由数据框架库(例如Pandas)提供。 许多数据科学家自然倾向于使用这种方法,因为他们在Python或Scala方面拥有更多经验,并且他们将SQL视为主要用于业务分析人员的较少工具。 但是,它们没有充分利用SQL优先方法的一些优点:

  • The most common data-cleanup operations produce simpler code in SQL. Simpler code makes it easier for others to understand and harder for you to make mistakes;
    最常见的数据清理操作会在SQL中产生更简单的代码。 更简单的代码使其他人更容易理解,并且更容易出错。
  • SQL is ubiquitous among data analysts, so it’s easier to share code with analysts;
    SQL在数据分析人员中无处不在,因此与分析人员共享代码更加容易。
  • It’s easier to hire for SQL expertise than Python or Scala.
    雇用SQL专家比使用Python或Scala容易。

These benefits I just described are “human-focused,” but there is also a very important infrastructure benefit as well. Massively Parallel Processing (MPP) systems, like Snowflake and BigQuery, will automatically distribute your code across an arbitrarily large compute cluster if you write it in SQL.

我刚刚描述的这些好处是“以人为本”的,但是,还有一个非常重要的基础架构好处。 大规模并行处理(MPP)系统(例如Snowflake和BigQuery),如果您使用SQL编写代码,则会自动将代码分布在任意大型的计算集群中。

On the other hand, if you use Python or Scala dataframes as your primary programming model, you will often need to specify data distributions and other details of how the system spreads your computation across nodes. The resulting execution plan is usually less efficient than what a SQL-based system would have produced, thanks to write barriers as well as extra serialization and deserialization steps. This last point is increasingly important when you’re working with larger data sets. That’s not to say it’s impossible to distribute your workload effectively when using a dataframe-based system, but you’ll be doing infrastructure work that doesn’t add value instead of spending your time getting insights from data.

另一方面,如果您将Python或Scala数据框用作主要的编程模型,则通常需要指定数据分布以及系统如何在节点之间分布计算的其他详细信息。 由于写障碍以及额外的序列化和反序列化步骤,最终的执行计划通常效率不如基于SQL的系统。 当您使用较大的数据集时,这最后一点变得越来越重要。 这并不是说在使用基于数据帧的系统时不可能有效地分配工作负载,但是您将进行的基础架构工作不会增加价值,而不是花费时间从数据中获取洞察力。

Lastly and most importantly, by making SQL your foundation, you can avoid creating two competing camps within your organization, data scientists versus analysts. With everyone in alignment about how data manipulation is accomplished, your team can focus on the deep data analysis that’s increasingly important in business today.

最后也是最重要的一点是,通过使SQL成为基础,您可以避免在组织内创建两个竞争阵营,即数据科学家与分析师。 使每个人都对如何完成数据操作保持一致,您的团队可以专注于深度数据分析,该分析在当今业务中变得越来越重要。

翻译自: https://towardsdatascience.com/aligning-your-analysts-and-data-scientists-around-data-manipulation-fefe80d46c51

数据科学家数据分析师

http://www.taodudu.cc/news/show-994785.html

相关文章:

  • python db2查询_如何将DB2查询转换为python脚本
  • 爱因斯坦提出的逻辑性问题_提出正确问题的重要性
  • 餐厅数据分析报告_如何使用数据科学选择理想的餐厅设计场所
  • 熊猫直播 使用什么sdk_没什么可花的-但是16项基本操作才能让您开始使用熊猫
  • 关系型数据库的核心单元是_核中的数据关系
  • 小程序 国际化_在国际化您的应用程序时忘记的一件事
  • robo 3t连接_使用robo 3t studio 3t连接到地图集
  • 软件需求规格说明书通用模版_通用需求挑战和机遇
  • 一类动词二类动词三类动词_基于http动词的完全无效授权技术
  • 一年了
  • 将DataSet中的操作更新到Access数据库
  • 我喜欢的一首歌--《幸福的瞬间》
  • XForum 里用 Filter 编程实现安全访问控制
  • chedandekaoyan
  • Microsoft好员工的十个标准
  • GARFIELD@11-20-2004
  • SPS用户管理的问题
  • 最近关注的一些东西
  • 吉他谱——单身情歌
  • 新增两款Skin(clover与Valentine)
  • 同一页面引入多个JS文件的编码问题
  • 中小企业的软件需求问题
  • 读《.NET本质论》样章有感
  • 域名与国家对应表
  • 介绍一种Web上打印技术
  • 分类法过时了吗?【ZZ】
  • 【转贴】想应聘的瞧仔细了:HW分析大全
  • 18 个经典故事
  • SAP的软件设置
  • 介绍我的一位同事的开源RSS阅读器

数据科学家数据分析师_使您的分析师和数据科学家在数据处理方面保持一致相关推荐

  1. 数据科学家数据分析师_站出来! 分析人员,数据科学家和其他所有人的领导和沟通技巧...

    数据科学家数据分析师 这一切如何发生? (How did this All Happen?) As I reflect on my life over the past few years, even ...

  2. 对数据可视化的理解_使数据可视化更容易理解

    对数据可视化的理解 Data is weaving its way into almost all aspects of our lives since the past decade. Our ab ...

  3. 数据分析师 需求分析师_是什么让分析师出色?

    数据分析师 需求分析师 重点 (Top highlight) Before we dissect the nature of analytical excellence, let's start wi ...

  4. 光滑噪声数据常用的方法_整理一份详细的数据预处理方法

    重磅干货,第一时间送达 作者:lswbjtuhttps://zhuanlan.zhihu.com/p/51131210 为什么数据处理很重要? 熟悉数据挖掘和机器学习的小伙伴们都知道,数据处理相关的工 ...

  5. 数据透视表 筛选_筛选器选择中的数据透视图标题

    数据透视表 筛选 Instead of adding a static title to your Pivot Chart, use a worksheet formula to create a d ...

  6. 大数据好还是不好_学python好还是大数据好?想学IT,但有点搞不清方向的人可以看看...

    这是我在某平台上看到的一个问题,学IT的话,是学python好还是学大数据好? 首先这个问题不太对,因为大数据和python,从根源上来说是两码事,就像你问我,是学做湘菜好,还是学做打铁好. 所以,学 ...

  7. python大数据运维工程师_运维工程师转型大数据怎么样

    运维工作没意思,运维没有前途,运维会被取代--让很多的运维工程师感受到前途无"亮",随着资本寒冬的来临,以及各种新技术的不断出现,很多运维工程师开始走向了转型的道路.那么在如今的数 ...

  8. 相当一名科学家的规划_如何成为一名自由数据科学家

    相当一名科学家的规划 by Carl Dawson 通过卡尔道森 如何成为一名自由数据科学家 (How to become a freelance Data Scientist) 作为一名数据科学自由 ...

  9. 数据库数据过长避免_为什么要避免使用商业数据科学平台

    数据库数据过长避免 让我们从一个类比开始 (Let's start with an analogy) Stick with me, I promise it's relevant. 坚持下去,我保证这 ...

最新文章

  1. 【go】sdk + idea-plugin 开发工具安装
  2. 防用户误删除,耗费一周时间把DeleteMark标志都加上来了,所有的删除操作从“物理删除”转为“逻辑删除”...
  3. 地址栏 输入 参数 刷新参数丢失_小米11 Pro屏幕参数曝光:2K屏幕+120Hz刷新率
  4. 水溶彩铅的特点技法运用
  5. Google专卖店顾客消费预测问题:如何将数据的json格式转换成csv格式
  6. java基础app开发教程_安卓app开发基础入门
  7. WordPress自动采集发布文章02-软件批量伪原创
  8. 计算机基础知识表格斜线,怎么在excel中画斜线-制作好看的Excel表格必备技能:3秒制作斜线表头,简单到没朋友...
  9. 可视化数据分析图表设计必学技巧
  10. mac php pear pecl,mac 安装 pecl pear
  11. profix使用过程中遇到的一些问题
  12. 范数(简单的理解)、范数的用途、什么是范数
  13. Android程序员面试必备的知识点,Android程序员
  14. Js中前台调后台接口无法调转的问题
  15. 要嫁就嫁个37度男人
  16. java 金额千位用逗号隔开_金额格式化 处理千分位 金额逗号,隔开
  17. 图论 北师大 张秀平 自学 视频 NOIP
  18. height、min-height、max-height中听谁的?
  19. PTA菜鸡刷题日记(6-10)
  20. ETL开发工程师|上海

热门文章

  1. Java进阶之光!javaunicode码转字符
  2. 阿里P8亲自教你!Activity的6大难点,你会几个?年薪50W
  3. 细数Android开发者的艰辛历程,全网最新
  4. AE 新建项目(一)(持续更新,做到哪算哪)
  5. scrapy框架的理解
  6. docker下用keepalived+Haproxy实现高可用负载均衡集群
  7. gitlab中的CI
  8. 【Python】 子进程创建与使用subprocess
  9. Go语言实现HashSet
  10. web开发中的 emmet 效率提升工具