vs显示堆栈数据分析

A poor craftsman blames his tools. But if all you have is a hammer, everything looks like a nail.

一个可怜的工匠责怪他的工具。 但是,如果您只有一把锤子,那么一切看起来都像钉子。

It’s common for web developers or database adminstrators to refer to their “stack” of tools used to do the job, but I’ve never heard this moniker used for data analysts. So it got me thinking, what is the data analytics stack?

Web开发人员或数据库管理员通常会引用他们的“堆栈”工具来完成这项工作,但是我从未听说过这个用于数据分析师的绰号。 因此,我想到了什么是数据分析堆栈?

Data analysts make range of a wide variety of software, for a wide variety of tasks. When a solution comes up short, the focus ought not to be on “blaming” tools for their shortcomings, but on possessing alternatives and choosing a better one (or ones) for the given scenario.

数据分析人员可以使用各种各样的软件来完成各种各样的任务。 当解决方案出现问题时,重点不应放在针对其缺点的“责备”工具上,而在于针对给定方案拥有替代方案并选择更好的方案。

That is, it’s better to think of these tools as “slices” of the same stack to be used concurrently, rather than as misfits to be entirely discarded.

也就是说,最好将这些工具视为要同时使用的同一堆栈的“切片”,而不是被完全丢弃的不匹配项。

To imagine what the analytics stack might look like, I used the below data products Venn diagram, placing the logos of popular data analytics tools in their respective segments.

为了想象分析堆栈的外观,我使用了以下数据产品维恩图 ,将流行的数据分析工具的徽标放在各自的细分中。

Data Community DC数据社区DC

After stepping back from my marked-up Venn diagram, four categories or “slices” of the stack appeared to me. Let’s get to them below; but first, a caveat.

从我标记的维恩图退后,我看到了堆栈的四个类别或“切片”。 让我们在下面找到它们; 但首先要注意。

保持供应商不可知 (Staying vendor agnostic)

Some vendors have packaged their own “stack” of tools for data analysis; for example, Microsoft’s Power Platform or Google Data Studio. I am keeping my overview of the stack vendor-agnostic.

一些供应商已经打包了自己的“堆栈”工具来进行数据分析。 例如Microsoft的Power Platform或Google Data Studio。 我保持对堆栈供应商不可知的概述。

While you may learn that some slices fit better together, it’s better to start with the context of what category to tool to use, when, rather than what vendor. I will, however, provide a brief industry landscape of these products below, and suggestions for future learning.

虽然您可能会发现某些部分可以更好地结合在一起,但最好从使用哪种工具,何时使用的类别而不是什么供应商的上下文开始。 但是,我将在下面提供这些产品的简要行业概况,并为以后的学习提供建议。

试算表 (Spreadsheets)

Reports of the death of spreadsheets are greatly exaggerated. For their ease of use and flexibility, spreadsheets are an excellent choice for back-of-the-envelope calculations and prototyping.

电子表格死亡的报告被大大夸大了。 由于其易用性和灵活性,电子表格是进行封底计算和原型制作的绝佳选择。

However, spreadsheets do have their limitations. They can lack data integrity, storage and delivery functionalities. These limitations are often what cause pundits to give spreadsheets their last rites. But this misses the point of “the stack” entirely — those tasks aren’t the proper context for spreadsheets in the first place.

但是,电子表格确实有其局限性。 它们可能缺乏数据完整性,存储和交付功能。 这些局限性通常是导致专家给电子表格提供最新服务的原因。 但这完全错过了“堆栈”的要点-这些任务最初并不是电子表格的适当上下文。

The major spreadsheet applications are Microsoft Excel and Google Sheets. I won’t tell you outright my preference, but you may find out if you follow me on social media for long.

主要的电子表格应用程序是Microsoft Excel和Google表格。 我不会直接告诉您我的偏好,但是您可能会发现您是否在社交媒体上长期关注我。

资料库 (Databases)

Databases are a relatively ancient technology in the analytics space, but show no signs of slowing. They offer more reliable and extensible methods for data storage and integrity, but the actual analysis easily done directly inside databases is limited.

数据库是分析领域中相对较旧的技术,但没有丝毫放缓的迹象。 它们为数据存储和完整性提供了更可靠和可扩展的方法,但是直接在数据库内部轻松进行的实际分析受到限制。

Structured query language, or SQL, is the language used to interact with relational database management systems. While many SQL platforms exist, the types of read-only operations necessary for most data analysts won’t change across them.

结构化查询语言或SQL,是用于与关系数据库管理系统进行交互的语言。 尽管存在许多SQL平台,但大多数数据分析师所需的只读操作类型不会在它们之间发生变化。

For data analysts new to SQL, I suggest SQLite or Microsoft Access as lightweight tools for learning SQL.

对于不熟悉SQL的数据分析师,我建议使用SQLite或Microsoft Access作为学习SQL的轻量级工具。

商业智能和仪表板平台 (Business intelligence & dashboard platforms)

This is a broad swathe of tools and it’s likely the most ambiguous slice of the stack, but here I mean enterprise tools that allow users to gather, model and display data.

这是各种各样的工具,可能是堆栈中最模糊的部分,但是这里我指的是允许用户收集,建模和显示数据的企业工具。

Data warehousing tools like MicroStrategy and SAP BusinessObjects straddle the line here, since they are tools designed for self-service data gathering and analysis. But these often have limited visualization and iteractive report-building included.

诸如MicroStrategy和SAP BusinessObjects之类的数据仓库工具是这里的佼佼者,因为它们是设计用于自助数据收集和分析的工具。 但是,这些方法通常在可视化和有限的报表生成方面受到限制。

That’s where tools like Power BI, Tableau and Looker come in. These tools allow users to build data models, dashboards and reports with minimal coding. Importantly, they make it easy to disseminate and update information across an organization.

这就是诸如Power BI,Tableau和Looker之类的工具出现的地方。这些工具允许用户以最少的代码构建数据模型,仪表板和报告。 重要的是,它们使在整个组织中传播和更新信息变得容易。

However, these tools tend to be inflexible in the way they handle and visualize data. They can also be expensive, with single-user annual licenses running several hundred or even thousands of dollars.

但是,这些工具在处理和可视化数据方面往往缺乏灵活性。 它们也可能很昂贵,单用户年度许可证要花费数百甚至数千美元。

数据编程语言 (Data programming languages)

While many vendor tools are moving to a place where coding is not as essential to the data workflow, I still think it’s a good idea to learn programming. This helps sharpen understanding of how data processing works, and gives users fuller control of their workflow over using a graphical user interface (GUI).

尽管许多供应商工具正在迁移到编码对数据工作流不那么重要的地方,但我仍然认为学习编程是一个好主意。 这有助于加深对数据处理方式的理解,并通过图形用户界面(GUI)使用户对他们的工作流程有更全面的控制。

For data analytics, two open-source programming language are good fits: R and Python. Each include a dizzying universe of free packages made to help with everything from social media automation to geospatial analysis. Learning these tools also opens the door to advanced analytics and data science.

对于数据分析,两种开源编程语言非常适合:R和Python。 每个软件包都包含令人眼花of乱的免费软件包,可帮助您处理从社交媒体自动化到地理空间分析的所有问题。 学习这些工具还为高级分析和数据科学打开了一扇门。

However, this slice could have the steepest learning curve in the stack, and many analysts may struggle to see the benefit of learning to code, when they can do most of what they need easily enough from a GUI.

但是,这部分可能是堆栈中最陡峭的学习曲线,并且当他们可以从GUI轻松地完成大部分所需工作时,许多分析师可能很难看到学习编码的好处。

不分好坏,只是有所不同 (Not better or worse, just different)

Seen in the light of a “stack,” it makes little sense to compare any of these slices, or claim one as inferior than the other. They are meant to be complementary.

从“堆栈”的角度来看,比较这些切片中的任何切片,或声称其中一个切片的质量低于另一个切片,都没有什么意义。 它们是互补的。

Data analysts often wonder which tool they should focus on learning or becoming the expert in. I would suggest not becoming the expert in any single one, but in learning each slice of the stack well enough to contextualize and choose between them.

数据分析人员经常想知道应该专注于学习或成为专家的工具。我建议不要成为任何一个专家,而是要充分学习堆栈的每个部分以进行上下文关联并在它们之间进行选择。

进入堆栈 (Entering the stack)

Learning one data tool is daunting. Learning a whole “stack” of them can seem impossible. However, this cross-training can expedite growth, as connections are made across platforms in how to use data effectively.

学习一种数据工具令人生畏。 学习整个“堆栈”似乎是不可能的。 但是,由于跨平台建立了如何有效使用数据的联系,因此这种交叉训练可以加快增长。

What data tools do you use? How do you fit together? Other thoughts on the idea of an “analytics stack?” Let’s discuss in the comments.

您使用什么数据工具? 你们如何在一起? 关于“分析堆栈”的其他想法? 让我们在评论中进行讨论。

Originally published at https://georgejmount.com on August 8, 2020.

最初于 2020年8月8日 发布在 https://georgejmount.com 上。

翻译自: https://medium.com/@georgemount/what-is-the-data-analytics-stack-7c87e4d4c2e

vs显示堆栈数据分析


http://www.taodudu.cc/news/show-994931.html

相关文章:

  • 广告投手_测量投手隐藏自己的音高的程度
  • python bokeh_提升视觉效果:使用Python和Bokeh制作交互式地图
  • nosql_探索NoSQL系列
  • python中api_通过Python中的API查找相关的工作技能
  • 欺诈行为识别_使用R(编程)识别欺诈性的招聘广告
  • nlp gpt论文_GPT-3:NLP镇的最新动态
  • 基于plotly数据可视化_[Plotly + Datashader]可视化大型地理空间数据集
  • 划痕实验 迁移面积自动统计_从Jupyter迁移到合作实验室
  • 数据开放 数据集_除开放式清洗之外:叙述是开放数据门户的未来吗?
  • 它们是什么以及为什么我们不需要它们
  • 机器学习 啤酒数据集_啤酒数据集上的神经网络
  • nasa数据库cm1数据集_获取下一个地理项目的NASA数据
  • r语言处理数据集编码_在强调编码语言或工具之前,请学习这3个基本数据概念
  • 数据迁移测试_自动化数据迁移测试
  • 使用TensorFlow概率预测航空乘客人数
  • 程序员 sql面试_非程序员SQL使用指南
  • r a/b 测试_R中的A / B测试
  • 工作10年厌倦写代码_厌倦了数据质量讨论?
  • 最佳子集aic选择_AutoML的起源:最佳子集选择
  • 管道过滤模式 大数据_大数据管道配方
  • 用户体验可视化指南pdf_R中增强可视化的初学者指南
  • sql横着连接起来sql_SQL联接的简要介绍(到目前为止)
  • 如何击败Python的问题
  • 数据冒险控制冒险_劳动生产率和其他冒险
  • knn 邻居数量k的选取_选择K个最近的邻居
  • 什么样的代码是好代码_什么是好代码?
  • 在Python中使用Twitter Rest API批量搜索和下载推文
  • 大数据 vr csdn_VR中的数据可视化如何革命化科学
  • 导入数据库怎么导入_导入必要的库
  • 更便捷的画决策分支图的工具_做出更好决策的3个要素

vs显示堆栈数据分析_什么是“数据分析堆栈”?相关推荐

  1. teablue数据分析_基于大数据分析的茶叶质量评估

    引言 茶叶是茶加工企业生存和发展的基本保障,是 茶产品能够顺利发展的重要资源.茶叶的质量和产 量,通常会遭受各种大气条件以及生态条件和生产 措施的影响.为了保证茶叶质量,需要监测茶叶生 产的整个周期. ...

  2. python 堆栈溢出_内存 - 如何发生“堆栈溢出”,如何防止它?

    堆 在此上下文中,堆栈是在程序运行时放置数据的最后进先出缓冲区. 最后一次出来(LIFO)意味着你输入的最后一件事总是你要退回的第一件事 - 如果你在堆叠上推2个项目,'A'然后'B',那么你首先要弹 ...

  3. Python数据分析_电商数据分析报告

    #导入第三方库 import numpy as np import pandas as pd import matplotlib.pyplot as plt import datetime impor ...

  4. python医药数据分析_药品销售数据分析--python

    一.数据分析的目的 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程. 本篇文章中,假设以朝阳医院2018年销售数据为例,目的是了 ...

  5. 贝叶斯数据分析_周末说说数据分析(2)

    这是一份关于<深入浅出数据分析>的读书笔记.比较枯燥,不过我尽量说得简单,感兴趣就看看. 上个周我们聊到了这本书讲到的一到三章,第一章呢是讲数据分析的一些理念,聊到数据分析开始前要了解数据 ...

  6. python药店销售数据分析_药店经营数据分析案例

    关于 XX 药店 09 年 1~7 月经营数据简析 雪域飞花 受 XX 药店委托, 我们对企业 09 年 1`7 月的经营数据通过瑞商源数据分析系统进行了计 算分析,现将分析结果列示如下: 一.销售数 ...

  7. cmd mysql 数据分析_小白学数据分析--与MySQL有关的小知识

    放在这个专题下,是因为有时候我们数据分析师的确是懂得一点数据库的操作知识或者会一些SQL,平时我用的比较多的就是MySQL,如果说我们一般就是要学一些SQL操作的话,可能就足以应付平时的工作,至于对象 ...

  8. python体测成绩数据分析_【Python数据分析】四级成绩分布 -matplotlib,xlrd 应用

    最近获得了一些四级成绩数据,大概500多个,于是突发奇想是否能够看看这些成绩数据是否满足所谓的正态分布呢?说干就干,于是有了这篇文章. 文章顺带介绍了xlrd模块的一些用法和matplotlib画自定 ...

  9. java 异常堆栈输出_打印Java异常堆栈信息

    背景 在开发Java应用程序的时候,遇到程序抛异常,我们通常会把抛异常时的运行时环境保存下来(写到日志文件或者在控制台中打印出来).这样方便后续定位问题. 需要记录的运行时环境包含两部分内容:抛异常时 ...

最新文章

  1. YML(2)yml 语法
  2. 未能加载指定的模块“\Neo4j-Management.psd1
  3. c++语言常量,Go语言常量和const关键字
  4. 上海广电电气集团选用Ultimus 提升企业管理
  5. AtCoder Regular Contest 065
  6. 文件上传 java 完美,vue+java实现文件上传(excel等),会出现跨域问题,直接用form表单提交就不会有问题了(new FormData())...
  7. Flow vs Jenkins 实操对比,如何将Java应用快速发布至ECS
  8. java string su_JAVA基础--常用类String
  9. Facebook发布张量理解库,自动编译高性能机器学习核心
  10. 算法 Tricks(四)—— 判断序列中的字符/数值是否交替出现
  11. 29.3 用户模式构造
  12. Unix/Linux笔记全集
  13. 【浅墨著作】《逐梦旅程:Windows游戏编程之从零开始》勘误配套源代码下载
  14. RubyInstallers无法下载或下载缓慢的问题
  15. linux通过编辑文档来网络互通,No.277 记录一下:隔离网络环境下,使用WPS 2019 for Linux无痕编辑Office文档(2019-08-04)...
  16. 时域采样与频域采样实验【matlab】
  17. JS里给日期增加n个月的方法
  18. 如何快速获取股票行情接口api的实时行情数据?
  19. 山东理工大学ACM平台题答案关于C语言 1228 两数组最短距离
  20. 巧用Scrum与Kanban

热门文章

  1. 操作系统【八】文件管理
  2. C++继承详解三 ----菱形继承、虚继承
  3. 数据链路层: HDLC
  4. Java面试题目,java关键字final
  5. 安装 ZendServer-CE 可能遇到的问题
  6. sql 按时间二段排序
  7. mac 下终端 操作svn命令 以及出现证书错误的处理方法
  8. unity3d学习笔记(一)-在一个GameObject上进行多个AudioSource的控制
  9. 关于nunit调试VS2010中的4.0程序集的问题
  10. asp.net控件开发基础(2)