数据分析(DA)和数据开发/数据仓库工程师(DE)究竟有什么区别,工作职责和工作内容上的差异是什么?

一般都知道,数开偏开发,主要是技术层面的工作,负责ETL、数仓、分布式计算、大数据运维等。数分偏业务,通过分析数据、建模、搭建指标体系,找出规律,给业务赋能。

数开通常负责一个业务整个数据体系的构建,也就是传说中的“数据仓库”。这个仓库中既有最底层的明细数据表,也有一层一层做过计算和组合的聚合数据表。

数据分析师在日常工作中,经常会使用各种聚合表做一些简单的可视化或更复杂的分析,来监控业务的核心指标或者获取一些结论来支持决策。而这些日常被使用的数据表其实都是由数仓工程师建设好的,它们是非常规整的行列数据,在相应的可视化工具中,使用者只需要通过简单的拖、拉、拽就可以实现快速地分析。

但这些被使用的数据表就像海平面露出的冰山一角一样,分析师通常情况下只需要关注海面之上的部分,在海平面之下是冰山的基础,就是我们所说的数仓体系,这一部分由数据开发同学帮忙构建并维护。

这个时候有同学会问,为什么需要这么一套数仓体系呢,我直接拿最底层的明细数据难道算不出我想要的指标吗?理论上来说,是可以的。但实际上,这不是最优解。且不说现在每天几百亿的数据你自己跑个sql能拖垮公司的数据资源,很多情况下明细数据中很多信息你是不需要的,在实际工作中,我们只获取自己关注的数据即可,不需要每一次都拿最明细的数据,这样分析效率极低。

就拿短视频app的数据分析举例,如果你想监控每天用户的点赞行为,从最底层的数据表中,获取到全部的“某人在某个时间对某个视频做了某个动作”这样的记录肯定可以实现你的目的,但是更合理的做法是:

(1)数据开发工程师会先从底层数据(底层数据通常是由服务器记录的非结构性数据)同步出一个最明细表,包括谁在什么时间对哪个视频以何种方式进行了点赞

(2)再进一步直接聚合出一张新的表,记录谁在哪一天点赞了多少次

(3)最后抽象出一张指标表,某一天总共有多少点赞次数

到这里,把最后一张表交付给数据分析师,分析师去做后续的分析。你发现没有,这个时候你已经不需要自己算什么了,直接可视化走起,一张每日点赞数监控就出来了。

当然实际工作中肯定没有这么简单,如果只是做每日点赞数的可视化,那其实完全不需要数据分析师,数仓同学做完这些表自己也能操作可视化软件画图并直接交付,没必要中间过一道分析师。

所以实际上,分析师和数仓的合作模式是,分析师会根据自己指标监控或者专题分析的需求,构思自己需要的数据或指标,这些数据或指标肯定不只是简单的点赞数,可能会是不同画像的用户对不同类型视频的点赞行为,这种行为可能反映出不同种类的用户对不同种类视频的偏好;

随后,分析师将自己想要获取的数据或指标提需求给数仓同学,数仓同学负责后续的数据收集、整理、清洗、聚合这一整个过程。很多情况下,在拥有非常完整的数据仓库后,分析师想要的数据基本上由数仓同学从仓库中随时抽取、组合在一起,就能快速支持相应的分析。因此这样看下来,数据分析师和数据仓库工程师非常像是相爱相杀的产品经理和研发。前者负责提需求,后者负责承接需求并送上一个白眼 ️。

总结下:
数据开发(包括数仓开发)建立采集、存储、计算、应用的系统,根据数据分析师的需求为业务构建一套完整的数据支撑体系。需要各类大数据组件的开发、调优,ETL脚本的编写、数仓搭建的知识。
而数据分析更注重对数据的使用,依据数据开发构建的数据集市,结合实际业务,获取一些可落地的结论。需要数理统计和业务方面的知识。

二者一起合力成为一个业务的驱动轮——数据驱动。

数据分析和数据开发的区别相关推荐

  1. 浅谈数据分析、大数据分析和大数据开发的区别

    自我介绍 在大学期间主要学习一些数据分析的课程例如,统计学,多元统计学,数据挖掘,matalb,R语言统计分析,时间序列分析,也参加了几次数学建模竞赛.对数据分析也有些了解. 实习时进了一家大数据公司 ...

  2. 【面试经】数据分析 or 数据开发面试必备思路,面试官都会这样问。

    欢迎来到" 久也 "的空间 希望能让 数据 相关工作的同学遇到困难找到答案 没有请找我!!! 目录 前言: 什么是链路"链路"? 首先以项目为维度的话,链路如下 ...

  3. php 内容采集_php开发工程师和大数据开发工程师有什么区别

    通过岗位职责.工作内容,告诉你php开发工程师和大数据开发工程师的区别?还为你对比php开发工程师和大数据开发工程师的学历要求.经验要求.工资待遇,为你揭晓php开发工程师和大数据开发工程师哪个好? ...

  4. 大数据项目开发hadoop集群搭建 python爬取前程无忧招聘网信息以及进行数据分析和数据可视化

    大数据项目开发实训报告 一.Hadoop环境搭建 1: jdk的安装 1):在linux系统下的opt目录下创建software 和 module 两个目录 2):利用filezilla工具将 jdk ...

  5. 数据的“敏捷制造”,DataWorks一站式数据开发治理范式演进

    简介: 企业大数据技术发展至今,历经了两次蜕变.第一次蜕变从最初的"小作坊"解决大数据问题,到后来企业用各类大数据技术搭建起属于自己的"大平台",通过平台化的能 ...

  6. 大数据架构、大数据开发与数据分析的区别

    大数据架构.大数据开发与数据分析的区别 大数据产业 顾名思义大数据是一个以数据为核心的产业.大数据产业生成流程从数据的生命周期的传导和演变上可分为这几个部分:数据收集.数据储存.数据建模.数据分析.数 ...

  7. 大数据数据收集数据困难_大数据架构、大数据开发与数据分析的区别

    是新朋友吗?记得先点蓝字关注我哦- 今日课程菜单 Java全栈开发 | Web前端+H5 大数据开发 | 数据分析  人工智能+Python | 人工智能+物联网 来源:小职(z_zhizuobiao ...

  8. 大数据开发和数据分析的区别

    大数据行业能细分为大数据开发.大数据分析.大数据架构师等等领域,每个领域都有自己不同的工作目的,今天小千就来给大家介绍一下大数据开发和大数据分析岗位的相同不同点,介绍完之后你再考虑哪一个适合你就去培训 ...

  9. 大数据开发和大数据分析的区别?

    大数据分析工程师和大数据开发工程师分别能做什么? 有没有具体的项目案例之类 通俗解释开发和分析 非要把他俩分开的话,一个是偏向于数据,一个偏向于工程.好比要炒个菜,工程师是烧火.垫勺的那个,偏向于工具 ...

  10. 大数据分析和大数据开发哪个好就业啊?

    在看着两个哪个好就业之前,我们先来关注一下分别都是做什么的,以及所需要具备的技能~ 大数据开发做什么? 大数据开发分两类,编写Hadoop.Spark的应用程序和对大数据处理系统本身进行开发.大数据开 ...

最新文章

  1. 那些年用过的Redis集群架构(含面试解析)
  2. 【財務会計】固定資産の除却と廃棄の違い
  3. SAP生产订单预留(上)
  4. 前端学习(1284):node开发概述
  5. python特征递归消除
  6. qr分解求线性方程组_计算方法/数值分析第三章 线性方程组的数值解法
  7. 20-100-040-安装-Centos 7.5 安装MYSQL
  8. 基于51单片机的时钟系统
  9. Oracle RAC的Failover
  10. 第三章:数组[4Arrays]
  11. openmeetings2.0安装和开发
  12. 用户事件的存储与分析
  13. 全国计算机等级考试一级试题免费,全国计算机等级考试一级试题
  14. web前端开发规范,前端架构从入门到微前端百度网盘
  15. COMSOL电磁仿真案例——感应线圈
  16. js生成execl表格
  17. Spark调优之推测执行
  18. 5类人最适合做程序员,你属于哪一类?
  19. 孩子越出息,父母越孤独
  20. Springboot 中文文档 —— Actuator

热门文章

  1. 软件工程课程实践-可行性研究报告
  2. FastReport浏览器直接打印无须预览(2023终版)
  3. dbeaver连接Oracle数据库
  4. 计算机基础命令系统,Win7定时开关命令_计算机基础知识_IT /计算机_信息
  5. VC6-VC2008转移到VC2015问题记录
  6. java虚拟机安装_java虚拟机官方下载|Java Virtual Machine(java虚拟机)下载v5.0官方版 附安装教程 - 欧普软件下载...
  7. Java entity 映射 Json大写字段方法
  8. 安装vs遇到 不受信任的证书或者 时间戳签名和/或证书无法验证或已损坏 解决方案
  9. R语言安装~R,Rstudio
  10. 好用的局域网文件共享工具