数仓全景图镇楼

00

建设过程

数仓建模的过程分为业务建模、领域建模、逻辑建模和物理建模,但是这  些步骤比较抽象。为了便于落地,我根据自己的经验,总结出上面的七个步骤:梳理业务流程、垂直切分、指标体系梳理、实体关系调研、维度梳理、数仓分层以及物理模型建立。每个步骤不说理论,直接放工具、模板和案例。

01

业务流程

1

找到公司核心业务流程,找到谁,在什么环节,做什么关键动作,得到什么结果。

2

梳理每个业务节点的客户及关注重点,找到数据在哪。

02

分域/主题

3

决定数仓的建设方式,快速交活,就用自下而上的建设。要全面支撑,就顶层规划,分步实施,交活稍微慢点。

4

同时按照业务领域划分主题域。主题域的划分方法有:按业务流划分(推荐)、按需求分、按职责分、按产品功能分等。

03

指标体系

5

指标的意义在于统一语言,统一口径。所以指标的定义必须有严格的标准。否则如无根之水。

指标可分为原子指标、派生指标和衍生指标,其含义及命名规则举例如下:

6

依照指标体系建设标准,开始梳理指标体系。整个体系同样要以业务为核心进行梳理。同时梳理每个业务过程所需的维度。维度就是你观察这个业务的角度,指标就是衡量这个业务结果 好坏的量化结果。

请注意,此时不能被现有数据局限。如果分析出这个业务过程应该有这个指标,但是没有数据,请标注出来,提出收集数据的需求。

04

实体关系

7

每个业务动作都会有数据产生。我们将能够获取到的数据,提取实体,绘制ER图,便于之后的维度建模。

8

同样以业务过程为起点向下梳理,此时的核心是业务表。把每张表中涉及的维度、指标都整理出来。

05

维度整理

9

维度标准化是将各个业务系统中相同的维度进行统一的过程。其字段名称、代码、名字都可能不一样,我们需要完全掌握,并标准化。

维度的标准尽可能参照国家标准、行业标准。例如地区可以参照国家行政区域代码。

另外,有些维度存在层级,如区域的省、市、县。绝大多数业务系统中的级联就是多层级维度。

06

数仓分层

10

数据仓库一般分为4层,名字可能会不一样,但是其目的和建设方法基本一致:

每一层采用的建模方法都不一样,其核心是逐层解耦。越到底层,越接近业务发生的记录,越到上层,越接近业务目标。

11

依托数仓分层的设计理论,根据实际业务场景,我们就可以梳理出整体的数据流向图。这张图会很清晰的告诉所有人,数据从那来,到哪里去,最终提供什么样的服务。

07

模型建立

12

此时才真正进入纯代码阶段。数仓、ETL工具选型;ETL流程开发;cube的建立;任务调度,设定更新方式、更新频率;每日查看日志、监控etl执行情况等等。

前面梳理清楚了,ETL会变的非常清晰

湖仓一体:从零开始搭建数据仓库相关推荐

  1. 数据仓库如何实现湖仓一体数据分析?

    简介:随着云计算的普及和数据分析需求的扩大,数据湖+数据仓库的湖仓一体分析能力成为下一代数据分析系统的核心能力.相对于数据仓库,数据湖在成本.灵活性.多源数据分析等多方面,都有着非常明显的优势.IDC ...

  2. 如何通过数据仓库实现湖仓一体数据分析?

    // 一.背景 随着云计算的普及和数据分析需求的扩大,数据湖+数据仓库的湖仓一体分析能力成为下一代数据分析系统的核心能力.相对于数据仓库,数据湖在成本.灵活性.多源数据分析等多方面,都有着非常明显的优 ...

  3. 专访丨HashData创始人简丽荣:云原生与大数据时代,湖仓一体代表了未来

    12月23-24日,2021数据技术嘉年华(DTC)将在北京丽都皇冠假日酒店盛大开启.围绕"智能·创新·新生态--数据智领未来 生态共创价值"这一主题,来自数据领域的领军人物.学术 ...

  4. 湖仓一体(Lakehouse)是什么?

    前言 本文隶属于专栏<大数据理论体系>,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见大数据理论体系 WHAT 湖仓一体(Lake ...

  5. 数智学习|湖仓一体实践与探索

    栏目语 数澜科技开设栏目「技术派+」,聚焦前沿技术,洞悉行业风向,分享来自一线的研发经验与应用实践. 本期专栏由数澜科技研发中心副总经理白松带来,分享湖仓一体实践与探索. 导语 随着社会数字化进程不断 ...

  6. 如何基于MaxCompute快速打通数据仓库和数据湖的湖仓一体实践

    简介: MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速.全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户 ...

  7. 数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

    作者 |关涛.李睿博.孙莉莉.张良模.贾扬清(from 阿里云智能计算平台) 黄波.金玉梅.于茜.刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据 ...

  8. 湖仓一体:数据湖vs数据仓库之争?

    本文介绍数据仓库和数据湖的区别是什么,作者对其来龙去脉进行深入剖析,来阐述两者融合演进的新方向--湖仓一体. 导读:随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断.有人说 ...

  9. 万字详解数据仓库、数据湖、数据中台和湖仓一体

    本文目录: 一.前言 二.概念解析 数据仓库 数据湖 数据中台 三.具体区别 数据仓库 VS 数据湖 数据仓库 VS 数据中台 总结 四.湖仓一体 目前数据存储方案 Data Lakehouse(湖仓 ...

  10. 知乎热议:数据仓库、数据湖、湖仓一体,究竟有什么区别?

    来源:知乎    作者:十叶心 全文共 14108个字,建议阅读 20分钟 一.基本概念 1.1数仓发展历史 数据湖是以集中方式存储各种类型数据,提供弹性的 容量和吞吐能力,能够覆盖广泛的数据源,支持 ...

最新文章

  1. Redux 的黑魔法
  2. windows系统numpy的下载与安装教程
  3. centos平台cms系统
  4. RestTemplate技术预研-认识RestTemplate
  5. poj 3040 Allowance (贪心
  6. 软件工程作业团队作业No.5
  7. 什么是SPA,如何实现SPA应用呢?
  8. java识别音高_如何找出音乐的音高
  9. 计算机一级登录密码忘了怎么办,电脑密码忘了怎么办
  10. 阿里云服务器怎么开发票?
  11. kubernetes国内镜像代理
  12. 自学编程系列——4 Numpy数组
  13. 写题记录 cf G. Minimal Coverage 难度2200
  14. 《edge computing:vision and challenge》论文阅读
  15. CSP2021提高组游记
  16. 使用WASD键移动对象
  17. 阿里云国际版设置DNS托管和智能分流教程详解
  18. Docker下Prometheus和Grafana三部曲之三:自定义监控项开发和配置
  19. rnnlm源码分析(四)
  20. win10鼎信诺为什么安装不了_2016年鼎信诺常见问题处理

热门文章

  1. Mac系统下MySQLWorkbench出现no connection established问题
  2. 微信公告号 图灵机器人实现智能回复
  3. 测试工程师多年面试问题整理
  4. DIY树莓派Raspberry Pi
  5. ffmpeg学习——音频源
  6. 华硕天选系统原厂预装系统正版系统带全驱动天选1.天选2.天选3.天选air
  7. Invalid bound statement (not found): com.exam.mapper.UserMapper.findbyid
  8. unity网络资源导入
  9. 怎么把PDF翻译成中文
  10. 《IT学生解惑手册》电子版免费下载!