湖仓一体:从零开始搭建数据仓库
数仓全景图镇楼
00
建设过程
数仓建模的过程分为业务建模、领域建模、逻辑建模和物理建模,但是这 些步骤比较抽象。为了便于落地,我根据自己的经验,总结出上面的七个步骤:梳理业务流程、垂直切分、指标体系梳理、实体关系调研、维度梳理、数仓分层以及物理模型建立。每个步骤不说理论,直接放工具、模板和案例。
01
业务流程
1
找到公司核心业务流程,找到谁,在什么环节,做什么关键动作,得到什么结果。
2
梳理每个业务节点的客户及关注重点,找到数据在哪。
02
分域/主题
3
决定数仓的建设方式,快速交活,就用自下而上的建设。要全面支撑,就顶层规划,分步实施,交活稍微慢点。
4
同时按照业务领域划分主题域。主题域的划分方法有:按业务流划分(推荐)、按需求分、按职责分、按产品功能分等。
03
指标体系
5
指标的意义在于统一语言,统一口径。所以指标的定义必须有严格的标准。否则如无根之水。
指标可分为原子指标、派生指标和衍生指标,其含义及命名规则举例如下:
6
依照指标体系建设标准,开始梳理指标体系。整个体系同样要以业务为核心进行梳理。同时梳理每个业务过程所需的维度。维度就是你观察这个业务的角度,指标就是衡量这个业务结果 好坏的量化结果。
请注意,此时不能被现有数据局限。如果分析出这个业务过程应该有这个指标,但是没有数据,请标注出来,提出收集数据的需求。
04
实体关系
7
每个业务动作都会有数据产生。我们将能够获取到的数据,提取实体,绘制ER图,便于之后的维度建模。
8
同样以业务过程为起点向下梳理,此时的核心是业务表。把每张表中涉及的维度、指标都整理出来。
05
维度整理
9
维度标准化是将各个业务系统中相同的维度进行统一的过程。其字段名称、代码、名字都可能不一样,我们需要完全掌握,并标准化。
维度的标准尽可能参照国家标准、行业标准。例如地区可以参照国家行政区域代码。
另外,有些维度存在层级,如区域的省、市、县。绝大多数业务系统中的级联就是多层级维度。
06
数仓分层
10
数据仓库一般分为4层,名字可能会不一样,但是其目的和建设方法基本一致:
每一层采用的建模方法都不一样,其核心是逐层解耦。越到底层,越接近业务发生的记录,越到上层,越接近业务目标。
11
依托数仓分层的设计理论,根据实际业务场景,我们就可以梳理出整体的数据流向图。这张图会很清晰的告诉所有人,数据从那来,到哪里去,最终提供什么样的服务。
07
模型建立
12
此时才真正进入纯代码阶段。数仓、ETL工具选型;ETL流程开发;cube的建立;任务调度,设定更新方式、更新频率;每日查看日志、监控etl执行情况等等。
前面梳理清楚了,ETL会变的非常清晰
湖仓一体:从零开始搭建数据仓库相关推荐
- 数据仓库如何实现湖仓一体数据分析?
简介:随着云计算的普及和数据分析需求的扩大,数据湖+数据仓库的湖仓一体分析能力成为下一代数据分析系统的核心能力.相对于数据仓库,数据湖在成本.灵活性.多源数据分析等多方面,都有着非常明显的优势.IDC ...
- 如何通过数据仓库实现湖仓一体数据分析?
// 一.背景 随着云计算的普及和数据分析需求的扩大,数据湖+数据仓库的湖仓一体分析能力成为下一代数据分析系统的核心能力.相对于数据仓库,数据湖在成本.灵活性.多源数据分析等多方面,都有着非常明显的优 ...
- 专访丨HashData创始人简丽荣:云原生与大数据时代,湖仓一体代表了未来
12月23-24日,2021数据技术嘉年华(DTC)将在北京丽都皇冠假日酒店盛大开启.围绕"智能·创新·新生态--数据智领未来 生态共创价值"这一主题,来自数据领域的领军人物.学术 ...
- 湖仓一体(Lakehouse)是什么?
前言 本文隶属于专栏<大数据理论体系>,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见大数据理论体系 WHAT 湖仓一体(Lake ...
- 数智学习|湖仓一体实践与探索
栏目语 数澜科技开设栏目「技术派+」,聚焦前沿技术,洞悉行业风向,分享来自一线的研发经验与应用实践. 本期专栏由数澜科技研发中心副总经理白松带来,分享湖仓一体实践与探索. 导语 随着社会数字化进程不断 ...
- 如何基于MaxCompute快速打通数据仓库和数据湖的湖仓一体实践
简介: MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速.全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户 ...
- 数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体
作者 |关涛.李睿博.孙莉莉.张良模.贾扬清(from 阿里云智能计算平台) 黄波.金玉梅.于茜.刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据 ...
- 湖仓一体:数据湖vs数据仓库之争?
本文介绍数据仓库和数据湖的区别是什么,作者对其来龙去脉进行深入剖析,来阐述两者融合演进的新方向--湖仓一体. 导读:随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断.有人说 ...
- 万字详解数据仓库、数据湖、数据中台和湖仓一体
本文目录: 一.前言 二.概念解析 数据仓库 数据湖 数据中台 三.具体区别 数据仓库 VS 数据湖 数据仓库 VS 数据中台 总结 四.湖仓一体 目前数据存储方案 Data Lakehouse(湖仓 ...
- 知乎热议:数据仓库、数据湖、湖仓一体,究竟有什么区别?
来源:知乎 作者:十叶心 全文共 14108个字,建议阅读 20分钟 一.基本概念 1.1数仓发展历史 数据湖是以集中方式存储各种类型数据,提供弹性的 容量和吞吐能力,能够覆盖广泛的数据源,支持 ...
最新文章
- Redux 的黑魔法
- windows系统numpy的下载与安装教程
- centos平台cms系统
- RestTemplate技术预研-认识RestTemplate
- poj 3040 Allowance (贪心
- 软件工程作业团队作业No.5
- 什么是SPA,如何实现SPA应用呢?
- java识别音高_如何找出音乐的音高
- 计算机一级登录密码忘了怎么办,电脑密码忘了怎么办
- 阿里云服务器怎么开发票?
- kubernetes国内镜像代理
- 自学编程系列——4 Numpy数组
- 写题记录 cf G. Minimal Coverage 难度2200
- 《edge computing:vision and challenge》论文阅读
- CSP2021提高组游记
- 使用WASD键移动对象
- 阿里云国际版设置DNS托管和智能分流教程详解
- Docker下Prometheus和Grafana三部曲之三:自定义监控项开发和配置
- rnnlm源码分析(四)
- win10鼎信诺为什么安装不了_2016年鼎信诺常见问题处理
热门文章
- Mac系统下MySQLWorkbench出现no connection established问题
- 微信公告号 图灵机器人实现智能回复
- 测试工程师多年面试问题整理
- DIY树莓派Raspberry Pi
- ffmpeg学习——音频源
- 华硕天选系统原厂预装系统正版系统带全驱动天选1.天选2.天选3.天选air
- Invalid bound statement (not found): com.exam.mapper.UserMapper.findbyid
- unity网络资源导入
- 怎么把PDF翻译成中文
- 《IT学生解惑手册》电子版免费下载!