笔者多年身处一线互联网独角兽企业,主导过数据仓库从0到1的建设,同时作为数据中台核心成员,在巨头合并,大数据融合及迁移过程中起到至关重要的作用。对数据中台及数据中泰产品有一定研究,抱着分享与自我成长的心态着手整理发表文章。内容核心会分为两大板块:数据仓库实战与数据产品实战。

接下来的文章中逐步介绍以下内容:

数据仓库实战(一):数仓分层分域规范
数据仓库实战(二):数仓表命名规范
数据仓库实战(三):数仓字段命名规范
数据仓库实战(四):数仓编码规范
数据仓库实战(五):埋点流程及规范
数据仓库实战(六):数仓建模设计概述


数仓模型分层
业界的数仓的表数据模型通常会分为以下几层,只是或多或少的将以下层次进一步细分或抽象。

ODS层(Operation Data Store,可操作数据集,生产数据沉淀)

DWD层(Data Warehouse Detail Data 数据仓库明细数据)

DWS层 (Data Warehouse Summary Data 宽表或汇总数据)

DIM层 (Dimension 维度层)

DM层 (Data Market 数据集市,支撑需求和应用)

ADM层 (Application Data Model 应用数据模型)

TMP层 (临时文件层)

由于不同公司的规模不同,业务重心不同,会有些许不同,如有的公司的模型层次重点分成了ODS、CDM(通用模型层 Common Data Model)、ADS(Application Data Service)。将DWD和DWS公共模型层划分到CDM层。而笔者公司将画像层作为重要业务划分,所以单独建设了一个画像UPF层

会有较多的集市团队支持各个业务线,故建设了数个的XXX_DM层,更加的贴合业务,提升数据流转效率。然万变不离其宗,各公司根据自己的组织架构及业务形态在此基础上做适当调整便可。

核心分层概述
ODS(Operational Data Store)是数据仓库的细节数据层,是对各业务系统数据进行沉淀,因此ODS层的数据模型延用各业务生产系统保持一致。

该层针对部分特殊场景进行特殊处理:

业务系统分表,在该层进行数据合并(部分公司在dwd层进行合并)。
Kafka,flink等实时数据入库在该层进行解析拆分(部分公司才有stage层缓冲处理)。
DWD(Data Warehouse Detail Data)数据明细层为数据加工层,该层的主要功能是对生产数据进行各种经营分析口径的加工转换,实现编码转换、标签加工等,该层基本是用户、订单等粒度的明细数据,同时该层对企业核心数据进行业务域划分,在互联网行业由于业务变化快,需要快速迭代,推荐遵循维度建模设计。

DWS (Data Warehouse Summary Data)层是汇总与衍生层,主要是为了日常运营中快速反映各业务部门的数据需求,建立各种数据模型,对明细类数据进行分主题、分维度的聚合汇总,数据来源包含多个业务线,同时要考虑专题性的统一宽表,大幅度缩小数据量。该层是对上层集市及应用的主要支撑层,既要尽量减少数据量,提高查询速度,又要包含上层应用的必须得各种信息,维度。

DM(Data Market)作为数据仓库的组成部分,从企业数据仓库中ODS层、DWD层、DWS、UPF层抽取相关数据并进行转换和装载,并根据应用需求形成的数据集合,支撑各个专业化的业务部门进行建设面向应用的数据模型。

数仓模型分域
所谓分域,是基于分层的基础上,将数据进一步的管理,便于数据的集中存放,保障数据的一致性,将高概率同时访问的数据放一起 ,将低概率同时访问的数据分开存储,易于维护及使用。

以下分域是笔者基于电商、物流、新闻、键盘工具等产品数仓提供的参考,由于不同公司的主营业务不同对业务的划分亦可或多或少的调整。

如果说分层的建设可以所有行业通用,那么分域的建设则需要对公司所属行业的业务进行高度抽象,

将日常的业务进行划分,这是考验数仓建设者的业务模型抽象的重要环节,也是作为数仓架构师的必备技能。

数据仓库实战(一):数仓分层分域规范相关推荐

  1. 数据仓库知识点总结(数仓分层建模、维度建模等)

    数据仓库知识点总结 推荐学习<华为数据之道><数据仓库工具箱-维度建模权威指南>两本书. 此文档是数据仓库建模的知识点总结文档,在持续更新中(2021-10-13). 文章目录 ...

  2. 数据仓库系列(三)数仓分层的意义价值及如何设计数据分层

    文章目录 一.前言 二.数仓建模 三.数仓分层 四.数仓的基本特征 五.数据仓库用途 六.数仓分层的好处 七.如何分层 一.前言 现在说数仓,更多的会和数据平台或者基础架构搭上,已经融合到整个基础设施 ...

  3. 数据仓库建设-数仓分层

    数据仓库能够帮助企业做出更好的决策,提高业务效率和效益:在数据仓库建设时,绕不开的话题就是数仓分层. 一.数据分层的好处 1. 降低数据开发成本 通用的业务逻辑加工好,后续的开发任务可以基于模型快速使 ...

  4. 数据仓库——数仓分层

    数仓分层 一.分层的作用 二.ODS (opreational data store) 三.DWD(data warehouse detail) 1.概览 2.步骤 4.具体需要做的事情 5.举例 四 ...

  5. 数据仓库(6)数仓分层设计架构

      目前主流的数据仓库分层大多为四层,也有五层的架构,这里介绍基本的四层架构. 分别为数据贴源层(ods).数据仓库明细层(dw).多维明细层(dws)和数据集市层(dm).   下面是架构图:    ...

  6. 谈笑间学会数仓-分层架构

    1.数据仓库 1-1.什么是数仓呢? ​ 数据仓库(Data Warehouse)简称DW或DWH,是数据库的一种概念上的升级,可以说是为满足新需求设计的一种新数据库,而这个数据库是需容纳更多的数据, ...

  7. 为什么要做数仓分层,不做行吗?

    来源:数据社 作者:数据一哥 编辑:数据一哥 全文共1404个字,建议阅读4分钟 大家好,我是一哥. 今天跟大家聊一聊数仓为什么分层? 01 经典的数仓分层 首先跟大家聊一个经典的数仓分层结构,主要包 ...

  8. 数仓分层的意义及通用设计

    文章目录 为什么要设计数据分层 数仓分层的意义 通用的数仓分层设计 总结 为什么要设计数据分层 大多数情况下,我们完成的数据体系依赖复杂.层级混乱,在不知不觉中,容易出现循环依赖体系.因此,我们需要设 ...

  9. 【博学谷学习记录】超强总结,用心分享|大数据之数仓分层

    数仓是什么? 数据仓库,简称数仓,英文名称为Data Warehouse,可简写为DW或DWH.数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合.它是单个数据存储,出于分析性报 ...

最新文章

  1. Python多版本pip安装库的问题
  2. zookeeper 源码阅读(1)
  3. NIPS 2016 Highlighted Papers
  4. ping cat.flag.php,关于2020年强网杯-强网先锋-主动的赛题解析
  5. 谁才是Transformer家族中的最强王者?谷歌告诉你答案
  6. HDU2019 数列有序!
  7. 实景三维数据也可以免费下载
  8. ITIL4 讲解:监控管理
  9. POI 模板生成word PDF——牛X神器
  10. 分集与复用,分集用于抵抗信道衰落,复用用于提升系统容量
  11. 【笔记】Stellarium怎么截图
  12. php表格显示成绩,学生成绩表格展示
  13. python培训机构 马哥
  14. java服务器常见状态码
  15. 【文献阅读】A2-Nets: Double Attention Networks
  16. Android JNI 编译so库
  17. 融合边界处理机制的学习型麻雀搜索算法
  18. Matlab:基于Matlab实现人工智能算法应用的简介(SVM支撑向量机GA遗传算法PSO粒子群优化算法)、案例应用之详细攻略
  19. 易强百度邮件搜索专家 v2.0 是什么
  20. 最常用的大文件传输方法有哪些,小编给你们细说

热门文章

  1. 公众号开启赞赏功能教程
  2. 「DP Rec.」[USACO21JAN] Uddered but not Herd G
  3. BOOL ModifyStyleEx( DWORD dwRemove, DWORD dwAdd, UINT nFlags = 0 );
  4. css颜色(css颜色表示方法)
  5. Android应用返回桌面后,每次点击图标,启动界面都会出现
  6. 当我试图让chatgpt推演宇宙基本原则是什么
  7. GASP动画和ScrollMagic
  8. 百度地图API:自定义多个途经点的导航
  9. 吃透Chisel语言.36.Chisel实战之以FIFO为例(一)——FIFO Buffer和Bubble FIFO的Chisel实现
  10. 关于在ios中使用png与jpg图片的区别