【HBZ分享】数仓里面的概念-宽表-维度表-事实表概念讲解
数仓概念
1. 度量值:
可被统计的,比如:次数,销量,营销额,订单表中的下单金额等可以统计的值叫度量值2. 维度表:(1). 对事实描述的信息,每一张表都对应现实世界中的一个对象或概念,比如:用户,商品,日期,地区维度(2). 比如要分析商品的销售情况如何,就可以从商品类型,或者地区销售情况来进行分析(3). 所谓维度,其实就是从什么角度进行分析比如从用户的角度,比如从商品类型,每种类型商品的销售量等比如从商品的其他角度,比如从日期这个角度,从每天的销售额或者销售量统计比如地区角度,广州的销售量,上海的销售量等从地区来进行分析3. 事实表:(1). 联系事实与维度表的数字度量值,事实表包含 描述业务内特定世界的数据(2). 是数据聚合后依据【某些维度】生成的结果表(3). 事实表里存放了能体现【实际数据】或【详细数据】,一般有维度表 和 事实数据组成举例1:张三,在2022年2月22日,在天猫超市买了100双拖鞋,共花了1000元, 10瓶霸王洗发水,共花了500元维度:时间, 用户张三,商品拖鞋与洗发水。 这些都叫维度,从时间维度,用户维度,商品维度的事实:100双拖鞋, 1000元; 10瓶霸王, 500元。 这些叫做事实。从以上3个维度都可以统计出这些数值。举例2:电商业务领域中维度:user用户表, product商品表, coupon优惠券表, provice地理信息表事实:order_info订单表(统计真实数值), order_detail订单明细表, product_comment商品评论表-商品表中存放商品类型,商品编码,商品名字等等,这些都是商品的属性,这张表就是维度表-订单表中存放着商品的销售数量,销售额等等,这张表就是事实表-某地区的商品销量,就是从地区这个维度来考察商品的销量-事实表就是销量表,维度表就是地区表4. 结论:(1). 站在维度的角度看事实表,看事实表的度量值(2). 【事实表】就是你要关注的内容; 【维度表】就是你考察事务的角度,是从哪个角度观察这个内容的,是从商品角度,还是地区角度等(3). 维度是维度建模的基础 和 灵魂。在维度建模中,将度量成为"事实",将描述环境成为"维度", 即这件商品销售了多少数量,这是事实。销售额多少,这也是事实。而根据地区来统计每个地区的销售量 和 销售额,这个地区就是维度
什么是宽表 和 窄表
1. 宽表(明细表):(1). 简单讲就是字段比较多的数据库表,通常是指业务主体相关的指标,维度,属性关联在一起的一张表(2). 把不同的内容放到同一张表内存储,宽表不符合三范式的模型设计规范(3). 尽量满足多维,多度量,遵循维度建模原则(4). 缺点: 数据大量冗余(4). 优点: 减少表关联数量, 查询性能会提高,空间换时间2. 窄表:(1). 严格按照数据库设计三范式,尽量减少冗余(2). 缺点: 做数据分析查询OLAP时,需要大量关联多个表,性能下降(3). 优点: 存储省空间,大量数据只存储某个表
什么是数仓建模
1. OLTP中:Mysql的数据库建表, 表和表之间的关系模型,叫关系建模
2. OLAP中:根据一个事实表为中心建表,面向业务分析为主,叫维度建模(1). 比如以订单销售量,销售额为中心。从不同维度,从商品类型维度,地区维度等多维进行建表,那这个表除了订单本身信息外,还需要把对应商品,地区信息也加进去,形成多维宽表
【HBZ分享】数仓里面的概念-宽表-维度表-事实表概念讲解相关推荐
- 数仓实践:浅谈 Kimball 维度建模
我们不管是基于 Hadoop 的数据仓库(如 Hive ),还是基于传统 MPP 架构的数据仓库(如 Teradata ),抑或是基于传统 Oracle .MySQL .SQL Server 关系型数 ...
- [hive]数仓分层|用户纬度拉链表|维度建模
https://www.modb.pro/404?redirect=%2Fdb%2F241289 一.数仓分层 1.ODS层:原始数据层 ODS(O=original D=data S=store) ...
- 通俗易懂数仓建模:范式建模与维度建模
一.两种建模思想 对于 Inmon 和 Kimball 两种建模方式可以长篇大论叙述,但理论是很枯燥的,尤其是晦涩难懂的文字,大家读完估计也不会收获太多,所以笔者根据自己的理解用通俗的语言提炼出最核心 ...
- 数仓的基本概念【精】
一.数仓基本概念 1. 数据仓库概念 英文名称为Data Warehouse,可简写为DW或DWH.数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support) ...
- 数仓建设保姆级教程,离线和实时理论+实战)
文档大纲: 一.数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,"架构"是什么?这个问题从来就没有一个准确的答案.这里我们引用一段话:在 ...
- 数仓建设(离线和实时)
文档大纲: 一.数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,"架构"是什么?这个问题从来就没有一个准确的答案.这里我们引用一段话:在 ...
- 数仓建设保姆级教程,离线和实时一网打尽(理论+实战)
本文大纲: 因内容较多,带目录的PDF查看是比较方便的,点击下方链接获取完整PDF版: 数仓建设保姆级教程PDF文档 一.数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先 ...
- 50000字,数仓建设保姆级教程,离线和实时一网打尽(理论+实战) 上
文档大纲: 一.数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,"架构"是什么?这个问题从来就没有一个准确的答案.这里我们引用一段话:在 ...
- 数仓分层模型架构分享(3)
文章在京东系数据仓库建设方案的基础上,加上自己独特的理解,很能给人以参考和启发. 原作者:hxiao1317098 原文:https://blog.csdn.net/hxiao1317098/arti ...
最新文章
- UI设计培训分享:平面广告设计中的文案表达技巧
- 转: java并发编程-Executor框架
- python3.7入门教程-python 3.7极速入门教程5循环
- (转)彻底学通string.Format以及IFormattable,IFormatProvider,ICustomFormatter
- CIRCOS增加热图、点图、线图和区块属性
- ::-webkit-scrollbar 滚动条的设置
- 证件照素材大合集(全网最全版本)
- c270 linux驱动下载,佳能 HD Webcam C270 驱动程序下载-更新佳能软件(网络摄像头)
- 七夕节表白3d相册制作
- QQ怎么样设置透明头像?2020最新方法!一个小工具快速搞定!
- 三星智能手表取得快速增长,华为和小米则以低价穿戴设备取胜
- excel数据透视表_Excel数据透视表在奥运会上
- ti芯片怎么成为一站式的代理
- 学号20189220余超 2018-2019-2 《密码与安全新技术专题》第一周作业
- 100条超搞笑的“雷人”QQ/MSN 签名
- MATLAB报错:尝试将 SCRIPT XXX 作为函数执行
- Android闪闪发光字体效果
- 江南大学计算机与科学研究生分数线,江南大学2021考研分数线已公布
- 请问我接的宽带网线里面那些带颜色的线是什么顺序?
- PHP vscode 格式化扩展php cs fixer配置
热门文章
- 模4补码(也称为变形补码)详解
- 考研线性代数手写笔记3 向量
- 秋招面经汇总(算法工程师,计算机视觉工程师,深度学习工程师,机器学习工程师)
- 金华职业技术学院计算机教研室主任,机械技术系主任及教师赴金华职业技术学院走访调研...
- TFS文件编码检查机制和修改(Team Foundation Server 2013)
- Unicode编码和Base64编码
- OA系统,赋能企业办公管理建设专业化
- 基于Java的雷电游戏设计(含源文件)
- 安装opencv3.4遇到Download: opencv_ffmpeg.dll、ippicv等失败的解决方法
- P2 PikaChu_SQL注入