在数据仓库的开发过程中,确定数据仓库中的数据的粒度是至关重要的,翻阅了很多书籍,对粒度的描述都过于笼统,百度百科对数据粒度的定义:

数据粒度,是指数据仓库中数据的细化和综合程度。根据数据粒度细化标准:细化程度越高,粒度越小;细化程度越低,粒度越大。分析了数据仓库中的粒度模型,在此基础上提出了一种估计数据仓库大小的方法。

看完这段描述,估计也是云里雾里的,晦涩难懂!!


在设计数据仓库的时候,通常都会对数据仓库进行分层,分层的好处很多,比如通过分层可以实现业务之间的解耦,上层不必关心下层的具体处理逻辑。其次,通过数据分层更好的管理数据仓库。在数据仓库的分层设计中,最底层的数据通常都被要求满足数据的最细粒度,满足业务的各种组合查询和维度层次的统计。那么这里最低数据粒度是什么呢?

数据粒度可以理解为:在同一维度下,数据的粗细程度。最小粒度是指,根据业务需求,确定当前数据的不可分割的程度。可以明确的知道数据的粒度是根据数据的维度来的。以下举例说明,在设计数据仓库中的数据维度确定。

  • 我们要分析用户的购物和时间维度的关系。从时间维度来说,用户下单时间最细粒度精确到分钟,那么我们可以统计出一分钟有多少用户下单,由此可知系统一分钟的最大并发数量。由于最低粒度是分钟,我们可以在此基础上进行维度上钻,可以统计出一小时,一天,一个月等不同时间维度上用户的购物数量。
  • 上面分析用户购物和时间维度的关系。下面我们确定下用户购物的区域维度,分析出不同区域的用户购物数量。在区域维度的最细粒度上面,我们精确到县级城市。那么县级城市就是在区域维度上面的最小粒度。在县级这个最小粒度的基础上,我们可以上钻到市,省,大区等。

3.数据仓库之确定粒度相关推荐

  1. 数据仓库中的数据粒度

    转自:http://articles.e-works.net.cn/BI/Article61872.htm 数据分析在决策支持及趋势分析中发挥着重要的作用.通常数据仓库中包含大量数据表,如何在软硬件资 ...

  2. 数据仓库建设之数仓架构

    大家好,不管是离线数仓与实时数仓,建设的时候都少不了架构设计,今天来学习一下常见的架构及发展演变过程. 一.离线数仓大数据架构 1.数仓架构 下面详细说明图中的各个组件及其所起的作用.图中显示的整个数 ...

  3. 数据仓库-Hive(一)

    文章目录 数据仓库-Hive 1. 数据仓库 1.1. 基本概念 1.2. 主要特征 1.2.1. 面向主题 1.2.2. 集成性 1.2.3. 非易失性 1.2.4. 时变性 1.3. 数据库与数据 ...

  4. hadoop离线阶段(第十三节)数据仓库、hive简介、hive安装和hive的三种交互模式

    目录 数据仓库 数据仓库的基本概念 数据仓库的主要特征 数据仓库与数据库区别 数据仓库分层架构 数据仓库元数据管理 Hive简介 什么是Hive Hive的特点 Hive架构 Hive与Hadoop的 ...

  5. 4.1 数据仓库基础与Apache Hive入门

    数据仓库基础与Apache Hive入门 一.数据仓库基本概念 1.数据仓库概念 2. 案例:数据仓库为何而来 (1)业务数据的存储问题 (2)分析型决策的制定 3.数据仓库主要特征 面向主题性(Su ...

  6. Greenplum 实时数据仓库实践(1)——数据仓库简介

    目录 1.1    什么是数据仓库 1.2    操作型系统与分析型系统 1.2.1 操作型系统 1.2.2 分析型系统 1.2.3 操作型系统和分析型系统对比 1.3 抽取-转换-装载 1.3.1 ...

  7. 干货 | 万字详解整个数据仓库设计体系

    数据仓库的基本概念 数据仓库概念: 本文首发在公众号:五分钟学大数据,回复[秘籍]即可获取大数据宝典一份 英文名称为Data Warehouse,可简写为DW或DWH.数据仓库的目的是构建面向分析的集 ...

  8. 数据仓库和数据集市的概念、区别与联系

    1.为什么会出现数据仓库和数据集市? "数据仓库"的概念可以追溯到80 年代中期.从本质上讲,最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系结构模型,并尝试解决和这 ...

  9. 《数据仓库与数据挖掘教程》ch01绪论 章节整理

    数据仓库概述 从传统数据库到数据仓库 计算机数据处理有两种主要方式 事务型处理 分析型处理 传统数据库与事务处理 传统数据库是长期存储在计算机内的.有组织的.可共享的数据集合 有严格的数学理论支持,并 ...

最新文章

  1. 由Linux内核bug引起SSH登录缓慢问题的排查与解决
  2. python调用nacos账号密码,Python脚本,使用私钥(如果可用)或用户名密码
  3. sublime text 3170 破解工具
  4. QlikView Script -组合键处理
  5. css文字下滑,CSS3 文本下落渐变动效
  6. java+session+存在哪_JAVA中Session
  7. 来来来!2021最新Java面经分享
  8. CodeForces 2B The least round way
  9. clearcase 常用命令
  10. 钢板弹簧matlab,Matlab/GUI在钢板弹簧悬架设计中的应用
  11. 阿里云企业做网站备案流程
  12. 2018下半年Android面试历程
  13. python嗅探m3u8_python通过m3u8下载视频
  14. 全国高中数学联赛——几何
  15. 设计师常用的7款界面设计工具!
  16. C语言简单进制转换器
  17. Silverlight杂记Media和SMF播放控件推荐
  18. 电源系列2:LDO 基本 原理(二)
  19. 【git之路】拉取远程分支到本地
  20. start with connect by prior用法

热门文章

  1. ros 单向通讯 talker,listener 发布订阅模型
  2. 人脸表情系列:论文阅读——Facial Expression Recognition by De-expression Residue Learning
  3. python获取set中某些元素_取集合中元素_Python Set集合
  4. ffmpeg当前版本mp4容器 支持G711修改
  5. SPI与W25Q128
  6. Go 语言 入门 基于 GoLand 2023.1 创建第一个Go程序
  7. 报错:“TypeError: Cannot read property ‘0‘ of undefined“的原因
  8. 计算机课ps软件,电脑上的ps软件叫什么
  9. 什么是VLAN?VXLAN?以及VLAN和VXLAN的区别?
  10. 先验概率与后验概率及贝叶斯公式