一、度量、指标、指标器

度量和维度构成OLAP的主要概念,对于在事实表或者一个多维立方体里面存放的数值型的、连续的字段,就是度量。这符合上面的意思,有标准。一个度量字段肯定是统一单位,比如元、户数。假设一个度量字段。当中的度量值可能是欧元又有可能是美元,那这个度量没法汇总。

在OLAP中还有计算度量的说法,用一个总费用除以用户数。得到每户平均费用。但这到底还算不算度量了呢?这已经不是原本意义上的度量了,仅仅是为了称呼方便而已。

这就得说到指标,英文的Metric。

在绩效管理软件里面,一般是有这个概念的。其定义可表述为"它是表示某种相对程度的值"。差别于度量概念,那是一种绝对值,尺子量出来的结果。汇总出来的数量等。

而指标至少须要两个度量之间的计算才干得到,比如ARPU,用收入比上用户数,比如收入增长率,用本月收入比上上月收入。当然可能指标的计算还须要两个以上的度量。

而Indicator的字面意思为指示器,在KPI中,最后一个I就是它,可是用中文称呼它的时候,总是叫"关键绩效指标",而没有叫做"指标器",也就造成一些混乱。

我们身边充当指示器的有:红绿灯。提醒行人车辆是否等待或通行;监控室里的警报灯。提醒哪儿出现异常。汽车仪表盘。提醒驾驶员油是否足够,速度怎样。它们起到的作用是传递一种宏观的信息。促使人的下一步行动。红灯停绿灯行。看到警报亮起要赶紧派人查看。

眼下常见的企业绩效管理软件中,仪表盘(有的地方称作驾驶舱)的展示界面也是不可缺少。正是用这样的直观而比較有象征性的指示器反映企业运营状况。

能够设想提出KPI的初衷。是希望企业通过一些粗略(非细节)的信息(而非数据)来为下一步的决策作出根据。

导致不同的决策行为必然是离散的输入。最简单的就是一个开关。是或不是(比如警报灯)。假设说度量和指标是定量话,指示器就是一种定性的。

然而。这些系统中的KPI并不是全然上面提到的指示器,非常多系统建设称为度量系统或是指标系统。而对一个企业,哪些指标可以充分反映经营活动,这也是须要精心制定的。而不是让技术部门提出一堆似是而非的指标名称,诸如在网用户数、收入之类,这不是KPI。

三者差别的说明:

"度量"是绝对的定量值。

"指标"是基于两个或很多其它度量计算得出的相对值;

"指示器"是基于度量或指标,并根据某个基准值得到的定性结果。

二、维度中层与级的差别

在OLAP中定义维度时,层(Hierarchy)与级(Level)是比較让人迷惑的两个概念。简单的说,层就是一种维度成员的分类方式,级就是维度成员之间或维度成员属性之间的包括关系。

一个维度至少要包括一个层。

以[产品]维度为例,能够创建一个[产地]层,能够创建一个[厂商]层,也能够创建一个[分类]层。在SSAS中。能够不定义层,此时维度的默认层为AllMembers层。

在Mondrian的Schema定义工具中。则要求所有手工定义。

一个层至少要包括一个级,以[产品]维度为例,[产地]层能够包括省-市-县三个级别,[分类]层能够包括日用品-洗涤用品-洗衣粉三个级别。级别的定义有2种方式,一种是在一个维度成员的属性之间定义,比如[产品]维度的每一个成员都有产品系列、大类、小类三个属性,这样定义[分类]层的级别时。直接利用这三个属性就可以,即:每一个级别都是一个成员的一个属性。还有一种是在维度成员之间进行。比如HR中的上下级关系。每一个级别都是一个详细的维度成员,即:每一个级别都是一个或多个维度成员,每一个级都包括多个属性。

后一种级别在数据库中往往是以递归的方式进行保存的。

三、数据仓库相关术语

数据仓库:数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的而且是时变的

数据仓库是全部操作环境和外部数据源的快照集合。

它并不须要很精确,由于它必须在特定的时间基础上从操作环境中提取出来。

数据集市:数据仓库仅仅限于单个主题的区域,比如顾客、部门、地点等。数据集市在从数据仓库获取数据时能够依赖于数据仓库,或者当它们从操作系统中获取数据时就不依赖于数据仓库。

事实:事实是数据仓库中的信息单元,也是多维空间中的一个单元,受分析单元的限制。

事实存储于一张表中(当使用关系数据库时)或者是多维数据库中的一个单元。每一个事实包含关于事实(销售额,销售量,成本。毛利。毛利率等)的基本信息,而且与维度相关。在某些情况下,当全部的必要信息都存储于维度中时,单纯的事实出现就是对于数据仓库足够的信息。

维度维度是用来反映业务的一类属性,这类属性的集合构成一个维度。比如,某个地理维度可能包含国家、地区、省以及城市的级别。一个时间维度可能包含年、季、月、周、日的级别。

级别:维度层次结构的一个元素。

级别描写叙述了数据的层次结构,从数据的最高(汇总程度最大)级别直到最低(最具体)级别(如大分类-中分类-小分类-细分类)。级别仅存在于维度内。

级别基于维度表中的列或维度中的成员属性。

数据清洗:对数据仓库系统没用的或者不符合数据格式规范的数据称之为脏数据。清洗的过程就是清除脏数据的过程。

数据採集:数据仓库系统中后端处理的一部分。数据採集过程是指从业务系统中收集与数据仓库各指标有关的数据。

数据转换:解释业务数据并改动其内容。使之符合数据仓库数据格式规范,并放入数据仓库的数据存储介质中。

数据转换包含数据存储格式的转换以及数据表示符的转换(如产品代码到产品名称的转换)。

联机分析处理(OLAP Online Analytical Processing ):OLAP是一种多维分析技术,用来满足决策用户在大量的业务数据中,从多角度探索业务活动的规律性、市场的运作趋势的分析需求。并辅助他们进行战略发展决策的制定。

依照数据的存储方式分OLAP又分为ROLAP、MOLAP和HOLAP。

在客户信息数据仓库CCDW的数据环境下,OLAP提供上钻、下钻、切片、旋转等在线分析机制。完毕的功能包含多角度实时查询、简单的数据分析。并辅之于各种图形展示分析结果。

数据挖掘:在数据仓库的数据中发现新信息的过程被称为数据挖掘,这些新信息不会从操作系统中获得。

切片:一种用来在数据仓库中将一个维度中的分析空间限制为数据子集的技术。

切块:一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。

星型模式:是数据仓库应用程序的最佳设计模式。它的命名是因其在物理上表现为中心实体,典型内容包括指标数据、辐射数据,一般是有助于浏览和聚集指标数据的维度。星形图模型得到的结果经常是查询式数据结构,可以为高速响应用户的查询要求提供最优的数据结构。星形图还经常产生一种包括维度数据和指标数据的两层模型

雪花模式:指一种扩展的星形图。星形图通常生成一个两层结构。即仅仅有维度和指标,雪花图生成了附加层。实际数据仓库系统建设过程中,通常仅仅扩展三层:维度(维度实体)、指标(指标实体)和相关的描写叙述数据(类目细节实体);超过三层的雪花图模型在数据仓库系统中应该避免。由于它们開始像更倾向于支持OLTP 应用程序的规格化结构,而不是为数据仓库和OLAP应用程序而优化的非格式化结构。

粒度:粒度将直接决定所构建仓库系统可以提供决策支持的细节级别。粒度越高表示仓库中的数据较粗。反之。较细。

粒度是与详细指标相关的,详细表如今描写叙述此指标的某些可分层次维的维值上。

比如,时间维度,时间可以分成年、季、月、周、日等。

数据仓库模型中所存储的数据的粒度将对信息系统的多方面产生影响。

事实表中以各种维度的什么层次作为最细粒度,将决定存储的数据是否能满足信息分析的功能需求。而粒度的层次划分、以及聚合表中粒度的选择将直接影响查询的响应时间。

度量值:在多维数据集中,度量值是一组值。这些值基于多维数据集的事实数据表中的一列,并且通常为数字。此外。度量值是所分析的多维数据集的中心值。

即。度量值是终于用户浏览多维数据集时重点查看的数字数据(如销售、毛利、成本)。

维度模型数据仓库基础对象概念一览相关推荐

  1. 维度模型数据仓库(十四) —— 杂项维度

    (五)进阶技术         9. 杂项维度         本篇讨论杂项维度.简单地说,杂项维度就是一种包含的数据具有很少可能值的维度.例如销售订单,它可能有很多离散数据(yes-no这种类型的值 ...

  2. 维度模型数据仓库(十五) —— 多重星型模式

    (五)进阶技术         10. 多重星型模式         从(五)进阶技术1.  "增加列"开始,已经通过增加列和表扩展了数据仓库,在(五)进阶技术5. "快 ...

  3. 数据仓库(基础篇)——基于维度建模思想

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  4. 大数据分析基础——维度模型

    大数据分析基础--维度模型 1基本概念 维度模型的概念出自于数据仓库领域,是数据仓库建设中的一种数据建模方法.维度模型主要由事实表和维度表这两个基本要素构成. 1.1维度 维度是度量的环境,用来反映业 ...

  5. 数据仓库建模方法/范式建模法/维度建模法/事实表/维度表/优缺点/建模流程/概念建模/逻辑建模/物理建模

    常见的有 范式建模法.维度建模法.实体建模法等,每种方法从本质上将是从不同的角度看待业务中的问题,不管是从技术层面还是从业务层面,都代表了哲学上的一种世界观. 1 范式建模法(Third Normal ...

  6. 数据仓库(DW)常见维度模型方式

    1.星型模型 星型模型主要是维表和事实表,以事实表为中心,所有维度直接关联在事实表上,呈星型分布. 2.雪花模型 雪花模型,在星型模型的基础上,维度表上又关联了其他维度表.这种模型维护成本高,性能方面 ...

  7. java与jquery的选择器区别_java day44【JQuery 基础:概念,快速入门,JQuery对象和JS对象区别与转换,选择器,DOM操作,案例】...

    第一章JQuery 基础 1. 概念: 一个JavaScript框架.简化JS开发 * jQuery是一个快速.简洁的JavaScript框架,是继Prototype之后又一个优秀的JavaScrip ...

  8. 短小精悍-机器学习核心概念、模型、基础知识点简明手册-免费分享

    该手册只有130页,整理了几乎所有关机机器学习的概念.模型.基础知识点,它将帮助读者快速回顾关于机器学习相关的核心知识点和重要公式.模型.概念.涉及概率模型.处理离散数据的生成模型.高斯模型.贝叶斯模 ...

  9. java day44【JQuery 基础:概念,快速入门,JQuery对象和JS对象区别与转换,选择器,DOM操作,案例】...

    第一章  JQuery 基础 1. 概念: 一个JavaScript框架.简化JS开发 * jQuery是一个快速.简洁的JavaScript框架,是继Prototype之后又一个优秀的JavaScr ...

  10. 软件测试面试题:请对Martin Fowler大师在测试金字塔模型的基础上提出分层自动化测试的概念,请进行描述。

    请对Martin Fowler大师在测试金字塔模型的基础上提出分层自动化测试的概念,请进行描述. 1)单元测试自动化:在面向过程编程中,单元也可以是整个模块,单常见的是单个函数或过程. 在面向对象编程 ...

最新文章

  1. [票据打印]打印走纸控制(1) - 设置纸型
  2. HiveSQL常用数据处理语句
  3. Java提高班(六)反射和动态代理(JDK Proxy和Cglib)
  4. 【感想文】感情经历,是否给你我带来的些许提升?我想,有。
  5. python机器学习梯度下降求解逻辑回归
  6. 为什么考研的都不是班里最优秀的?
  7. python200行代码_python代码统计200行
  8. java txt中统计一个字母出现的次数并储存,统计txt文件中每个字符出现的次数,并根据次数从高到低排序...
  9. Security+ 学习笔记49 事件调查
  10. 关于angularJS绑定数据时自动转义html标签
  11. java虚拟机带键盘安卓版下载。_jvm1.5官方下载
  12. oj1029统计素数并求和
  13. MSF Exploit入侵电脑实践(Win7/Win10皆可)
  14. Fragment、FragmentActivity、Fragment生命周期及Fragment组件穿透
  15. 公众号关键字自动回复内容点击跳转小程序方法
  16. 爱是永恒,依然爱是您
  17. 电视盒子系统是安卓还是yunOS,三招快速弄清
  18. 一文聊透对象在JVM中的内存布局,以及内存对齐和压缩指针的原理及应用
  19. 用青龙面板跑闲趣赚(趣闲赚)脚本(收益超级稳定)
  20. 机器学习模型 知乎_算法有没有价值观?知乎内容推荐算法解析

热门文章

  1. mysql导入.sql文件
  2. html隐藏标签console,console的隐藏知识点,你get到了嘛?
  3. numpy下, meshgrid
  4. 凸优化第五章对偶 5.5最优性条件
  5. WebShell脚本检测机器学习二
  6. 互相引用 spring_Spring-bean的几种循环依赖方式
  7. mysql数据库wait_timeout_mysql设置wait_timeout详解
  8. JSONObject.toBean方法复制不成功
  9. 扩展linux swap分区大小,扩展Linux系统swap分区的大小
  10. 使用py 和flask 实现的服务器系统目录浏览,日志文件实时显示到网页的功能