数据仓库--基本概念
0x00 前言
整理一些数据仓库中的常用概念。大部分概念不是照搬书上的准确定义,会加入很多自己的理解。
0x01 概念
数据仓库(Data Warehouse)
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
个人理解,数据仓库不单单是一个概念,其实算是对数据管理和使用的一种方法论,它包括了如何合理地收集数据、如何规范的管理数据、如何优雅地使用数据,以及任务调度、数据血统分析等一系列内容。 在大数据时代这些概念依旧没有过时,相反,它更加重要。
利用数据仓库的方式存放的资料,具有一旦存入,便不会随时间发生变动的特性,此外,存入的资料必定包含时间属性,通常一个数据仓库中会含有大量的历史性资料,并且它可利用特定的分析方式,从其中发掘出特定的资讯。
联机分析处理(OLAP, Online Analytical Process)
OLAP(Online Analytical Process),联机分析处理,以多维度的方式分析数据,而且能够弹性地提供上卷(Roll-up)、下钻(Drill-down)和透视分析(Pivot)等操作,它是呈现集成性决策信息的方法,多用于决策支持系统、商务智能或数据仓库。其主要的功能在于方便大规模数据分析及统计计算,可对决策提供参考和支持。与之相区别的是联机交易处理(OLTP),联机交易处理,更侧重于基本的、日常的事务处理,包括数据的增删改查。
OLAP需要以大量历史数据为基础,再配合上时间点的差异,对多维度及汇整型的信息进行复杂的分析。
OLAP的概念,在实际应用中存在广义和狭义两种不同的理解方式。广义上的理解与字面上的意思相同,泛指一切不会对数据进行更新的分析处理。但更多的情况下OLAP被理解为其狭义上的含义,即与多维分析相关,基于立方体(Cube)计算而进行的分析。
商务智能(BI, Business Intelligence)
BI(Business Intelligence),即商务智能,指用现代数据仓库技术、在线分析技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。
大致上来讲,BI就是利用各种技术来辅助于商业决策,它需要以数据仓库的数据为基础,通过Olap系统来做分析,必要时还需要一些数据挖掘的方法来挖掘更深层次的价值。
元数据(Metadata)
管理元数据的系统。网上没找到定义,个人对它的理解如下:
一个管理元数据信息的系统
能够提供方便的元数据的操作和查询操作
它会有下面这些功能:
数据分层
其实数据分层的意思就是对数据按照一定的层级来存储,这样做的好处很多,在下面列了几个,详细的请参考这篇博客:大数据环境下该如何优雅地设计数据分层
清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。
数据血缘追踪:简单来讲可以这样理解,我们最终给业务诚信的是一能直接使用的张业务表,但是它的来源有很多,如果有一张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。
减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。
把复杂问题简单化。讲一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。
屏蔽原始数据的异常。
屏蔽业务的影响,不必改一次业务就需要重新接入数据。
维度建模
维度建模是一种数据仓库的建模方法,这样讲吧,它的作用就是帮你更好的组织和使用数据。 详细的讲解请看这篇博客:漫谈数据仓库之维度建模
维度模型是数据仓库领域大师Ralph Kimall所倡导,他的《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling,中文名《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。
典型的代表是我们比较熟知的星形模型,以及在一些特殊场景下适用的雪花模型。
ETL (Extract-Transform-Load)
ETL 在数据开发的工作中主要是数据清洗,它包括数据的接入,初步的清洗,数据导入Hive或者Mysql中等一系列操作,目前比较火的大数据技术在很大程度上就是解决了大数据量下的数据清洗工作。
另外,很多写sql的任务也可以理解是数据清洗,比如使用sql对原始数据做一部分的业务处理、过滤掉一些特殊记录等,因此ETL的范围相对来讲比较广,很多数据开发的工作都可以归结到ETL中。
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
转载于:https://www.cnblogs.com/itboys/p/10582717.html
数据仓库--基本概念相关推荐
- 数据仓库的概念与体系结构
数据仓库的概念与体系结构 前言 数据管理技术的发展 人工管理阶段 文件系统阶段 数据库系统阶段 数据库技术与分析性应用结合的问题 数据仓库的基本概念 元数据 数据粒度 数据模型 ETL 数据集市 数据 ...
- 数据仓库基本概念介绍
目录 1.数据仓库所处环节 操作层 数据仓库 数据集市 个体层 2.数据仓库概念 面向主题的 集成的 随时间变化的 非易失的 3.一般架构 STAGE层 ODS层 MDS层 ADS层 DIM层 ETL ...
- 数据仓库的概念与设计
目录 一.数据仓库概念 二.数据仓库建模方法 1.ER模型 2.维度模型 2.1事实表 事实类型 2.2维度表 三.数据仓库设计 一.数据仓库概念 数据仓库是一个为数据分析而设计的企业级数据管理系统. ...
- 数据仓库-基本概念(了解)
数据仓库相关 一.什么是数据仓库? 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrated).相对稳定的(Non-Volatile) ...
- 关于数据仓库 — ODS概念
ODS 是一个面向主题的.集成的.可变的.当前的细节数据集合,用于支持企业对于即时性的.操作性的.集成的全体信息的需 求.常常被作为数据仓库的过渡,也是数据仓库项目的可选项之一. 根据 Bill.In ...
- 数据仓库的概念及与数据库等对比
1.什么是数据仓库? 数据仓库是信息(对其进行分析可做出更明智的决策)的中央存储库.通常,数据定期从事务系统.关系数据库和其他来源流入数据仓库.业务分析师.数据工程师.数据科学家和决策者通过商业智能 ...
- 数据仓库指标概念介绍(原子/派生/衍生)
1.原子指标 不加任何修饰词的指标就是原子指标,也叫度量,一般存在于olap表中,涉及聚合操作,例如订单量,用户量的等等. 原子指标=业务过程(动作)+度量,如支付(事件)金额(度量),交易笔数.交易 ...
- 数据仓库与数据挖掘的一些基本概念
下面内容摘自互联网并作了整理. 名词: BI(Business Intelligence):商业智能, DW(Data Warehouse):数据仓库,详见正文Q1部分. OLTP(On-Line T ...
- 数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体
作者 |关涛.李睿博.孙莉莉.张良模.贾扬清(from 阿里云智能计算平台) 黄波.金玉梅.于茜.刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据 ...
最新文章
- 吐血整理:24种可视化图表优缺点对比,一图看懂!
- 7714天,王小川正式卸任搜狗CEO!用一瞬间定格永恒
- 钱颖一:人工智能将使中国教育优势荡然无存
- android shape.xml 文件使用
- 如何检查php代码规范,用CodeSniffer检查PHP项目的代码规范
- 安装完Oracle 11g之后启动SQL Developer 时报cannot find a j2se sdk错误的解决办法
- spring @Value注解#和$区别
- 秒杀系统设计的 5 个要点:前端三板斧+后端两条路
- Vue中计算属性与class,style绑定
- day20 Python 高阶函数,函数,嵌套,闭包 装饰器
- Matlab聚类分析相关函数
- centos7 pe系统安装_CentOS 系统的安装
- Andriod --- JetPack :LiveData setValue 和 postValue 的区别
- 利用canvas画一个钟表
- 硬盘分区格式GPT与MBR无损互相转换而不破坏硬盘存储资料
- 简单查看windows蓝屏原因
- asp.net 调用word的DCOM组件遇见各种问题之乱弹琴
- 在PowerShell中将QuickBooks在线数据导入QuickBooks桌面
- leetcode抢救
- UE4 安卓触摸事件相关问题
热门文章
- volatile类型的数据
- cmake跨平台编译之判断操作系统平台、32位64位系统
- 第八章《对象引用、可变性和垃圾回收》(上)
- 【译】Android中的安全数据— Android中的加密(第2部分)
- 理解和使用systrace
- JZOJ 5701. 【gdoi2018 day2】第一题 谈笑风生(magic)
- JZOJ 5463. 【NOIP2017提高A组冲刺11.8】证书
- mysql 常用配置_mysql 常用配置
- 与guacamole服务器的网络不稳定,Apache Guacamole安全漏洞影响数千万用户 - 嘶吼 RoarTalk – 回归最本质的信息安全,互联网安全新媒体,4hou.com...
- log4js linux,如何在项目中使用log4.js的方法步骤