1. 数据仓库的概述

1.1 数据仓库的基本内容

数据仓库泛化、合并多维空间的数据。构造数据仓库涉及数据清理、数据集成和数据变换,可以看作数据挖掘的一个重要预处理步骤。此外,数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据的交互分析,有利于有效的数据泛化和数据挖掘。数据仓库的基本内容包括:

  • 什么是数据仓库
  • 操作数据库与数据仓库的区别
  • 分离的数据仓库
  • 数据仓库模型
  • 数据提取变换和转入
  • 元数据库

2. 什么是数据仓库?

2.1 数据仓库的基本概念

  • 数据仓库已有多种定义方式,很难给出一种严格的定义。通俗地讲,数据仓库是一种数据库,它与单位的操作数据库分别维护。数据仓库系统允许将各种应用集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。

2.2 数据仓库的关键特征
数据仓库可以看成是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理的决策过程。

  • 面向主题的:数据仓库围绕一些重要主题,如果顾客、供应商、产品和销售组织。
  • 集成的:通常,构造数据仓库是将多个异构数据源,如关系数据库、一般文件和联机事务处理记录集成在一起。
  • 时变的:数据存储从历史的角度提供信息。数据仓库种的关键结构都隐式或显示的包含时间元素。
  • 非易失的:数据仓库总是物理地分离存放数据,这些数据源于操作环境下的一个用数据。

3 数据的仓库的基本内容之二

3.1 操作数据库与数据仓库的区别

  • 联机操作数据库(OLTP)的主要任务式执行联机事务和查询处理。
  • 用不同的格式组织和提供数据,以便满足不同用户的形形色色的需求,这种系统称做联机分析处理(OLAP)。

3.2 分离的数据仓库

  • 操作数据库中存放了大量的数据。为什么不直接在这种数据库上进行联机分析处理,而是另外花费时间和资源去构造分离的数据仓库?
  • 分离的主要原因是提高两个系统的性能。
  • 数据仓库的查询通常是复杂的,涉及大量数据在汇总级的计算,可能需要特殊的基于多维视图的数据
  • 织、存取方法和实现方法。在操作数据库上处理OLAP查询,可能会大大降低操作任务的性能。
  • 数据仓库与操作数据库分离式由于这两种系统的中的数据结构、内容和用法都不相同。

数据仓库的三层体系结构

  • 底层是仓库数据库服务器:通常是一个关系数据库系统。
  • 中间层是OLAP服务器
  • 顶层是前端客户层,它包括查询和报告工具,分析工具/或数据挖掘工具

4 数据仓库的基本内容之三

4.1 数据仓库的模型
从结构的角度看,有三种数据仓库模型:企业仓库、数据集市和虚拟仓库。

  • 企业仓库:企业仓库搜集了关于主题的所有信息,跨越整个企业。它提供了企业范围内的数据集成,通常来自一个或多个操作系统数据库系统或外部信息提供者,并且是多功能的。
  • 数据集市:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。例如销售数据集可能限定其主题为顾客、商品和销售。
  • 虚拟仓库:虚拟仓库是操作数据库上视图的集合。为了有效地的处理查询,只有一些可能的汇总视图被物化。

4.2 数据提取、变换和装入

  • 数据提取:通常由多个异构的外部数据源收集数据。
  • 数据清理:检测数据中的错误,可能时并订正它们。
  • 数据变换:将数据由遗产或宿主格式转换成数据仓库格式。
  • 装入:排序、汇总、合并、计算视图、检查完整性,并建立索引和划分。
  • 刷新:传播由数据源到数据仓库的更新。

4.3 元数据库

  • 元数据时定义仓库对象的数据。元数据库在数据仓库体系结构的底层。-
  • 元数据库应当包括以下内容:
  • 数据仓库结构的描述:包括仓库模式、视图、维、分层结构等
  • 操作元数据:数据信息、数据流通、管理信息
  • 用于汇总的算法:包括度量和维定义算法
  • 由操作环境到数据仓库的映射
  • 关于系统性能的数据
    库模式、视图、维、分层结构等
  • 操作元数据:数据信息、数据流通、管理信息
  • 用于汇总的算法:包括度量和维定义算法
  • 由操作环境到数据仓库的映射
  • 关于系统性能的数据

三十三、数据仓库的概述相关推荐

  1. 【Visual C++】游戏开发笔记三十三 浅墨DirectX提高班之二 化腐朽为神奇:DirectX初始化四步曲

    这篇文章里,我们将迈出精通DirectX的第一步,先了解典型Direct3D程序的书写流程,然后学习COM接口的对象的一些思想,然后按照"四步曲"的思路,系统地学习DirectX的 ...

  2. [Python从零到壹] 三十三.图像处理基础篇之什么是图像处理和OpenCV配置

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  3. [系统安全] 三十三.恶意代码检测(3)基于机器学习的恶意代码检测技术

    您可能之前看到过我写的类似文章,为什么还要重复撰写呢?只是想更好地帮助初学者了解病毒逆向分析和系统安全,更加成体系且不破坏之前的系列.因此,我重新开设了这个专栏,准备系统整理和深入学习系统安全.逆向分 ...

  4. 【Visual C++】游戏开发笔记三十三 浅墨DirectX提高班之二 化腐朽为神奇:DirectX初始化四步曲...

    本系列文章由zhmxy555(毛星云)编写,转载请注明出处. 文章链接:http://blog.csdn.net/zhmxy555/article/details/8197792 作者:毛星云(浅墨) ...

  5. 【Visual C++】游戏开发笔记三十三 浅墨DirectX提高班之二 化腐朽为神奇 DirectX初始化四步曲

    本系列文章由zhmxy555(毛星云)编写,转载请注明出处. 文章链接:  http://blog.csdn.net/zhmxy555/article/details/8197792 作者:毛星云(浅 ...

  6. JAVASE基础模块三十三(Scanner 扫描流 RandomAccessFile随机访问流 ObjectInputStream序列流 Properties集合流 Sequence顺序流

    JAVASE基础模块三十三(Scanner 扫描流 RandomAccessFile随机访问流 ObjectInputStream序列流 Properties集合流 SequenceInputStre ...

  7. NeHe OpenGL第三十三课:TGA文件

    NeHe OpenGL第三十三课:TGA文件 加载压缩和未压缩的TGA文件: 在这一课里,你将学会如何加载压缩和为压缩的TGA文件,由于它使用RLE压缩,所以非常的简单,你能很快地熟悉它的.   我见 ...

  8. ASP.NET程序中常用的三十三种代码(转载)

    asp.net程序中最常用的三十三种编程代码,为初学者多多积累经验,为高手们归纳总结,看了觉得很有价值~,大家不妨参考下! 1. 打开新的窗口并传送参数: 传送参数: response.write(& ...

  9. 前端工程师和设计师必读文章推荐【系列三十三】

    <Web 前端开发精华文章推荐>自2011年6月20号发布第一期以来,历经三年半,总共发布了30多期.今天这篇是2015年第2期(总第33期),希望你能在这里发现有用的资料. 梦想天空专注 ...

最新文章

  1. Linux下安全扫描工具Nmap用法详解
  2. 结对编程之四则运算(马仪生、李瑞恒)
  3. 红帽杯——childRE
  4. 论文盘点:基于图卷积GNN的多目标跟踪算法解析
  5. Oracle 审计文件
  6. Traefik访问master节点不通的问题定位
  7. cuda矩阵相乘_cuda初学(1):稀疏矩阵向量乘法(单精度)
  8. CentOS 6.4用源代码安装LNMP环境
  9. C++中获得文件大小
  10. python 爬虫 爬取糗事百科段子
  11. 怎么反编译java dll_JAVA 反编译工具,如何在Java中调用DLL方法
  12. 体验不尽,进化不止,看视频云技术六大创新
  13. 互联网骨干网及国际通用结算介绍
  14. 推荐 10 个好用的 JavaScript 代码压缩工具
  15. M洞察|“MOBA”还是“MMO”?2023上半年热门手游大盘点来了,拯救你的游戏荒
  16. 针式个人知识管理系统帮助:实现您的PKM梦想!
  17. N的阶乘:输入一个正整数N,输出N的阶乘
  18. 通过搜狗抓取微信公众号--------破解url
  19. 微信小程序 自定义组件
  20. 技术与经济之六:现代化的陷阱

热门文章

  1. php json和数组,php数组和json数组之间的互相转化
  2. mysql数据库系统配置文件_跟我学虚拟机系统平台相关技术及应用——在CentOS系统中的MySql数据库系统配置文件中进行配置定义...
  3. 网页静态化和网页伪静态化之间的区别与选择
  4. Sublime Text 全程指引 by Lucida
  5. PHP的void mixed
  6. Yii的查询后缀限定
  7. mysql 自增列坏处_MySQL--更新自增列的潜在风险
  8. PHP中empty,is_null,isset的区别
  9. MySQL性能优化点记录
  10. activiti mysql数据库表_Mysql安装activiti数据库的2种解决办法