虽然存在数据仓库并不是数据挖掘的先决条件,但实际上,若能访问数据仓库,数据挖掘的任务就会变得容易的多

数据仓库主要目标是增加决策过程的“情报”和此过程的相关人员的知识。数据仓库对不同的人来说有不同的意义。

数据仓库是一个集成的,面向主题的数据库集合,用于实现决策支持功能(DSF),其中的每个数据单元都和某个时刻相关。

根据这个定义,数据仓库也可看成是某个组织的数据存储库,用于支持战略决策。数据仓库的功能是以集成的方式存储某组织的历史数据,来反应这个组织和企业的多个方面。数据仓库中的数据永远不会更新,仅用于相应终端用户的查询。一般来说,数据仓库非常的大,存储了数以亿计的记录。

要更好的理解数据仓库的设计过程最重要的是两个方面:

第一是数据仓库中存储的数据的特定类型(分类);

第二是对数据进行什么转换才能使数据变成有利于决策的最终形式。

数据仓库包括一下数据类别,这个分类适用于依赖时间的数据源。

1、过去细节数据

2、当前(新)细节数据

3、轻度综合数据

4、高度综合数据

5、元数据(数据目录或者向导)

为了在数据仓库中准备这5种基本数据或者导出数据,数据转换的基本类型已经标准化。有以下4中主要转换形式,每一种转换形式都有自己的特点:

  第一种 简单转换—— 这种转换是所有其他复杂类型转换的基石。这种类型的转换包括一次只操作一个字段中的数据,而不考虑相关字段的值。

第二种 清洁和净化——这种转换确保一个字段或一组相关的字段采用一致的格式和用法。

第三种 集成——这个过程从一个或者多个数据源中提取操作类型数据,并逐个字段地把它们映射到数据仓库中的新数据结构上。在构建数据仓库时,常见的标识符问题是最难的继承问题之一。当同一个实体有多个系统源,但无法将这些实体区分开时,就会出现这种情况。

第四种 聚合和总结——这个方法将操作环境中的数据实例浓缩成数据仓库环境中更少的实例。总结是一维或者多维数据值的简单相加。聚合指的是不同商业元素相加得到一个总计,它高度依赖于域。

这些转换是把数据仓库作为数据挖掘过程的数据源的主要原因。如果数据仓库可用,数据挖掘的预处理阶段就可以极大地简化,有时候甚至可以去掉。数据准备是最耗时间的阶段。

数据仓库的开发过程可概括为3个阶段:

1、建模——简单地说,就是花时间了解商业过程,这些过程的信息需求以及在这些过程中做出的当前的决策。

2、构建——确定对工具的需求,该工具符合目标商业过程所需的决策支持类型;创建一个有助于进一步定义信息需求的数据模型;把问题分解为数据规范和实际的数据存储库,数据存储最终会表示为数据集市或者更加全面的数据仓库。

3、部署—— 用户研究存储库(了解可用的和应当可用的数据)和实际数据仓库的早期版本。这会使数据仓库出现演化,包括增加更多的数据扩充历史周期或重新回到构建阶段,以方便通过数据模型来扩展数据仓库的范围。

  数据仓库的唯一功能是向终端用户提供信息已作出决策。数据仓库也允许终端用户提取隐藏的,重要的信息。这种信息虽然更加难以提取,但能提供更大的商业和科学利益。

与其他典型的数据仓库应用(如结构化查询语言SQL)和联机分析处理工具(OLAP)的不同

SQL:一种标准的关系数据库语言,善于进行在数据库数据上强加一些约束条件以获取答案;

数据挖掘:进行另外一种本质上的探测性分析:获取隐藏的,不那么明显的信息。

OLAP:是决策支持的一部分。他回答了为什么某些事情是正确的。用户可以建立一个关联假设,二队数据执行一系列查询来验证该假设。OLAP分析实际上是一个推导过程。OLAP工具不依赖与数据,也不创造新的知识。它们通常是根据图形化浓缩的数据,帮助终端用用户做出结论和决策的。具有专门用途的可视化工具。

数据挖掘——数据仓库相关推荐

  1. 【数据库系统工程师】6.4数据仓库和数据挖掘基础知识

    目录 一.思维导图 二.知识点 1.数据仓库 (1)数据仓库与数据库比较 (2)数据仓库的基本特性 (3)数据仓库的数据模式 (4)数据仓库体系结构 2.数据挖掘 (1)数据挖掘分类 (2)数据挖掘常 ...

  2. 《数据仓库与数据挖掘教程》ch01绪论 章节整理

    数据仓库概述 从传统数据库到数据仓库 计算机数据处理有两种主要方式 事务型处理 分析型处理 传统数据库与事务处理 传统数据库是长期存储在计算机内的.有组织的.可共享的数据集合 有严格的数学理论支持,并 ...

  3. 第十一期:数据挖掘其实就是为了干这四种事?

    数据挖掘主要侧重解决四类问题:分类.聚类.关联.预测.数据挖掘非常清晰的界定了它所能解决的几类问题.这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程. 数据挖掘最重要的要素是分析人员的 ...

  4. 【数仓】数据仓库高频面试题题英文版(1)

      今天更新数据仓库高频面试题英文版,分为三个部分.下面是第一部分. 音频文件点击下方获取. [数仓]数据仓库高频面试题题英文版(1) [数仓]数据仓库高频面试题题英文版(2) [数仓]数据仓库高频面 ...

  5. 数据挖掘常用算法总结

    算法总结 个人博客:www.xiaobeigua.icu 第一章 (1)数据挖掘概念. 数据挖掘是在大型数据库中自动发现有用信息的过程 数据挖掘是数据库中知识发现(kdd)必不可少的部分 (2)数据库 ...

  6. 数据挖掘技术的应用领域

    1.       金融数据分析的数据挖掘   为多维数据分析和数据挖掘设计和构造数据仓库   贷款偿还预测和顾客信用政策分析    针对定向销售的顾客分类和聚类   洗黑钱和其他金融犯罪的侦破 2.  ...

  7. 数据仓库实践杂谈(七)——数据标准化

    [目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章: ...

  8. 数据仓库实践杂谈-(二)-数据分层

    [目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章: ...

  9. 数据仓库实践杂谈(十七)——数据回滚

    [目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章: ...

最新文章

  1. 企业级工作流解决方案(十五)--集成Abp和ng-alain--Abp其他改造
  2. CPU与内存的那些事
  3. .ajax显示加载动画,jQuery Ajax 加载数据时异步显示加载动画
  4. Ubuntu16.04 配置pytorch
  5. CGContextRef学习笔记
  6. vue教程3:vue常用指令
  7. matlab parfor不能用,matlab中parfor函数
  8. PHP的pcntl进程控制教程二(pcntl_wait)
  9. php怎样创建csv文件,如何使用PHP创建CSV文件?(代码示例)
  10. Maven的下载与安装
  11. 严重的 BootHole 漏洞影响所有 Linux 发行版和 Windows 系统(详细分析)
  12. linux 中rpc 服务器,实现Linux环境下编程RPC通信之个人经验总结(转)
  13. ActiveMQ(14):Destination(目的地)高级特性
  14. 模型退火的投资组合优化
  15. Windows投屏android电视,Windows电脑无线投屏到电视
  16. CESM笔记——CAM和CAM-Chem学习资料推荐
  17. php菱形,PHP 打印菱形
  18. pl330 dmac驱动分析1--数据结构
  19. Python处理视频文件的实用姿势
  20. 结对编程-四则运算-题目去重

热门文章

  1. 小屏幕 ui设计_UI设计基础:屏幕
  2. 游戏 新手引导 设计_我认为每个新手设计师都应该知道什么
  3. ux体验网站 英国_定义网站图像时的UX注意事项
  4. 初学者也能看懂的 Vue3 源码中那些实用的基础工具函数
  5. 面试官问:能否模拟实现JS的call和apply方法
  6. 微信小程序如何发送 http 请求
  7. 制造领域的人工智能技术
  8. java web中jsp常用标签
  9. Linux学习一天一个命令(2)[cd命令]
  10. Delphi XE5实现减少编译出来的程序体积