1.数据立方体的有效计算

  a.方体总数=∏(Li+1)(1<=i<=n)。其中Li为每个维的层数,n为维数。

  b.方体的计算选择。

    不物化:不预计算任何“非基本”方体。 

    完全物化:预计算所有方体,但是需要花费海量的空间来存储。

    部分物化:有选择的计算方体的一个自己。

  c.索引OLAP数据

    为了提供有效的数据访问,数据仓库支持索引结构和物化视图即上面所述。对OLAP数据进行索引可以通过位图索引和连接索引来进行。

    位图索引;允许在数据立方体中进行快速的搜索。对于某一属性的位图索引表,表的每项包括n个位,n为该属性可能取的最大值。每个位的值为1(表示当前属性取该值)或0(当前属性不取该值).

    

    连接索引:类似于关系数据库中的两个实体表之间的关系表。用于将它们连接起来。

2.三种数据仓库的应用

  (1)信息处理:支持查询和基本的统计分析,并使用交叉表,图表,表进行报告。

  (2)分析处理:支持基本的OLAP操作,包括上卷,下钻,切片和切块等。注:::联机分析处理的优势在于能够支持数据仓库数据的多维数据分析。

  (3)数据挖掘:支持知识发现,包括找出隐藏的模式和关联,构造分析模型,并进行分类和预测等。

通过以上也可以看出信息处理,联机分析处理(OLAP),数据挖掘三者的关系。

  信息处理基于查询,可以发现有用的信息,但是这部分信息直接反应的是存储在数据库中的信息(或通过聚集函数得到),不反映复杂的模式和隐藏在数据间的规律。

  联机分析处理与数据挖掘之间的区别:

  (1)联机分析处理反映数据在不同粒度上汇总/聚集工具,帮助简化数据分析,目的在于简化和支持交互数据分析,数据挖掘的目的在于尽可能的自动处理。

  (2)联机分析处理在于一般的数据描述。而数据挖掘包括数据描述和数据建模,它不仅执行数据汇总比较,而且还执行关联,预测,聚类,时间序列分析等。

  (3)数据挖掘不仅分析存放在数据仓库中的数据,,还可以分析比数据仓库提供的汇总数据粒度更细的数据。他还可以分事务物的,空间的,文本的,媒体的数据。

3.联机分析挖掘(OLAM)

  将联机分析处理,数据挖掘,以及在多维数据库中发现知识集成在一起。

转载于:https://www.cnblogs.com/zjh225901/p/6109086.html

数据挖掘概念与技术11--数据仓库的实现相关推荐

  1. 【数据挖掘概念与技术】学习笔记5-数据立方体技术

    基本方体是数据立方体中泛化程度最低的方体.泛化程序最高的方体是顶点方体,通常用all表示.基本方体的单元是基本单元,非基本方体的单元是聚集单元. 聚集单元在一个或多个维上聚集,其中每个聚集维用单元记号 ...

  2. 数据挖掘概念与技术课后笔记

    数据挖掘概念与技术一 数据爆炸:自动数据收集工具和成熟的数据库技术使大量的数据被收集,储存在数据库.数据仓库或其他信息库中以待分析. 数据挖掘:从大量的数据中挖掘令人感兴趣的.有用的.隐含的.先去未知 ...

  3. 【读书笔记-数据挖掘概念与技术】数据立方体技术

    基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴 ...

  4. 数据挖掘 概念与技术(原书第3版)

    <数据挖掘:概念与技术(原书第3版)>完整全面地讲述数据挖掘的概念.方法.技术和全新研究进展.本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理.频繁模式挖掘. ...

  5. 读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.4 数据集成和变换

    <数据挖掘:概念与技术(原书第2版)> 2.4 数据集成和变换 数据挖掘经常需要数据集成-合并来自多个数据存储的数据.数据还可能需要转换成适于挖掘的形式.本节介绍数据集成和数据变换. 2. ...

  6. 《数据挖掘概念与技术》第二版 中文版 第一章答案

    引言 1.1 什么是数据挖掘?在你的回答中,针对以下问题: a. 它是又一种广告宣传吗?b. 它是一种从数据库.统计学和机器学习发展的技术的简单转换吗?c. 解释数据库技术发展如何导致数据挖掘d. 当 ...

  7. 【数据挖掘概念与技术】学习笔记1-引论

    数据仓库:多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策. 数据仓库:通过数据清理.数据变换.数据集成.数据装入.定期数据刷新来构造. 数据仓库技术包括:数据清理.数据集成.联机分析处 ...

  8. 【读书笔记-数据挖掘概念与技术】聚类分析:基本概念和方法

    下图摘自:http://blog.163.com/qianshch@126/blog/static/48972522201092254141315/ 主要的聚类方法可以划分为以下几类: 划分方法 层次 ...

  9. 【读书笔记-数据挖掘概念与技术】数据挖掘的发展趋势和研究前沿

    复杂的数据类型 数据挖掘的其他方法 关于数据挖掘基础的观点: 可视和听觉数据挖掘 数据可视化 数据挖掘结构可视化 数据挖掘过程可视化 交互式可视数据挖掘 数据挖掘的应用 转载于:https://www ...

最新文章

  1. jpa oracle mysql,JPA-Oracle-Mysql連接數據庫配置
  2. 《Java设计模式与实践》——工厂模式
  3. Matrix工作室第六届纳新AI组考核题(A卷)
  4. Java:ThreadPoolExecutor解析
  5. 系统架构设计上需要注意的
  6. 从源代码解释Android事件分发机制
  7. 查看欧拉系统服务器ip,euler os 查看center进程命令
  8. ecipse theme
  9. php导出Excel表格(无插件)
  10. 股市修仙传:群魔乱舞之仙人跳!
  11. BZOJ.3097 Hash Killer 1(卡掉自然溢出法)
  12. 回归预测 | MATLAB实现Robust-ELM鲁棒极限学习机多输入单输出
  13. Linux 容器化技术详解(虚拟化、容器化、Docker)
  14. 用“小花生”-阅读记录app坚持打卡快3年,我带儿子在学前实现中英文阅读量4500本 ...
  15. XSL的一些基础知识!
  16. 戴尔win10桌面 计算机,戴尔笔记本上win10的计算器在哪
  17. 如何删除卸载苹果mac电脑应用软件没有残留垃圾
  18. vrrp协议和master路由器
  19. 如何伪原创-自媒体伪原创软件
  20. linux发广告软件下载,ADPower广告管理系统(Linux手动安装)

热门文章

  1. 变量存储list python_Python变量类型(八)
  2. 大数据要学javaweb吗_大数据是私有财产吗?
  3. mysql数据库用doc命令,myMySQL数据库怎么使用dos命令安装? MySQL数据库使用教程
  4. Linux编辑启动停止重启springboot jar包脚本
  5. HTTP缓存策略 304
  6. jdbcType和javaType
  7. 云计算99.9%可用性毫无意义 灾难恢复是关键
  8. 学习WPF: 创建数据绑定目录树
  9. ORACLE ORA-00600 [17059][]错误的排除
  10. 学习Jsoup(三)