冰山立方体是部分物化的方体。

这里我们先了解部分物化的概念:有选择地计算整个可能的方体集中一个适当的子集。我们可以计算数据立方体的一个子集,它只包含满足用户指定的某种条件(如每个单元的元组计数大于某个阈值)的那些单元。

举例说明,这句话的意思就是部分物化包含了两种情况,如果我们只计算3-D方体ABC而不计算4-D方体ABCD就属于第一种情况,比如立方体外壳;如果我们只计算方体ABC中的一部分单元则属单元于第二种情况,比如冰山立方体。

如果共享维上的聚集值不满足冰山条件,则沿该维向下的所有单元也不可能满足冰山条件。这样的单元和他们的后代都可以被剪枝。

也就是说:如果A维上的某些聚集值a1不满足条件,则沿该维向下的例如AC中a1c1,a1c2,a1c2这些单元都不满足冰山条件被剪枝。其余的a2c1,a2c2,a2c3可能满足而留下。如果共享维的值为a1,并且它不满足冰山条件,则以a1CD/a1为根的整颗子树(包括a1CD/a1C、a1D/a1、a1/a1)都可以被剪枝,因为他们都是a1的更特殊化的版本。

下面是Star-Cubing:使用动态星树结构计算冰山立方体

  • 星树创建:*代替维上不满足冰山条件的属性值

  • 深度优先遍历星树,通过自底向上聚集,在聚集过程中,利用共享维的概念(相当于自顶向下)剪枝。

1.聚集阶段一:处理基本树的最左分支

a1节点下存在b*的兄妹b1未搜索,BCD下的子树也没遍历完,所以BCD-Tree和ACD/A-Tree保留。

从d*移回到c*可看到c*无兄妹,输出ABD/AB中的计数,并销毁该树。

ABC/ABC也已完成,销毁。

2.聚集阶段二:处理基本树的第二个分支

ABC/ABC,ABD/AB树已完成,输出计数并销毁。

ACD/A中的子树全是星节点,不满足min_sup,销毁。

注:为了产生子女树,节点必须满足两个条件:(1)节点的度量必须满足冰山条件;(2)产生的树必须至少包含一个非星节点。

3.聚集阶段三:处理基本树的第三个分支

对于上次创建并未销毁的,而且本次又重新创建的一样的两棵子树,应将两次结果进行合并,即:将每个节点的聚集值进行相加。例:第1,2次创建的ACD/A树。

对于上次创建并未销毁,而且本次也创建该树,但两棵树不一样的,应将两棵树合并在同一根下。例:BCD树。

文章参考:http://www.cnblogs.com/zjh225901/p/6123022.html

浅析部分物化以及冰山立方体的计算方法Star-Cubing相关推荐

  1. 数据挖掘BUC算法计算冰山立方体的python实现

    冰山立方体计算 在很多情况下,数据立方体的空间大多被低度量值的数据单元所占据,而这些数据单元往往是分析者很少关心的内容.冰山立方体的计算能够减少物化数据单元所占有的存储空间. 常用计算方法: BUC: ...

  2. 数据挖掘BUC计算冰山立方体及Python实现

    因课程实验所需,对BUC算法进行了Python实现,过程多有坎坷,在此一记,以助后人. 一.关于BUC及冰山立方体的介绍 可参照如下链接: [数据挖掘概念与技术]学习笔记5-数据立方体技术 - CSD ...

  3. 使用python用递归的方法实现冰山立方体BUC算法(以水果分类数据为例)

    冰山立方体BUC算法是一种计算稀疏立方体的构建算法,在构建数据立方体的过程中,如果构建完整的数据仓库可能会花费大量的计算.存储和时间成本. 不过因为在应用过程中大部分的数据都是稀疏的,我们就可以通过冰 ...

  4. 数据挖掘冰山立方体构建算法:BUC及实现

    1.冰山立方体知识: waiting... 2.代码实现: 实现思路:全程模拟,写的时候理解还不够透彻,第一轮算出频率大于min_sup的集合,然后根据此集合开始不断向下扩展,筛选所有大于min_su ...

  5. 数据挖掘冰山立方体的构建:BUC算法的实现

    1.首先处理输入数据文件中数据的读入,数据存放在BUC.csv文件中, 每一行为一组维度组合序列,表示该序列出现一次.读取该文件,将数据保存在列表record中,保存形式如下: record = [[ ...

  6. 冰山立方体BUC算法(附测试集和完整代码)

    目录: 算法思路 算法实现 算法运行结果 一.算法思路 设想的算法分为三部分: 1.计算输入数据的维数.每个维的基数.每个维的取值个数以及每个维的取值. 2.设计一个函数,参数为一个列表,计算该列表在 ...

  7. 【数据立方】数据立方体的有效计算、物化materialization,索引OLAP数据

    一.数据立方体的有效计算 多维数据分析的核心是有效计算多个维度合上的聚集.按SQL术语,这些聚集称为group-by. 对于n维的立方体,包括基本立方体总共有(2的n次幂)个方体.(假设每个维没有分层 ...

  8. 【数据挖掘笔记五】数据立方体技术

    5.数据立方体技术 数据仓库系统在各种粒度上为多维数据的交互分析提供OLAP工具,OLAP工具使用数据立方体和多维数据模型对汇总数据提供灵活的访问,因此重点要关注数据立方体的技术.数据立方体技术包括数 ...

  9. 数据挖掘概念与技术12--数据立方体的计算和多路数组聚集详解

    1.冰山立方体的相关概念 部分物化的立方体成为冰山立方体,其中部分物化所使用的标准或最小阈值称为最小支持度阈值或简称为最小支持度. 冰山立方体SQL查询语句: conpute cube sales_i ...

最新文章

  1. Ubuntu 16.04+GTX970 黑屏无法安装解决方法
  2. Hugo快速搭建Blog
  3. 裸辞后,从Android转战Web前端的学习以及求职之路
  4. mysql 插入汉字 异常 Incorrect string value: '\xE8\xA7\x84\xE5\x88\x99' for column 'name'
  5. 编译原理实验语义分析_Windows MVSC编译器实现Xtended Flow Guard(XFG)保护机制的原理分析...
  6. openssl证书及配置
  7. 硕士可以跟别的导师做实验吗_如何成为一名导师可以成为双刃剑
  8. element-ui 可复选树型表格
  9. “凡事不发朋友圈的人,都是过的不好的人”你认同这句话吗为什么?
  10. python网络编程是什么意思_python网络编程(一)
  11. 【日常点滴015】python中学完pandas后的代码练习 附源数据文件
  12. 傲腾readyboost_使用ReadyBoost加速Windows Vista计算机
  13. 跟着团子学SAP:售前项目、项目前期管理思路
  14. python之轻量级框架flask开发接口,操作数据库
  15. RAD Studio 10.3.1 cannot initialize object parameter of type..........“
  16. easypoi.excel 导入不固定的合并单元格数据
  17. Nginx 代理minio 共享文件
  18. 爆款升级!新系列南卡Neo最强旗舰杀到,业内首款无线充骨传导耳机!
  19. 中文自然语言处理语言资源项目(ChineseNLPcorpus)
  20. mysql转拼音首字母大写_Mysql中文汉字转拼音的实现  mysql首字母转化为大写

热门文章

  1. 听说你想学Python爬虫?我从零教你啊
  2. Latex爬过的坑(2)——I was expecting a ‘,‘ or a ‘}‘
  3. c语言英语教学大纲,C语言教学大纲(《大学C语言实用教程》)
  4. 聊天系统:服务端 + 客户端 + web端
  5. activity has leaked window
  6. zabbix + nexmo = 电话告警
  7. pc计算机含义,pc端游什么意思
  8. 共射极单管放大器的Multisim仿真实验
  9. 莫列波纹(Moiré pattern)与Banding
  10. 登录双token方案