总述:数据在经过预处理和装入数据仓库之后,下一步就是应用具体的算法来处理数据,找出其中有业务意义的部分。这一部分详细的介绍了数据挖掘相关算法的核心思想,常见问题算法的指导方向。

  1. 如何根据数据立方体的情况选取合适的计算方法
  2. 完全立方体计算的多路数组聚集方法是怎么进行操作的
  3. BUC是怎么计算冰山立方体的
  4. 动态星形树结构是如何用来计算冰山立方体的
  5. 快速预计算高维OLAP壳片段的处理
  6. 数据立方体的发现驱动探查是什么?
  7. 面向属性的归纳

1.如何根据数据立方体的情况选取合适的计算方法

答:基本方体的单元是基本单元。非基本方体的单元是聚集单元。简单的来说,基本方体就是数据立方体的维度都是最开始定义的基本维度,聚集单元就是通过基本维度汇聚成的组合维度。

预计算整体数据立方体需要海量的空间,因为n维数据立方体包含2的n次方个方体,再考虑概念分层,实在是不可承受。实际应用中,我们会发现并不是所有的子方体都是我们需要的,有的基本维度组合是没有实际意义的,这导致我们想要预计算的数据立方体实际需要非常少的计算,是一种非常稀疏的数据立方体计算。在很多情况下,相当多的数据立方体可能被大量低度量值的单元占据,例如空值或者默认值等,实际有意义的数据仅占所有基本单元中非常少的一部分,这个时候产生的数据立方体称为冰山立方体,表示实际的有效数据立方体占全维度的数据立方体中非常少的一部分。闭立方体的单元都是基本单元,只占全部基本单元的一部分。外壳则是仅选取数据立方体少数的几个维度建立。总之,这些内容都是为了建立合适的计算方法做的前期定义。

数据立方体有效计算的一般优化技术有:1、排序、散列、分组,对维属性使用这些操作,重新定序和聚类;2、同时聚集和缓存中间结果,缓存中间结果可以降低计算量;3、当存在多个子女立方体时,由最小的子女聚集,这可以通过复用最小子女聚集的计算结果降低计算量;4、使用Apriori剪枝方法有效计算冰山立方体。Apriori性质:如果给定单元不满足最小支持度,那么该单元的后代也不满足最小支持度。运用这种性质可以有效的化简条件,降低计算量。

2.完全立方体计算的多路数组聚集方法是怎么进行操作的

答:多路数组聚集方法使用多维数组作为基本数据结构,计算完全数据立方体。它是一种使用数组直接寻址的典型MOLAP方法,其中维值通过位置或对应数组位置的下标访问。这种方法的具体操作如下所示:1、将数组分块,保证每个块的计算可以在可用内存的约束范围内完成,并将计算的值保存在数组中;2、通过访问立方体单元计算聚集。这种方法的可行之处在于可以通过规划的方法做聚集的并行处理同时下层的聚集值只要达成条件可以自发向上聚集,这是规模化处置很有效的方法。

虽然这种方法可以处理完全立方体的计算,但是这种计算量会随着完全立方体的维数做指数级增长,所以这种方法仅适合维数比较小的完全立方体进行计算。多路数组聚集方法是从下向上进行计算的。

3.BUC是怎么计算冰山立方体的

答:BUC是一种计算稀疏冰山立方体的算法。BUC从顶点向下到基本立方体构造立方体,其中数据划分的开销允许BUC分担,同时在构造过程中可以使用Apriori性质进行剪枝。剪枝算法的原理非常接近于二叉树的中序遍历算法,稍微变化的是节点变成了包含底层维度的聚集。同时在遍历过程中,小于递归步长的结点将会被舍去。

4.动态星形树结构是如何用来计算冰山立方体的

答:动态星形树算法集成了自顶向下和自底向上立方体计算,利用类似多维聚集和类Apriori剪枝结合操作。这种算法先对全局计算次序,使用自底向上模型。这样会产生一个基于自顶向下的子层,利用共享维的概念。共享维的的引入有利于采用共享计算结果。当整个不断产生子层的划分进行到可以利用Apriori剪枝进行处理的时候,继续向下的计算就可以停止。

5.快速预计算高维OLAP壳片段的处理

答:实际场景中,我们可能为了快速估算OLAP值,只要这个值在可以接受的范围内就可以。在这种场景下,采用少数几个维的壳进行预计算就非常可取了,实际上我们可能也仅仅只是对少数几个感兴趣或者需要的维进行预计算。

算法的基本思想:给定高维数据集,将维划分成互不相交的维片段,每个片段转换成相应的倒排索引表示,,然后构造外壳片段立体,保持与立方体单元相关联的倒排索引。使用预计算的外壳片段立方体,可以动态组装和计算所需的数据立方体的方体单元,实际可通过倒排索引上的集合交操作有效完成。

6.数据立方体的发现驱动探查是什么?

答:由于数据挖掘可以统计出数据的变化趋势,这样我们主要分析趋势变化中异于正常平稳的部分就可以,这部分可以通过自身的纵向比较或者跟其他同级别聚集的横向比较得出。这种比较方式称为发现驱动的探查,主要是基于技术手段的统计分析得出。在实际数据挖掘的过程中,基于此种方法,通常对变换非常剧烈的点特别标识出来,称为异常点。异常点一般都包含了某些特殊因素存在,是非常有价值的点。

多特征的立方体查询类似于按照多种条件做统计,实际情况是非常类似的。数据立方体在某些约束条件下的分析也是一种极其类似于在一些限定条件下对某些数据使用聚集函数进行统计的情况。

7.面向属性的归纳

答:概念描述产生数据的特征化和比较描述。特征化提供给定数据汇集的简洁汇总,概念或类的比较提供两个或多个数据集的比较描述。面向属性龟年是一种概念描述方法,适用于复杂的数据类型并依赖数据驱动的泛化过程。面向属性归纳方法基本上是面向查询的、基于泛化的联机数据分析处理技术。

面向属性归纳的一般思想:先使用数据库查询收集任务相关的数据;然后通过考察任务相关数据集中每个属性的不同值个数进行泛化。这样可以缩减计算规模,加快处理速度。

数据立方体计算与数据泛化相关推荐

  1. 5.数据立方体计算与数据泛化

    1.两种不同类别的数据挖掘方法 描述性挖掘: 数据泛化 预测性挖掘:分类.回归分析 2.数据立方体的物化 3.数据立方体.闭立方体.立方体外壳和和计算策略搭档大裆..喜欢西幻 4.什么是概念描述 概念 ...

  2. 数据挖掘与数据仓库——数据仓库、 OLAP及数据立方体计算

    数据仓库. OLAP及数据立方体计算 什么是数据仓库 有多种但并不严格的定义 与操作数据库相隔离并单独维护的一个用来支持决策过程的数据库. 一个用来对整理过的历史数据进行分析以便支持信息处理的固定平台 ...

  3. R语言根据日历周期处理时间序列数据:计算时间序列数据的日对数逐次差分值、使用apply.monthly函数逐月计算日对数逐次差分值的标准差、根据调整的天数来计算年化波动率

    R语言根据日历周期处理时间序列数据:计算时间序列数据的日对数逐次差分值.使用apply.monthly函数逐月计算日对数逐次差分值的标准差.根据调整的天数来计算年化波动率 目录

  4. ERA5-Land hourly data数据直接计算出来数据量偏大,monthly单位等

    1. ERA5-Land hourly 单位及相关数据说明 我在计算长江流域年总降水的时候发现用ERA5-Land hourly data from 1950 to present计算出来的平均降水都 ...

  5. python中数据分组计算_python3数据聚合与分组运算(二)

    数据聚合 对于聚合,这里指的是任何能够从数组产生标量值的数据转换过程.之前的例子中已经用过一些,比如mean.count.min以及sum等.我们可能想知道在GroupBy对象上调用mean()时究竟 ...

  6. 数据立方体的基本计算

    数据立方体计算是数据仓库实现的一项基本任务.这里介绍几种计算方法 1.多路数组聚集计算法(multiway)(计算完全方体) (1)把数组划分成块,块是一个子立方体,它足够小可以放入立方体计算时所需的 ...

  7. 【数据挖掘笔记五】数据立方体技术

    5.数据立方体技术 数据仓库系统在各种粒度上为多维数据的交互分析提供OLAP工具,OLAP工具使用数据立方体和多维数据模型对汇总数据提供灵活的访问,因此重点要关注数据立方体的技术.数据立方体技术包括数 ...

  8. OLAP和数据立方体

    文章目录 数据仓库 多维数据模型 事实表和维表 数据立方体和OLAP OLAP的基本操作 维和立方 数据立方体实例 数据立方体物化 数据仓库 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决 ...

  9. buc算法java实现,数据挖掘概念与技术(hanjiawei)阅读笔记--第五章(数据立方体技术)...

    BUC 1.BUC(Botom-Up Construction)概念 从顶点方体向下计算冰山立方体 计算稀疏冰山立方体的算法 基于先验性质进行剪枝 ### 2.算法计算 例A(a1,a2,a3),B( ...

最新文章

  1. 快速了解Kubernetes微服务中的通信
  2. 直播 | 孙剑团队最新工作:用于物体检测的实例条件知识蒸馏 | NeurIPS 2021
  3. Thinkpad SL400 issue
  4. linux修改系统时间为北京时间(CentOS)
  5. spring事务模板使用
  6. 【PAT乙级】1074 宇宙无敌加法器 (20 分)
  7. DNN出错:The compiler failed with error code 1.
  8. JS中document和window的区别
  9. Hive的安装-Hive的交互方式
  10. 生成式模型和判别式模型(转)
  11. 有关 VS Code 的五大谣言,背后的真相到底是如何的?
  12. 接口测试--获取动态参数进阶
  13. flex textInput 限制输入
  14. express 项目文件目录说明及功能描述
  15. js代码错误监控代码
  16. tp3.2 find带参数查询及getField(两个参数)
  17. 开源自动化运维工具_批量与重复运维压力如何破?了解一下这款自动化运维工具...
  18. pdf免费在线解密方法(无需密码)
  19. mfc获取计算机的连接端口,[求助]请问socket编程里,服务器端用什么函数获取客户端的地址与端口...
  20. 火狐浏览器“正在检查您的附件组件与Firefox此版本的兼容性” -- 解决方案

热门文章

  1. 图论:BFS算法与DFS算法的C++实现
  2. 【无标题】graphsage--inductive representation learing on large graphs
  3. 19070 音响外放
  4. certbot工具部署letsencrypt证书
  5. wsus服务器不显示客户端,教你如何配置WSUS服务器客户端.pptx
  6. python split拆分字符串_Python字符串split學習一(自定義字符串拆分)
  7. DirectX12(D3D12)基础教程(二十一)—— PBR:IBL 的数学原理(1/5)
  8. 实习分享之腾讯一面(搬运工)
  9. 沉浸式三维虚拟展厅交互体验科技感十足
  10. 自动驾驶技术:机会与挑战