数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记
数据仓库与数据挖掘的OLAP技术
1.数据仓库
Ø 概念:数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.
Ø 关键特征:
v 面向主题:围绕一些主题;关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理(这是数据库的任务)。排除对于决策无用的数据,提供特定主题的简明视图。
v 数据集成:由异种数据源(关系数据库,一般文件,联机事务处理记录)集成构成的;使用数据清理和数据集成技术。
v 随时间而变化:数据仓库的时间范围比操作数据库要长的多,每一个关键结构都隐式或显式地包含时间元素。
v 数据不易丢失:数据是只读的(除了初始转载),不需要事务处理,恢复,和并发控制。
Ø 建立数据仓库
数据集成,数据清理和数据统一
对于异种数据库的集成,传统的数据库做法:包装程序和集成程序 --》查询驱动
数据仓库做法:异种源的信息预先集成 --》更新驱动
Ø 操作数据库系统(OLTP)与数据数据仓库(OLAP)的区别
特征 |
OLTP |
OLAP |
用户和系统的面向性 |
顾客 |
市场 |
数据内容 |
当前详细的数据 |
历史汇总的数据 |
数据库设计 |
ER模型,面向应用的数据库设计 |
星型。雪花模型和面向主题的数据库设计 |
视图 |
当前的,企业内部的数据 |
经过演化的集成的数据 |
访问模式 |
事务操作 |
事务查询 |
任务单位 |
简短的事务 |
复杂的查询 |
数据访问量 |
数十个 |
数百万条 |
用户数 |
数千个 |
数百个 |
DB规模 |
100M-数GB |
100GB-数TB |
优先性 |
高性能,高可用性 |
高灵活,端点用户自治 |
度量 |
事务吞吐量 |
查询吞吐量,响应时间 |
Ø 数据仓库的存在价值
v 提高两个系统的性能:操作数据库是为已知的任务和负载设计的,数据仓库涉及大量数据在汇总级的计算,在操作数据库上处理OLAP查询,可能大大降低操作人物的性能。
v 系统中数据的结构,内容和用法都不相同:操作数据库只维护详细的原始数据,而数据仓库将一种源的数据统一,产生高质量的,纯净的和集成的数据用于决策
2.多维数据模型
Ø 基本概念:
v 数据方:允许以多维数据建模和观察,由维和事实定义
v 维:记录的视角或视点,每个维都有一个表与之相关联,称为维表。
v 事实表:包括事实的名称或度量以及每个相关维表的关键字。
Ø 数据库模式:
v 星型模型:一个大的事实表+一组小的维表
v 雪花模型:对星型模型的维表进行规范化,减少冗余
v 事实星座:多个事实表共享维表
Ø 数据集市
数据仓库搜集了关于整个组织的主题信息,是企业范围的,采用事实星座模式
数据集市是数据仓库的一个部门子集,针对选定主题,是部门范围的,采用星型模式
Ø 数据挖掘查询语言(DMQL)
v 原语定义:
立方体定义 (事实表)
define cube <cube_name> [<dimension_list>]:
<measure_list>
维定义 (维表)
define dimension <dimension_name> as (<attribute_or_subdimension_list>)
v 实例(图2.6事实星座模式用DMQL定义)
Ø 度量
v 概念:数据方的度量是一个数值函数,该函数可以对数据方的每一个点求值,通过对给定的各维-值对聚集数据,计算该店的度量值。
v 分类
² 分布的:将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的结果一样,则该函数可以用分布方式计算。如,count(),min(), max(), sum()
² 代数的:能够由一个具有M个参数的代数函数计算,而每个参数都可以用一个分布聚集函数求得。如,avg(),max()
² 整体的:不存在一个具有M个(其中,M是常数)参数的代数函数进行这一计算。如,rank(),median()
Ø 概念分层
定义一个映射序列,将底层概念到更一般的高层概念
v 模式分层
v 集合分组分层
Ø OLAP操作
v 上卷:沿概念分层向上攀升,或维规约
v 下钻:沿概念分层向下,或引入新的维
v 切片和切换:在给定的数据方的一个维进行选择,导致一个子方
v 转轴(旋转):转动数据的视角,提供数据的替代表示
3.数据仓库的系统结构
Ø 三层数据仓库结构:
顶层:客户(查询/报告工具,分析工具,数据挖掘工具)
中间层:OLAP服务器(ROLAP,MOLAP)
底层:数据仓库服务器
Ø 数据仓库模型
v 企业仓库:收集关于主题的所有信息,跨越整个组织
v 数据集市:数据集市包含企业范围数据的一个子集,范围限于选定主题
v 虚拟仓库:操作数据库在视图上的集合
Ø OLAP服务器类型
v ROLAP:中间服务器,介于关系后端服务器和用户前端工具之间,使用关系或拓充关系DBMS存放并管理数据仓库,而OLAP中间件支持其余部分。
v MOLAP:基于数组的多维存储引擎,支持数据的多维视图,将多维视图直接映射到数据方数组结构,
v HOLAP:较大的可规模性的ROLAP+快速运算的MOLAP
v 特殊的SQL服务器
4.数据仓库的实现
Ø 数据方的有效计算
v 一个n维数据方的方体,
若每个维都没有分层,则方体总数为:2^n
若每个维不止一层,则方体总数是
v 部分物化:方体选择计算
v 多路数组聚集(例2.12)
Ø 索引OLAP数据
位图索引,连接索引,复合连接索引
Ø 元数据
v 数据仓库存储的描述:仓库模式,视图,维,层次结构,导出数据的定义等
v 操作元数据
v 数据仓库结构
v 汇总用的算法
v 由操作环境到数据仓库的映射
v 关于系统性能的数据
v 商务元数据
Ø 数据仓库后端工具和实用数据
v 数据提取
v 数据清理
v 数据变换
v 装入
v 刷新
5.数据方技术的进一步发展
Ø 发现驱动的探查
预计算的度量指出数据例外,在所有的聚集级指导用户的数据分析过程,我们称这种度量为例外指示符。例外是一个数据方单元值,基于某种统计模型,它显著地不同于预计值。
6.由数据仓库到数据挖掘
Ø 数据仓库的运用:
v 信息处理:基本查询和基本的统计分析
v 分析处理:支持基本的OLAP操作
v 数据挖掘:找出隐藏的模式和关联,构造分析模型,进行分类和预测
Ø 数据挖掘,信息处理,联机数据分析
v 信息处理基于查询,可以发现有用的信息,直接反映存放在数据库中的信息,或通过聚集函数可计算的信息;
v OLAP是数据汇总,聚集工具,帮助简化数据分析;
v 数据挖掘是自动发现隐藏在大量数据中的隐含模式和有趣只是。
数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记相关推荐
- 访韩家炜教授记录(部分)
我之前了解了一下,龙星计划今年是第四届了是吧?是2002年开始第一届的吧? 对,对 您第一年的时候就会来讲学了是吗? 对,第一年我是在北大,也是和这个安排差不多,在北大讲了一个星期的课,但是那次时间比 ...
- 历史上华人计算机科学家,郑州大学韩家炜、张宏江两位校友在世界顶尖计算机科学家排名中再度名列华人科学家和中国大陆科学家之首...
近日,Guide2Research网站公布了2021年世界顶尖1000名计算机科学家排名.继上一年度之后,郑州大学继续有2位校友进入榜单.其中,78级校友韩家炜再度位居华人科学家之首,综合排名世界第4 ...
- 微软、UIUC韩家炜组联合出品:少样本NER最新综述
©PaperWeekly 原创 · 作者 | 蔡杰 单位 | 北京大学硕士生 研究方向 | QA 当前的机器学习和深度学习模型都需要大量的标注数据来进行训练,以达到一个较好的效果.但是在带 label ...
- 【第17章】网络安全应急响应技术原理与应用( 软考: 信息安全工程师) --学习笔记
第17章 网络安全应急响应技术原理与应用 17.1 网络安全应急响应概述 居安思危,思则有备,有备无患.网络安全应急响应是针对潜在发生的网络安全事件而采取的网络安全措施. 17.1.1 网络安全应急响 ...
- 技术04期:关于神经网络的概念及技术领域
导读 一般而言,我们可以把神经网络分为前馈网络.递归网络和反馈网络.前馈网络一般指前馈神经网络或前馈型神经网络.它是一种最简单的神经网络,各神经元分层排列.每个神经元只与前一层的神经元相连.接收前一层 ...
- 数据挖掘学习笔记(一)
1 引论 1.1 为什么进行数据挖掘 1.1.1 迈向信息时代 数据挖掘把大型数据集转换成知识,帮助我们应对当代的全球性挑战. 1.1.2 数 ...
- (*长期更新)软考网络工程师学习笔记——Section 17 交换技术原理
目录 前言 一.交换机概述 (一)冲突域与广播域 1.冲突域 2.广播域 (二)交换机的基本概念 (三)交换机的分类 1.按管理划分 2.按工作层次划分 3.按网络拓扑结构划分 4.按交换机的交换方式 ...
- Apollo星火计划学习笔记——Apollo决策规划技术详解及实现(以交通灯场景检测为例)
文章目录 前言 1. Apollo决策技术详解 1.1 Planing模块运行机制 1.2 Apollo决策功能的设计与实现 1.2.1参考路径 Reference Line 1.2.2 交规决策 T ...
- 维基百科上—数据仓库、数据挖掘、OLAP三者之间的区别
数据仓库可以作为数据挖掘和OLAP等分析工具的资料来源,由于存放于数据仓库中的资料,必需经过筛选与转换,因此可以避免分析工具使用错误的资料,而得到不正确的分析结果. 数据挖掘和OLAP同为分析工具,其 ...
- 数据挖掘 概念与技术(原书第3版)
<数据挖掘:概念与技术(原书第3版)>完整全面地讲述数据挖掘的概念.方法.技术和全新研究进展.本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理.频繁模式挖掘. ...
最新文章
- 一文让你轻松了解 JAVA 开发中的四种加密方法
- NSArray 与 NSMutableArray 的排序
- mac笔记本修改 mysql 的密码
- 升级浏览器_升级Unity 8,优化系统组件,添加键盘手势,升级浏览器,UbuntuTouch最大的一次更新
- mybatis sql linux,通用mapper生成sql及mybatis使用过程
- Linux命令解释之groupadd,groupdel,groupmod,groupmems
- HTTP网络协议四:HTTP报文及报文字段说明
- Opencv实现身份证OCR识别
- matlab波浪号怎么打,数学中字母上面波浪号 波浪号怎么打到上面
- python携程怎么做数据同步_利用python yielding创建协程将异步编程同步化
- 角点检测 c语言 棋盘格,一种棋盘格角点全自动检测方法与流程
- 教你用Python语音合成,以及文字转语音~
- 16bit的pcm双声道转单声道
- [刷题]leetcode\704_二分查找
- web测试中的测试点和测试方法总结
- 人月神话(一)The Mythical Man-Month
- 欧几里得算法(除法表达式)
- Java实现经典算法
- Linux基本命令的使用(一)
- 计算机主板设计与应用说明,详细说明计算机主板各部分的功能(附图)
热门文章
- 云计算服务器搭建教程,如何搭建云计算平台_搭建云计算平台步骤
- 大学计算机基础操作教程文本框,大学计算机基础教程及实训指导教学课件 薛晓萍 第六部分 演示文稿制作软件PowerPoint 2003.ppt...
- 计算机常用软件工具试题,常用工具软件》模拟试题及答案
- (翻译)禁用按钮不应变灰的原因
- 实战-Android开机时间优化
- 火狐扩展教程_Firefox扩展模板
- 2021年葡萄酒酿造及葡萄酒产业发展研究报告
- Python正则表达式(一看就懂)
- 算法竞赛入门经典 排列
- [2022年大学生创新创业训练计划项目立项申报]