数据仓库与数据挖掘知识点梳理

一:数据挖掘

1:什么是数据挖掘

数据挖掘是从大量的数据中挖掘出隐含的未知的用户可能感兴趣的对决策有潜在价值的知识和规则。
----简单的说,数据挖掘就是从大量的数据中发现有用信息的过程

数据的丰富带来了对强有力的数据分析工具的需求:

解决办法:数据仓库技术和数据挖掘技术
数据仓库和联机分析处理技术(存储)
数据挖掘:在大量的数据中挖掘感兴趣的知识/规则/规律/模式/约束(分析)。

注意事项:

  1. 早期的数据库主要支持联机事务处理
  2. 数据仓库用于决策分析,并不是所谓的大型数据库。
    —数据仓库的数据是大量数据库的集成。
  3. 数据库用于事务处理,数据仓库用于决策分析

2:数据挖掘的功能

  1. 关联分析(描述):反映一个事件和其他事件之间依赖或关联的知识。
  2. 聚类分析(描述):物以类聚,人以群分
  3. 分类(预测):反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。
    ------注:聚类是一种无指导的观察式学习,没有预先定义的类;而分类问题是有指导的示例式学习,有预先定义的类。
  4. 孤立点分析(预测):
1.关联分析(描述) 反映一个事件和其他事件之间依赖或关联的知识
2.聚类分析(描述) 物以类聚,人以群分
3.分类(预测) 反映同类事物共同性质的特征型知识和不同事物之间的差
4.孤立点分析(预测) 对差异和极端特例的描述
数据库 事务型(操作型)数据处理
数据仓库 分析型数据处理
数据挖掘 知识发现

二:数据仓库

1:什么是数据仓库

数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术。
数据仓库之父:William H.Inmon
严格定义:
数据仓库是一个面向主题的集成的随时间而变化的不容易丢失的数据集合,支持管理部门的决策过程.—W.H.Inmon

2:数据仓库的作用

  1. 存储经过加工处理的决策需要的数据
  2. 查询和决策分析的依据

3:数据仓库的关键特征

  1. 面相主题的
    数据仓库中所有数据都是围绕某一主题组织、展开的
  2. 集成的
    一个数据仓库是通过集成多个异种数据源来构造的
  3. 不容易丢失的(非易失的)
    只进行两种数据访问:
    数据的初始装载;
    查询操作
  4. 随时间而变化的(时变的)
    从历史的角度提供信息

4:数据仓库与数据挖掘的区别

数据仓库:是一种存储技术,它能适应于不同用户提供对不同决策需要所需的数据和信息。
数据挖掘:是一种分析技术,研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。

注:数据仓库并不是数据挖掘的必要条件

三:数据立方体

数据仓库和OLAP工具是基于多维数据模型的。在多维数据模型中,数据以数据立方体(data cube)的形式存在。

  1. 尽管我们经常把数据立方体看作3-D几何结构,但实际上,在数据仓库中,数据立方体是n-D的
  2. 3-D的数据立方体可以以2-D的数据表的序列表示

1.概念分层

  1. 单个维度的角度考察
  2. 在数据仓库中,一个概念分层(concept hierarchy)定义一个映射序列,将低层概念映射到更一般的高层概念。
  3. 对于一个给定的属性或维,根据不同的用户视图,可能有多个概念层次:如,表示location的概念:城市省份国家洲;

2.方体的格

  1. 给定一个维的集合,将在不同汇总级别上给出的数据立方体称为方体的格。
  2. 每个方体的格都在不同的汇总级或不同的数据子集显示数据。
  3. 0维方体存放最高层的汇总,称作顶点方体(如总销售dollars-sold);而存放最底层汇总的方体则称为基本方体(如图2所示的4维基本方体) 。

3.数据仓库的三级模型

(1)概念模型:
从客观世界到主观认识的映射;
首先将现实世界抽象为概念模型,然后再用适合计算机世界的模型和语言来描述。
(2)逻辑模型:
逻辑模型描述了数据仓库主题的逻辑实现.
(3)物理模型
逻辑模型在数据仓库中的实现,如数据存储结构、存储策略、索引策略、存储分配优化等。

一:概念模型

  1. 数据仓库用“信息包图”表示概念模型。
  2. 一个信息包图生成一个事实表。
  3. 度量表示事实与指标。

二:逻辑模型

  1. 是数据仓库数据模型的第二层;
  2. 通常有三种逻辑模型表示法:
    星型模型:事实表在中心,周围围绕地连接着维表(每维一个)。
    ------(一个事实表)
    雪花模型:是星型模型的变种。
    --------(一个事实表)
    事实星座模型:复杂的应用(如多主题的数据仓库)可能需要多个事实表共享维表。
    --------(针对两个会两个以上的数据仓库)

几个基本概念:
维和维表:

  1. 维:关于一个组织想要记录的视角或观点。
  2. 维表:每个维都有一个表与之相关联

事实和事实表:

  1. 事实:指的是一些数字度量
  2. 事实表:包括事实的名称或度量,以及每个相关维表的关键字。

三:物理模型
是逻辑模型在数据仓库中的实现;
主要进行:数据存储结构、存储策略、索引策略、存储分配优化等工作。

有两种常见的存储结构:
1)分布式存储;
2)集中式存储。

四:OLAP

1. OLAP的基本概念?

定义:联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。

60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展。
多维数据库和多维分析的概念,即OLAP

2.OLAP与OLTP

OLTP :是传统的关系型数据库的主要应用,包括记录实时的增、删、改、查,主要是面向基本的、日常的事务处理
OLAP:是数据仓库的主要应用,支持复杂的分析操作,侧重决策支持

3.OLAP的特性

1.快速性 :用户对OLAP的快速反应能力有很高的要求。
2.可分析性 :OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
3.多维性 :系统必须提供对数据的多维视图和分析。
4.信息性 :OLAP系统应能及时获得信息,并且管理大容量信息。

4.OLAP的分析方法

  1. 切片(Slice)
    从多维数组选定一个二维子集,切出一个“平面”
  2. 切块(Dice)
    从多维数组选定一个三维子集,切出一个“立方体”
  3. 旋转(Rotate)
    改变一个报告(或页面)显示的维方向
  4. 钻取(Drill)
    根据维层次,改变数据的粒度,在单个维上进行

基本概念:

维:是人们观察数据的特定角度,是考察问题时的一类属性,属性集合构成一个维(时间维、地理维等)。
维的层次:人们观察数据的某个特定角度(即某个维),还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。
维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)
多维数组:维和变量的组合表示。一个多维数组可以表示为(维1,维2,…,维n,变量)。(时间,地区,产品,销售额)
数据单元(单元格):多维数组的取值。(2000年1月,上海,笔记本电脑,¥10000)

五:数据预处理

1.脏数据分类:

  1. 杂乱性:如命名规则的不同
  2. 重复性:同一客观事物在数据库中存在两个以上相同的物理描述。
  3. 不完整性:由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定。
  4. 噪声数据:数据中存在着错误或异常(偏离期望值)

2.数据预处理的常见方法

  1. 数据清理(清洗)
    ----去掉数据中的噪声,纠正不一致
  2. 数据集成
    -----将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。
  3. 数据变换(转换)
    -----将一种格式的数据转换为另一格式的数据(如规范化)
  4. 数据归约(消减)
    ----通过聚集、删除冗余属性或聚类等方法来压缩数据。

2.1数据清理

2.1.1空缺值的处理

1)忽略该元组
2)人工填写空缺值
3)使用属性的平均值填充空缺值
4)使用与给定元组属同一类的所有样本的平均值
5)使用一个全局变量填充空缺值
6)使用最可能的值填充空缺值

2.1.2噪声数据的处理

1)分箱方法

  1. 先排序,再分箱
  2. 等深分箱
  3. 等宽分箱
  4. 可以按箱的平均值、按箱中值或者按箱的边界等进行平滑。

2)聚类方法

  1. 通过聚类分析查找孤立点,消除噪声

3)线性回归

  1. 发现两个相关的变量之间的变化模式,利用回归分析方法所获得的拟合函数,帮助平滑数据及除去噪声。

4)人机结合共同检测

  1. 计算机检测可疑数据,然后对它们进行人工判断
2.1.3不一致数据的处理
  1. 人工更正
  2. 利用知识工程工具
  3. 数据字典

2.2数据集成和变换

2.2.1数据集成

数据集成
将多个数据源中的数据整合到一个一致的存储中。
这些源可以是关系型数据库、数据立方体或一般文件。
它需要统一原始数据中的所有矛盾之处,如字段的:

  1. 同名异义;
  2. 异名同义;
  3. 单位不统一;
  4. 字长不一致等。

注意问题:

  1. 模式匹配问题;
  2. 冗余问题;
  3. 数据值冲突问题。
2.2.2数据变换

平滑处理:从数据中消除噪声;
聚集操作:对数据进行综合;
数据规范化:将数据转换到一个较小的范围之内;

2.2.2.1规范化方法
  1. 最小-最大规范化;
  2. 零-均值规范化(z-score规范化);
  3. 小数定标规范化。
2.2.2.1 最小—最大规范化

假定minA和maxA分别为属性A的最小和最大值,则通过下面公式将A的值映射到区间[new_min, new_max]中的v’:

假定属性income的最小与最大值分别为$12000和$98000,可根据最小—最大规范化方法将其范围映射到[0,1]:
如:
属性值$73600将变换为:
[(73600-12000)/(98000-12000)]*(1-0)+0=0.716

2.2.2.2 z-score规范化(零均值规范化)

将属性A的值根据其平均值和标准差进行规范化;
常用于属性最大值与最小值未知,或使用最小最大规范化方法会出现异常数据的情况。


其中,meanA、standard-devA分别为属性A取值的均值和标准差。
例:
假定属性income的平均值与标准差分别为$54000和$16000,使用z-score规范化,则属性值$73600将变换为:
(73600-54000)/16000=1.225

2.2.2.3 小数定标规范化

通过移动属性A的小数点位置进行规范化,小数点的移动依赖于A的最大绝对值

其中,j是使 Max(| v’ |)<1的最小整数
例:
假定A的取值范围[-986, 917],则A的最大绝对值为986,为使用小数定标规范化,用1000(即j=3)除每个值,这样-986被规范化为-0.986。

2.2.3数据规约
  1. 数据立方体聚集;
  2. 维归约;
    主要用于检测并删除不相关、弱相关或冗余的属性维
    最常用的方法:属性子集选择。
    1)逐步向前选择 (选好的)
    2)逐步向后删除(删差的)
    3)向前选择和向后删除的结合(1+2)
    4)判定树归纳
    在判定树的每个节点,算法选择“最好”的属性,将数据划分成类。
    当判定树归纳用于属性子集选择时,不出现在树中的所有属性假定是不相关的;出现在判定树中的属性形成归约后的属性子集。
  3. 数据离散化。
    标称型(名称型、名义型):数值来自于无序集合,如性别、地名、人名等。
    序数型:数值来自于有序集合,如奖学金的等级;职称分布等。
    连续型:实数值,如温度、体重等。
2.2.3.1离散化方法

1)分箱:属性的值可以通过将其分配到各分箱中而将其离散化。
利用每个分箱的均值或中数替换每个分箱中的值(利用均值或中数进行平滑)。
2)基于熵的离散化:通过信息熵度量,实现离散化
3)通过自然划分分段:3-4-5自然划分分段法
4)聚类:聚类算法可以将数据集划分为若干类或组,每个类构成概念层次树的一个节点;每个类还可以进一步分解为若干子类,从而构成更低水平的层次。

2.2.3.2基于熵的离散化

考虑类别信息,递归计算信息熵,产生分层的离散化。

初始不确定性:

I(S)=

给定一个数据元组的集合S,基于熵对S离散化的方法如下:
1)属性A中的每个取值可被认为是一个潜在的区间边界或阈值T。例如,A的取值v可以将样本S划分为分别满足A<v和A≥v两个子集,这样就创建了一个二元离散化。
2)对于数据集S,根据所划分子集而获得的最大熵增益来选择阈值,划分后数据集S提供的信息如下:

学习属性A之后的不确定性:

E(A)=

其中S1和S2分别对应于S中满足条件:A<T与A≥T,的样本。对给定的集合,熵函数Ent根据集合中样本的类分布来计算。例如,给定m个不同类别,S1的熵就是:

其中pi为类i在S1中出现的概率,等于S1中类i的样本除以S1中样本的总行数。同理,计算Ent(S2)。
3)确定阈值的过程递归的用于所得到的每个划分,直到满足某个终止条件,如:

信息增益不能低于δ:

Ent(S)-I(S,T) ≤δ

2.2.3.3自然划分分段

将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。
聚类分析产生的概念分层可能会将一个工资区间划分为:[51263.98, 60872.34]
而通常数据分析人员希望看到划分的形式为[50000,60000]
自然划分的3-4-5规则常可以将数值数据划分为相对一致和“自然”的区间。一般的,根据最重要的数字上的值区域,递归的和逐层的将给定的数据区域划分为3、4或5个等宽区间。
规则的划分步骤:
如果一个区间最高有效位上跨越3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(7->2,3,2)
如果一个区间最高有效位上跨越2,4,或8个不同的值,就将该区间划分为4个等宽子区间;
如果一个区间最高有效位上跨越1,5,或10个不同的值,就将该区间划分为5个等宽子区间;
将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;
规则的划分步骤:
对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95%
例如,在资产数据集中,少数人的资产可能比其他人高几个数量级。如果按照最高资产值进行分段,可能导致高度倾斜的分层。此时,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95%。
越出顶层分段的特别高和特别低的部分采用类似的规则划分方法形成单独的区间。
假定AllElectronics所有分部1999年的利润覆盖了一个很宽的区间,从-351.00$ 到4700$。要求利用3-4-5规则自动构造利润属性的一个概念层次树。

例子:

思路:
设在上述范围取值为5%至95%的区间为:-159$ 至1838$ 。应用3-4-5规则的具体步骤如下:
1)根据以上信息,在利润数据集中最小和最大值分别为:MIN=-351$ , MAX=4700$ 。而根据以上分析,对于分段的顶层或第一层,要考虑的最低(5%)和最高(95%)的值是:LOW=-159$ , HIGH=1838$ 。
2)依据LOW和HIGH及其取值范围,确定最高有效位为1000$ ,LOW按1000$ 美元向下取整 ,得到LOW’=-1000$ ; HIGH按1000$ 向上取整,得到:HIGH’=2000$ 。
3)由于该区间在最高有效位上跨越了3个值,即(2000-(-1000))/1000=3,根据3-4-5规则,该区间被划分成3个等宽区间:(-1000$ ,0], (0, 1000$ ], (1000$ ,2000$ ]。这代表分层结构的最顶层。
4)现在,考察原数据集中MIN和MAX值与最高层区间的联系。由于MIN值落在区间(-1000$ ,0],因此调整左边界,对MIN取整后的-400$ ,所以第一个区间调整为(-400$ ,0]。
而由于MAX值不在最后一个区间 (1000$ ,2000$ ]中,因此需新建一个区间(最右边区间)。对MAX取整后得5000$ ,因此新区间为(2000$ ,5000]。
因此最终,概念树分层结构的最顶层包含4个区间:(-400$ ,0], (0,1000$ ],(1000$ ,2000$ ], (2000$ ,5000$ ]。
5)对上述每个区间递归应用3-4-5规则,形成分层结构的下一个较低层:
第一个区间(-400$ ,0]:划分为4个子区间(-400$ ,-300$ ], (-300$ ,-200$ ], (-200$ ,-100$ ] , (-100$ ,0$ ].
第二个区间(0$ ,1000$ ]:划分为5个子区间(0$ ,200$ ], (200$ ,400$ ], 400$ ,600$ ], (600$ ,800$ ], (800$ ,1000$ ].
第三个区间(1000$ ,2000$ ]:划分为5个子区间(1000$ ,1200$ ], (1200$ ,1400$ ], 1400$ ,1600$ ], (1600$ ,1800$ ], (1800$ ,2000$ ].
第四个区间(2000$ ,5000$ ] :划分为3个子区间(2000$ ,3000$ ], (3000$ ,4000$ ], (4000$ ,5000$]。
类似的,如有必要,3-4-5规则可继续在较低的层次上迭代。

数据仓库与数据挖掘知识点梳理相关推荐

  1. 【数据库系统工程师】6.4数据仓库和数据挖掘基础知识

    目录 一.思维导图 二.知识点 1.数据仓库 (1)数据仓库与数据库比较 (2)数据仓库的基本特性 (3)数据仓库的数据模式 (4)数据仓库体系结构 2.数据挖掘 (1)数据挖掘分类 (2)数据挖掘常 ...

  2. 计算机三级数据库数据仓库与数据挖掘(一)、快照方式、元数据、数据仓库中数据特征、机器学习、聚类方法、分类算法、决策支持系统、表数据的粒度级、分布式数据库、

    1.在建立数据仓库的数据集成工作中,需要采用适当的策略从数据源获取变化数据.下列数据表中,一般情况下不适宜采用快照方式从业务系统获取数据的是 A.门店表.销售人员表 B.商品清单.商品类别表 C.顾客 ...

  3. Python培训教程之Python基础知识点梳理

    Python语言是入门IT行业比较快速且简单的一门编程语言,学习Python语言不仅有着非常大的发展空间,还可以有一个非常好的工作,下面小编就来给大家分享一篇Python培训教程之Python基础知识 ...

  4. SQL重要知识点梳理!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:牧小熊,华中农业大学,Datawhale成员 有读者留言面试有点虚 ...

  5. 数据仓库与数据挖掘的一些基本概念

    下面内容摘自互联网并作了整理. 名词: BI(Business Intelligence):商业智能, DW(Data Warehouse):数据仓库,详见正文Q1部分. OLTP(On-Line T ...

  6. 四年级下册英语计算机房和教师办公室的图片,PEP英语四年级下册-Unit-1思维导图及知识点梳理.pptx...

    PEP英语四年级下册-Unit-1思维导图及知识点梳理.pptx (12页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 19.90 积分 四年级 下册 U ...

  7. 【数据分析】数据分析基础:SQL重要知识点梳理!

    作者:牧小熊,华中农业大学,Datawhale成员 有读者留言面试有点虚,数据库都忘的差不多了,与其临时抱佛脚,不如我们把MySQL的知识点梳理一遍,心中有知识点,面试不慌. 数据库的话我只对MySQ ...

  8. Python教程:Python基础知识点梳理!

    Python语言是入门IT行业比较快速且简单的一门编程语言,学习Python语言不仅有着非常大的发展空间,还可以有一个非常好的工作,下面小千就来给大家分享一篇Python基础知识点梳理. 1.Pyth ...

  9. Python教程分享之Python基础知识点梳理

    Python语言是入门IT行业比较快速且简单的一门编程语言,学习Python语言不仅有着非常大的发展空间,还可以有一个非常好的工作,下面小千就来给大家分享一篇Python基础知识点梳理. Python ...

  10. 常用的机器学习数据挖掘知识点【转】

    转自: [基础]常用的机器学习&数据挖掘知识点 Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Le ...

最新文章

  1. pytorch BiLSTM+CRF代码详解 重点
  2. 2020年人工神经网络第二次作业-参考答案第四题
  3. 设计模式--观察者(Observer)模式
  4. C - Internet Address CodeForces - 245B(有些思维的水题)
  5. mac启动mysql,apache,php
  6. 删除VisaulStudio2010产生的垃圾
  7. 20175333曹雅坤实验四《Android程序设计》实验报告
  8. 华视读卡器多浏览器插件_翻遍Chrome商店,这9款插件值得安装
  9. 黑科技!两行代码完美解决:同时设置overflow-x:hidden,overflow-y:visible无效的问题...
  10. 文章之间的基本总结Activity生命周期
  11. dockerhub 拉取地址_使用docker,进行dockerhub仓库上传镜像,拉取镜像。
  12. Linux Vsftpd 连接超时解决方法(被动模式)
  13. 苹果或弃用Java 称Java已经过时
  14. oracle访问syno,[Oracle]同义词(synonym)
  15. mosquitto无法连接
  16. 骇客(Hacker)用语
  17. elementUI的 tree搜索过滤,可识别拼音,且不区分大小写
  18. 电脑如何设置定时任务、定时执行 —— 不用Windows任务计划程序,也能轻松设定计划任务、定时任务 —— 定时执行专家
  19. LinkedList一定比ArrayList的插入和删除效率高吗
  20. oracle 查询数据的结果集导出

热门文章

  1. SVN Server修改端口与SVN修改版本库URL
  2. 用计算机模拟宇宙,科学家尝试利用计算机模拟整个宇宙的演化
  3. 通用PHM集成开发环境PIDE
  4. 实时全局光照Screen Space Reflection (SSR)
  5. python爬虫100个入门项目
  6. 20220521 将plecs输出的电路图转换为黑线白底
  7. 操作系统Clock算法
  8. 【oracle】中文数字转阿拉伯数字
  9. 海康威视摄像机SDK二次开发-JavaDemo环境搭建详解
  10. 汽车车载诊断基础知识