数据挖掘（NUFE理论版）

写在前面：此课程不涉及任何代码，导论性理论性课程，仅用来cgd老师的期末复习

数据挖掘第一章

知识发现的步骤
数据挖掘涉及多学科的原因
①数据海量，用相关学科知识提取有用的，并筛选正确的
②高维高复杂性，衡量一个实体需要用多个属性，多重属性对应多维，需要数学等知识对矩阵降维运算
③新的高级应用的诞生

数据挖掘第二章

属性划分
定性属性：
标称属性：一般是事物名称，中心趋势度量一般为众数
二元属性：分为0-1两类值
对称，两种状态具有同等价值带有相同权重
非对称，状态结果不是同等重要的，1一般是重要的（稀有的）结果
序数属性：值之间彼此有序但是相差多少不知道，可以用中位数和众数表示中心趋势。
定量属性：
区间标度数值属性：量化不同值的差，没有倍数关系和真正的0点
比率标度数值属性：具有固定零的概念
离散属性：有限个数值或者无限可数个值（每个值可以与自然数一一对应）
连续属性：不是离散的即连续的
基本统计描述（可用于数据清洗）：
中心趋势度量：值大部分落在哪里，找数据中心

中心趋势度量和散布度量是基本数据描述，图形统计显示包括分位数图，直方图和散点图

均值：最常用且有效的数值度量，加权就是增加每个值对应的权重反应对应值的出现频率或者重要性。

容易受离群值影响，这时候有截尾均值去掉最高或最低两部分一定百分比的数值。

中位数：倾斜或者非对称数据的更好度量，把数据值高的一半和低的一半分开

众数：定性或定量属性集合中出现最频繁的值。

一个众数是单峰。二个，三个众数是双峰，三峰，具有众多众数的集合是多峰的

中列数：数据最小值和最大值的平均值

完全对称的数据，均值、中位数、众数相同且都是中心值；不对称数据，众数小于中位数，叫正倾斜，此时均值大于中位数大于众数。众数出现在大于中位数位置上，负倾斜数据，此时均值小于中位数小于众数。

数据的散布：数据如何分散，识别离群点
极差：最大值和最小值之差
1）盒图（属性X的数据按递增序排列），可在 O （ n l o g n ) O（nlogn) O（nlogn)时间计算：
给定数据分布第k个 q-分位数是值x,使得小于x的数据值最多为k/q
百分位数：把数据分布划分成100个大小相等的连贯集
四分位数：三个四分位数把分布划分成四个相等的部分，Q1为第一个四分位数，是第25个百分位数，中位数即第二个四分位数，第三个四分位数Q3是数据的75%，四分位数极差（IQR) = Q3- Q1
离群点：落在（Q1 - 1.5IQR, Q3 + 1.5IQR) 之外的值
2）方差与标准差：这里就是总体的计算方法

基本图形显示：
分位数图：横坐标是按照下列公式的i根据X的递增排列后x1,x2一直到xn的下标1～n一一对应的f，纵坐标是X值

分位数-分位数图：表示从一个分布到另一个分布是否有偏移，x与y分别是分布对应的数值，排列是按照cnt(x)=cnt(y)时，上述x与y分别排序后的fi来画。
直方图：标称数据叫做条形图，数值数据叫做直方图，纵坐标就是对应单变量或者单变量区间的频率(计数)

相异性和相似性此消彼长，共同称为邻近性

标称数据的相异性计算(用属性的不匹配率刻画)
两对象状态不同的属性数(p-m)占相同刻画对象的属性总数p比(也可以付给状态多的属性更重的权值增加m影响)

二元属性的相异性计算（标称属性也可以通过规定一个状态为1，非该状态0来转换，也可以用不匹配率）：
1）选择对称二元相异性还是非对称二元相异性，根据相依表，属性同0同1相异军突起
2）对称公式：
cnt_ i(0)j(1) 表示第一个对象二元属性的值为0，第二个对象二元属性的值为1，
相异
d ( i , j ) = ( c n t i ( 0 ) j ( 1 ) + c n t i ( 1 ) j ( 0 ) ) / ( c n t i ( 0 ) j ( 1 ) + c n t i ( 1 ) j ( 0 ) + c n t i ( 1 ) j ( 1 ) + c n t i ( 0 ) j ( 0 ) ) d(i,j) =(cnt_ i(0)j(1) + cnt_ i(1)j(0))/ (cnt_ i(0)j(1) + cnt_i(1)j(0)+cnt_ i(1)j(1) + cnt_ i(0)j(0)) d(i,j)=(cnti(0)j(1)+cnti(1)j(0))/(cnti(0)j(1)+cnti(1)j(0)+cnti(1)j(1)+cnti(0)j(0))
对称公式(同0删去）：
d ( i , j ) = ( c n t i ( 0 ) j ( 1 ) + c n t i ( 1 ) j ( 0 ) ) / ( c n t i ( 0 ) j ( 1 ) + c n t i ( 1 ) j ( 0 ) + c n t i ( 1 ) j ( 1 ) ) d(i,j) =(cnt_ i(0)j(1) + cnt_ i(1)j(0))/ (cnt_ i(0)j(1) + cnt_ i(1)j(0)+cnt_ i(1)j(1)) d(i,j)=(cnti(0)j(1)+cnti(1)j(0))/(cnti(0)j(1)+cnti(1)j(0)+cnti(1)j(1))

数值属性相异性（距离）：

可视化的方法：
基于像素的可视化
基于几何投影的可视化(多维)
基于图符的可视化
层次化可视化
可视化对象与关系

数据挖掘第三章

衡量数据质量：
数据本身：准确性、完整性、一致性。
一个数据源的数据是否完整，完整了里面的数据是否准确能反映正确情况，多个数据源的相同数据是否一致。
对操作者：时效性。
在一个时间点数据可能因为没有及时更新是错的，但是更新过后的时间点就是正确的。
对用户：可解释性、可信性
可解释性反应数据是否容易理解，可信性说明解释以后有多少用户信任数据。

数据预处理：
数据清理：光滑噪声数据，纠正离群值

空值处理方法：
1）忽略元组：元组有多个缺失值且每个属性缺失值百分比变化不大，直接删
2）人工填写缺失值：数据集不是很大且没有很多缺失值，手动补缺
预测有偏填充：
3）全局常量补缺：所有缺失属性值都用同一个如Unknow的常量填充，不可靠。
4）直接中心度量填充：在没有类的概念的前提下，对一个属性，对称的数据分布使用均值，倾斜数据使用中位数代替缺失值
5）给定元组所有样本均值或中位数填充：缺失数据的元组首先有确定的类，用同类的中心度量填充。
6）使用最可能的值：对于给定元组的信息X，回归计算Y或者贝叶斯/决策树预测得到Y

噪声数据处理方法：
1）将数据化为等频的箱（每个箱包含的数的数量都相同），用每个箱的均值/中位数/箱边界（两端极大和极小值固定为箱边界，每个值替换为最近的边界值）代替箱中的每个值，分别叫做用箱均值光滑/用箱中位数光滑/用箱边界光滑
2）回归：用一个函数拟合数据。
3）离群点分析：聚类检测离群点。

数据集成：多个数据源合并成一致的数据存储。
实体识别：匹配来自多个信息源的等价实体。我们把相关的视为等价实体。
两个标称属性的卡方相关检验
1）属性A有c个不同的值a1,a2,…,ac，属性B有r个不同的值记b1,b2,…,br。A属性的所有值做列，B属性的所有值做行构成相依表。
2）单元(i,j)是A属性取值ai，B属性取值bj时的观测频度（实际计数）oij,eij是期望频度，eij =（A属性取ai的所有计数×B属性取bj的所有计数）/ n,我的理解是理想中所有的ai或是bj都是用来组成单元（i，j)的，此时为了统一单位要除以n。

3）将每个单元的（oij - eij)^2 / eij相加得到卡方值。
注：这里假设A和B相互独立，具有自由度(r - 1) ×(c - 1）
具体公式：

数值数据的相关系数衡量相关性（这里都是概率论里样本的相关系数计算方法）：

有属性A和属性B及对应的值。
协方差：对应位置的值相乘之和除以总属性量-A属性与B属性的均值
公式：

相关系数：协方差再除以A，B属性样本值的标准差。
公式：

数据归约：维归约特征或数量归约，降低数据规模。
数据压缩：从压缩后的数据重构数据，不损失信息，该数据归约被称为无损的。若只能近似重构原数据，则该数据归约是有损的。
维归约：
小波变换：对于多维、稀疏、倾斜、具有有序属性的数据有很好的结果。
主成分分析：稀疏、倾斜、具有有序或者无序的属性数据，可用作多元回归和聚类分析的输入。
PCA能更好处理稀疏数据，小波变换更适合高维数据
属性子集的选择：逐步向前选择（从空属性值开始选择），逐步向后删除（全部选择再删去不相关的或是不符合要求的），前面两项组合、决策树归纳属性选择。也可以构造一些新属性。

数据归约：
参数化数据归约：线性、多元回归模型只存储参数和离群点
或者对数线性模型使高维变成低维
非参数化规约：
直方图：
单值桶：每个桶代表单个属性值/频率对，存放高频率的离群点，单值桶有用。
等宽直方图：每个桶宽度区间是相同的区间
等深直方图：每个桶的频率都是相同的常数
此外还有聚类和抽样
抽样主要是简单随机抽样，包括有放回与与放回簇抽样和分层抽样，优点是得到样本的花费正比于样本集的大小，其他数据规约需要完全扫描数据集。

数据变换：将数据统一压缩到一定范围的区间
规范化：最大-最小规范化、标准化（z分数规范化）
离散化：分箱，直方图，决策树或聚类。
标称数据概念分层:
1)用户或专家显示说明属性集部分序：直接定序
2）通过数据分组说明分层结构的一部分：人工分组
3）说明属性集但不说明其间偏序：定义在较高概念的层属性较于较低概念层属性，通常包含较少不同值
4 )只说明部分属性集：在数据库中嵌入数据语义

数据挖掘第四章

数据仓库四大主要特征：
面向主题的：数据的组织是围绕主题来进行，关注决策模型建立与分析而不是简单的操作和交易，围绕主题提供简明视图。
集成的：用数据清洗和集成技术，集成异构，多源数据
时变的：从历史角度提供信息，时间跨度大，隐式或显示包含时间元素。
非易失的：总是物理的分离存放数据，(一般只需要两种数据访问操作：数据初始化操作和数据访问)不需要更新

数据仓库的三层体系结构:底层仓库数据库服务器，中间层OLAP服务器映射操作，顶层前端客户层

OLAP(OnLine Analytical Processing)联机分析处理：数据仓库以不同组织或者格式提供数据以满足用户形形色色要求的系统。

与联机事务处理（OLTP)的区别:
面相性:OLTP面向顾客的事务与查询处理，OLAP面相知识工人数据分析
数据内容:前者是当前数据，后者是还有大量历史数据
数据库设计:前者采取实体联系模型，后者采用星型或雪花模式
访问模式:前者访问短的原子事务，需要并发控制与恢复，后者只读。

分开为了提高彼此两个系统的性能，同时处理不同数据的结构内容用法

数据仓库种类模型：
企业仓库(数据仓库)：搜集关于主题的所有信息，是企业范围的
数据集市：是企业范围数据的一个子集，范围是部门集的，限定于选定的主题
虚拟仓库：是操作数据库上的视图的集合

多维数据模型：针对数据仓库，提供面向主题的模式，便于OLAP
星型模式：一个大的中心表（事实表）+一组小的维表（包含一组属性，这些属性可能形成一个层次（全序）或格（偏序））
雪花模式：对星型模式的维表规范化添加到附加的表中，以减少冗余。
事实星座模式：复杂的应用需要多个事务表共享维表，看成星型模式的汇总。
种类模型适应的多维数据模型：企业仓库通常使用事实星座模式，数据集市流行采用星型或雪花模式。

数据的提取、变换和装入
数据提取：由多个异构外部数据源收集数据
数据清理：检测数据中错误并订正
数据变换：由源数据格式转化为数据仓库格式
装入：添加索引与划分
刷新：传播由数据源到数据仓库的更新

元数据库)目录和指南：数据的数据，存放如何构建仓库对象的数据
主要包括仓库结构的描述(放数据结构)，（操作元数据的记录）(数据从哪里来)，汇总算法，由操作环境到数据库的映射(放数据方法)和（商务元数据）(使用者信息)

数据立方体
构成
维：描述一个事实需记录的各个属性，
在概念模型里，每个维关联一个表(包含该维的概念分层)，称为维表

事实:是数据度量的。用对数据的不同度量，来分析各个维的关系，在立方体中不显示度量的名字只显示对应数值。

事实表：表示一个主题可能包含的一个事实的度量名称和实体相关维表的主键

我们可以把n维数据立方体显示成n-1维立方体的序列
实体假设有n个维，我们维组成的集合及子集做分组聚集数据成方体，所有子集共同组成的一个方体叫方体的格。集合和子集如果没有维内部的概念分层，有2的n次方个。

基本方体和顶点方体：基本方体是包含所有维的划分，定点方体就是所有值一把抓的汇总

度量：汇总聚集数据立方体空间的每个位置的事实的计算函数，用来表现事实

分布的：将数据划分为n份用函数聚集得到的结果再使用一次聚集函数得到的结果和直接对整体数据集使用函数得到的结果相同。主要是计数，求和…
代数的：有限个分布函数组合计算的到的函数,主要是求平均，方差…
整体的：必须是由整体的数据集进行操作的函数，不能由分布函数或代数的函数组合而成的,主要是求中位数，排序…

数据仓库的使用和设计过程
设计方法
自底而上灵活但是难抑一致，自顶向下减少了集成问题开发周期长缺乏灵活性两者结合
设计过程
①根据商务处理，选取待建模的数据仓库种类模型
②选取商务处理的粒度，粒度越小，代表数据划分越细，记录的越多
③选取记录实体的维
④选取每个事实表记录的度量

使用:
信息处理(查询与基本统计分析)，分析处理(支持基本的OLAP操作:上卷下钻切片切块转轴)，数据挖掘

数据挖掘第五章（重点）

项集：组成事务的项组成的集合
模式:指组成事务的所有项构成的项集、子序列或者子结构

支持度：所有事务中包含项集的事务发生的概率，相对支持度。
支持度计数：所有事务中，包含项集的事务的个数，绝对支持度。
置信度：已知一个项集事件发生的前提下另一个项集事件发生的概率

关联规则：在一个事务集合总体中；两事务同时发生的方式及对应的，满足最小支持度阈值(一般是最小支持度计数)和最小置信度阈值的支持度和置信度展示规则
注：支持度与置信度分别反应规则的有用性与确定性，同时满足则关联规则被认为是有趣的。

（频繁关联：关联，同时发生；频繁，次数很多，这里的次数多就需要我们认为规定阈值（后序称为支持度阈值或是置信度阈值）。那么就是项集同时发生的次数很多。）

频繁项集：该项集的相（绝）对支持度满足最小支持度（计数）阈值。
注：由于频繁项集的子集也是频繁的，因此在存储所有频繁项集时个数太多，因此存储闭得频繁项集或者是极大频繁项集。
先验性质：频繁项集的非空子集也是频繁的。

超集Y：比集合X至少多一个元素的项集Y
单调性：一个集合如果通过某种谓词测试，那么它的超集（也就是不管怎么向其中添元素在这个集合中），都会通过测试。
反单调性：一个集合已经不满足给出的谓词测试了，它的超集也一定不满足测试。

闭频繁项集X：不存在超集Y，使得频繁的X和Y在总事务中有相同的支持度。记C为总事务中所有闭频繁项集X的集合,基本上只要X满足频繁都能纳入C,C和其中所有X的支持度计数信息就可以导出所有的子频繁项集的信息。
极大频繁项集X：如果X是频繁的，不存在超集Y在总事务中也是频繁的。记M为总事务中所有极大频繁项集X的集合，M只储存了极大项集的信息。

由挖掘频繁项集到根据频繁项集得到关联规则：
Apriori算法：
连接：对于已有的k-1项频繁集，只要前面k-2项相同，合并不同最后一项即可得到候选集Ck
剪枝：
先验条件剪枝：Ck里不包括频繁项集，那么根据先验条件的否定结论，要把这些项集删除。
最小支持度剪枝：在总事务中包含该项集的事务支持度计数小于最小支持度计数，或者计算后得到的支持度小于最小支持度阈值，那么该项集应该被删去。
具体步骤（伪代码）：

由频繁项集产生关联规则(频繁关联规则)：

对于一个频繁项集l，导出所有非空真子集s,我们的关联规则就是s=>(l-s)，过程中的所有子集因为是从频繁来的，因此都满足强规则中的满足最小支持度。
通过是否满足最小置信度来筛选关联规则。
置信度＝支持度计数（s ∪ l-s) / 支持度计数(s)=p(l-s | s)

注:这里的支持度由于我们是从频繁项集推出的关联规则，所以
支持度= 支持度计数（s ∪ l-s) / 总事务数=p((s ∪ l-s))
都满足最小支持度阈值

提高Apriori算法效率的作法：
散列：采用桶计数，计算每一项的地址作为一个桶散列放。
事务压缩：剪枝前提前删除不包含频繁项集的项。
划分：先不充不漏的划分总事务，找到局部频繁项集，再找到整体频繁项集
抽样：用于计算密集的应用，计算随机样本的频繁项集
动态项集计数：在不同的扫描点添加候选项集。

数据挖掘第六章

监督与无监督学习：已知道每个元组的类再训练为监督学习，每个元组的编号未知为无监督学习。

决策树结构：
内部节点（也就是除了椭圆叶结点的方块节点）是属性，信息增益越大，也就是使后继划分集合需要的信息量最小的属性优先选择作为内部节点。最终集合不需要划分，需要的信息量也为0。
分支：代表父内部节点的一个分类。
叶节点：椭圆表示，代表一个最终类编号。

ID3步骤：
1）求不按属性划分只按最终类划分的信息熵

2）按属性划分求对应信息熵，对每个类求信息熵，再到每个类下的期望信息需求
3）选取具有最高信息增益Gain的属性，使得完成元组分类还需要的信息少

G a i n = I n f o ( D ) − I n f o ( 属性 ) Gain = Info(D) - Info(属性) Gain=Info(D)−Info(属性)

4）递归对剩下该属性发出的每个分支执行1）~3）操作直到可以得到最终类或者是没有属性了。

C4.5用增益率对连续值分类。增益率就是在信息增益的基础上除以每个属性类分区包含元组个数比率做分母，基尼指数在CART中使用。

先剪枝：达到我们设定的条件就停止建树
后剪枝：在建好树后用该树出现最频繁的叶结点（终端节点）代替该树。

贝叶斯分类（求元组X发生事件Ci的后验概率，哪个Ci后验概率大就属于哪个事件Ci)：

后验概率：已知元组X的信息（若干特征），计算X完成H的概率

先验概率：就是每个事件本身发生的概率
朴素贝叶斯：当X的特征很多时计算P（X|Ci)不易，此时假设每个特征条件彼此独立直接计算P(X1|Ci)P(X2|Ci)…P(X3|Ci)

T/F: 正确预测还是错误预测
N/P:正确或错误标记(预测)为正还是负元组
FN 为分类器错误标记为负元组，实际上为正元组

评估分类器性能度量：
准确率（识别率）：分母是所有，分子是正确预测。
对于所有元组(N+P)，预测对了的（正元组和负元组之和）TN+TP元组占比。

灵敏度和特效性：分母是实际，分子是预测
灵敏度：在正元组（FN+TP)中预测正确为正元组TP的概率
特效性：在负元组(FP+TN)中预测正确为负元组TN的概率

精度与召回率：分母是预测，分子是实际
精度：预测为正元组P，实际为正元组的概率TP
召回率：就是灵敏度

F度量和Fα度量：

图来自《数据挖掘:概念与技术(原书第3版)》