数据挖掘期末复习

题型

选择题：单选7 ＋多选7（上课认真听课）每道3分
解答 6道概念性：什么是数据挖掘啊之类的
计算2道-3道（高分必备）第二章 kk计算第三章 aprio计算第四章树的东西 kmeans 签名矩阵回归
综合：作为一个数据科学家怎么解决

概要和认识数据与数据预处理

什么是大数据?
1. Big data is a buzzword, or catch-phrase, used to describe a massive volume of both structured and unstructured data that is so large that it’s difficult to process using traditional database and software techniques.
2. 大数据是一个流行语，用于描述大量的结构化和非结构化数据，这些数据是如此之大，以至于很难使用传统的数据库和软件技术进行处理。
大数据的特征
1. Volume 大数量
2. Varity 多样性
3. Velocity 快速度
4. Veracity 真实性
什么是数据挖掘
1. 大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。
知识发现的流程是什么?核心?（KDD）

数据挖掘是“数据库知识发现”（Knowledge-Discovery in Databases, KDD）的分析步骤
1. 知识发现的核心–》数据挖掘
2. 数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示
数据挖掘的四大任务
1. 关联分析（关联规则挖掘）
2. 聚类分析
3. 分类/预测
4. 孤立点（离群点）检测
数据挖掘与其他学科
1. 好像没什么东西
2. 学科的交叉性：机器学习、数据库、统计学、拓扑学等具有紧密的联系
  
  挑战：高维，大数据、数据类型、参数、数据演化性和数据隐私/安全性
  
  常见工具包/期刊、会议。

认识数据与数据预处理
数据的属性：分类型和数值型
1. 分类型
  1. 标称（特殊：二元）
    1. eg:ID号、眼球颜色、邮政编码
  2. 序数
    1. eg:军阶、GPA、用{tall,medium,short}表示的身高
2. 数值型
  1. 区间
    1. eg：日历、摄氏或华氏温度
  2. 比率
    1. eg:长度、计数
数据的统计特征
1. 中心趋势度量
  1. 均值，众数，中位数，中列数（数据集的最大和最小的平均值）
2. 数据的散度
  1. 极差、四分位数、四分位数极差，五数概括，盒图
3. 可视化
  1. 分位数图（观察单变量数据分布）
  2. fi=i−0.5NXi(i=1,...,N)递增排列的数据f_i=\frac{i-0.5}{N}~~X_i(i=1,...,N)递增排列的数据fi=Ni−0.5 Xi(i=1,...,N)递增排列的数据
中心趋势：
1. 中位数：有序数据值的中间值。
2. 均值：总和/个数
3. 中列数：数据集的最大和最小值的平均值
4. 众数
  1. n对于非对称的单峰数据,有以下经验关系：
    
    mean-mode ~ 3*(mean-median)
散度：方差、极差
1. 极差 max-min
2. 四分位数（注意其实是三个数哦：Q1，Q2，Q3）
3. 四分位数极差 Q3-Q1
4. 方差
5. 五数概括:[ min,Q1,median,Q3,max]
数据的相似性度量
1. 标称属性数据
  1. 标称变量是二元变量的拓广，它可以取多余两种状态值，如:red,yellow,blue
  2. 相异性度量方法：
    1. m:状态取值匹配的变量数目，p:变量总数
    2. d(i,j)=p−mpd(i,j)=\frac{p-m}{p}d(i,j)=pp−m

标称型数据：对称和非对称

二元属性
1. 计算二元变量的相似度
  1. 首先获取列联表
2. 对称的二元变量的相异度计算
  1. d(i,j)=r+sq+r+s+td(i,j)=\frac{r+s}{q+r+s+t}d(i,j)=q+r+s+tr+s

非对称的二元属性

一个值比另一个更重要
不对称的二元变量属性的相异度计算
1. d(i,j)=r+sq+r+s=1−qq+r+s=1−Jaccard(i,j)d(i,j)=\frac{r+s}{q+r+s}=1-\frac{q}{q+r+s}=1-Jaccard(i,j)d(i,j)=q+r+sr+s=1−q+r+sq=1−Jaccard(i,j)
2. 对于非对称的相似度，负匹配数目t被忽略

Eg:

Name	Gender	Fever	Cough	Test-1	Test-2	Test-3	Test-4
Jack	M	1	N	P	N	N	N
Mary	F	1	N	P	N	P	N
Jim	M	1	P	N	N	N	N

gender对称
其余不对称
Y和P设置为1，N设置为0

Name	Gender	Fever	Cough	Test-1	Test-3
Jack	M	1	0	1	0
Mary	F	1	0	1	1
Jim	M	1	1	0	0

d(Jack,Mary)=0+12+0+1=0.33d(jack,jim)=1+11+1+1=0.67d(jim,mary)=1+21+1+2=0.75d(Jack,Mary)=\frac{0+1}{2+0+1}=0.33\\d(jack,jim)=\frac{1+1}{1+1+1}=0.67\\d(jim,mary)=\frac{1+2}{1+1+2}=0.75d(Jack,Mary)=2+0+10+1=0.33d(jack,jim)=1+1+11+1=0.67d(jim,mary)=1+1+21+2=0.75

数值型：欧氏距离
1. 使用距离来度量两个数据对象之间的相似性/相异性
2. 闵可夫斯基：d(i,j)=(f(x)=∣xi1−xj1∣q+∣xi2−xj2∣q)+……+∣xip−xjp∣qqd(i,j)=\sqrt[q]{(f(x)=\vert x_{i1}-x_{j1}\vert^q+\vert x_{i2}-x_{j2}\vert^q)+……+\vert x_{ip}-x_{jp}\vert^q}d(i,j)=q(f(x)=∣xi1−xj1∣q+∣xi2−xj2∣q)+……+∣xip−xjp∣q
3. 其中(i=xi1,xi2,...,xip)(i=x_{i1},x_{i2},...,x_{ip})(i=xi1,xi2,...,xip)和j=(xj1,xj2,...,xjp)j=(x_{j1},x_{j2},...,x_{jp})j=(xj1,xj2,...,xjp)是两个p-维的数据对象（q正整数）
4. q=1，d是曼哈顿距离
5. q=2,d是欧几里德距离
数据预处理：
数据清理：缺失值噪声
1. 空缺值，噪声数据，删除孤立点，解决不一致性
2. 如何处理空缺值
  1. 忽略元组
  2. 人工填写（工作量大，可行性低）
  3. 使用一个全局变量填充空缺值
  4. 使用属性的平均值填充空缺值
  5. 使用与给定元组所属同一类的所有样本的平均值
  6. 使用最可能的值填充空缺值：使用像Bayesian公式或判定树这样预测的方法
3. 噪声数据：一个测量变量中的随机错误或偏差
4. 如何处理噪声数据：
  1. 分箱
  2. 聚类
  3. 回归
数据集成：相关性分析卡方检验
1. 集成多个数据库、数据立方体或文件
2. 数据集成-冗余数据处理
  1. 数值型：相关分析
    1. 相关系数（皮尔逊相关系数）：rA,B=∑i=1n(ai−A‾)(bi−B‾)(n−1)σAσB=∑i=1n(aibi−nA‾B‾)(n−1)σAσBr_{A,B}=\frac{\sum_{i=1}^{n}(a_i-\overline{A})(b_i-\overline{B})}{(n-1)\sigma_A\sigma_B}=\frac{\sum_{i=1}^{n}(a_ib_i-n\overline{A}\overline{B})}{(n-1)\sigma_A\sigma_B}rA,B=(n−1)σAσB∑i=1n(ai−A)(bi−B)=(n−1)σAσB∑i=1n(aibi−nAB)
    2. n为样本个数，A‾\overline{A}A和B‾\overline{B}B属性A和B上的平均值，其他分别为标准差
    3. rA,Br_{A,B}rA,B>0,A和B正相关，值越大相关程度越高
    4. rA,Br_{A,B}rA,B=0:不相关；rA,Br_{A,B}rA,B<0,负相关
    5. 协方差：衡量两个变量的变化趋势是否一致:Cov(A,B)=E((A−A‾)(B−B‾))=∑i=1n(ai−A‾)(bi−B‾))nCov(A,B)=E((A-\overline{A})(B-\overline{B}))=\frac{\sum_{i=1}^{n}(a_i-\overline{A})(b_i-\overline{B}))}{n}Cov(A,B)=E((A−A)(B−B))=n∑i=1n(ai−A)(bi−B))
    6. rA,B=Cov(A,B)σAσBr_{A,B}=\frac{Cov(A,B)}{\sigma_A\sigma_B}rA,B=σAσBCov(A,B)
    7. Cov(A,B)>0,A和B同时倾向于大于期望值
    8. Cov(A,B)<0,若A大于期望值，B很可能小于期望值
    9. Cov(A,B)=0,不正确
  2. 标称数据：卡方检验
    1. σij是(ai,bj)的观测频度（实际计数）\sigma_{ij}是(a_i,b_j)的观测频度（实际计数）σij是(ai,bj)的观测频度（实际计数）
    2. eij是(ai,bj)的期望频度e_{ij}是(a_i,b_j)的期望频度eij是(ai,bj)的期望频度
    3. N是数据原则的个数
    4. χ2=∑i=1c∑j=1r(σij−eij)2eij\chi^2=\sum_{i=1}^{c}\sum_{j=1}^{r}\frac{(\sigma_{ij}-e_{ij})^2}{e_{ij}}χ2=i=1∑cj=1∑reij(σij−eij)2
    5. eij=count(A=ai)∗count(B=bj)Ne_{ij}=\frac{count(A=a_i)*count(B=b_j)}{N}eij=Ncount(A=ai)∗count(B=bj)
    6. 自由度：（c-1)*(r-1)
    7. eg:
数据规约：维度规约和数量规约
1. 得到数据集的压缩表示，但可以得到相同或相近的结果
2. 数据规约策略：
  1. 维规约：小波分析、PCA、特征筛选
    1. 小波变换：保存小波较大的系数进行原始数据的压缩，主要用于图像分析中
    2. PCA：找到一个投影，其能表示数据的最大变换
    3. 特征筛选：通过删除不相干的属性或维减少数据量
      1. 算法：信息增益（ID3）
      2. 信息熵：
        定义：H(x)=−∑i=1nP(xi)logp(xi)H(x)=-\sum_{i=1}^{n}P(x_i)log p(x_i)H(x)=−i=1∑nP(xi)logp(xi)
        
        例子：P(X=A)=4/10,P(X=B)=2/10;P(X=C)=4/10P(Y=A)=6/10,P(Y=B)=2/10;P(Y=C)=2/10H(X)=−(0.4∗log20.4+0.2∗log20.2+0.4∗log20.4)=1.52H(Y)=−(0.6∗log20.6+0.2∗log20.2+0.2∗log20.2)=1.37P(X=A) = 4/10, P(X=B) =2/10; P(X=C) = 4/10\\P(Y=A) = 6/10, P(Y=B) =2/10; P(Y=C) = 2/10\\H(X) = -(0.4*log_20.4+0.2*log_20.2+0.4*log_20.4) = 1.52\\H(Y) = -(0.6*log_20.6+0.2*log_20.2+0.2*log_20.2) = 1.37P(X=A)=4/10,P(X=B)=2/10;P(X=C)=4/10P(Y=A)=6/10,P(Y=B)=2/10;P(Y=C)=2/10H(X)=−(0.4∗log20.4+0.2∗log20.2+0.4∗log20.4)=1.52H(Y)=−(0.6∗log20.6+0.2∗log20.2+0.2∗log20.2)=1.37
      3. 条件信息熵：刻画在已知X的基础上需要多少信息来描述Y
        定义：H(Y∣X)=∑x∈χp(x)H(Y∣X=x)=−∑x∈χp(x)∑y∈χp(y∣x)logp(y∣x)H(Y|X)=\sum_{x\in\chi}p(x)H(Y|X=x)\\=-\sum_{x\in\chi}p(x)\sum_{y\in\chi}p(y|x)log p(y|x)H(Y∣X)=x∈χ∑p(x)H(Y∣X=x)=−x∈χ∑p(x)y∈χ∑p(y∣x)logp(y∣x)
        
        eg:
    4. 信息增益：刻画在已知X的基础上需要节约多少信息来描述Y
      1. IG(Y|X)=H(Y)-H(Y|X)
    5. 信息增益与特征筛选：
      1. 基本思想：选择那些特征对分类变量Y信息增益大，删除那些对分类无用的特征
  2. 能量规约：回归、聚类、采样、数据立方体聚集
  3. 数据压缩：使用变换
    1. 有损压缩无损压缩
    2. 字符串压缩音频/视频压缩
  4. 数量规约
数据变换：最大最小归一化
1. 最小-最大规范化：v‘=v−minAmaxA−minA(newmaxA−newminA)+newminAv^`=\frac{v-min_A}{max_A-min_A}(newmax_A-newmin_A)+newmin_Av‘=maxA−minAv−minA(newmaxA−newminA)+newminA
2. z-score规范化：v‘=v−μσv^`=\frac{v-\mu}{\sigma}v‘=σv−μ
数据离散化
1. 离散化（连续数据）
2. 概念分层（标称数据）
3. 分箱：分箱技术递归的用于结果划分
4. 直方图分析：直方图分析方法递归的应用于每一部分，可以自动产生多级概念分层
5. 聚类分析：将数据划分成簇，每个簇形成同一个概念层上的一个节点，每个簇可再分成多个子簇，形成子节点
6. 基于信息熵的方法等

数据挖掘期末复习01-02相关推荐

数据挖掘期末复习提纲（2021.7.3）
数据挖掘期末复习提纲什么是数据挖掘 Opinion1: 数据中的知识发现(KDD) Opinion2: 是知识发现过程的一个基本步骤: 数据清理>数据集成>数据选择>数据变换> ...
数据挖掘期末复习速成大法华南农业大学
更新日志 [1] 新增了密度聚类峰值的讲解 [2] 新增了 SOM 聚类算法讲解 [3] 修正Apriori规则挖掘二级项集表到三级项集表更新策略:新增非频剪枝步骤. [4] 修正小数定标规范化示 ...
山东大学软件学院数据仓库数据挖掘期末复习
文章目录 **数据仓库复习用: **6. 数据预处理的主要任务有哪些?每个任务要解决的问题主要有哪些?** 7 .脏数据主要有哪几种?产生的主要原因是什么? 8.缺失值的处理方法有哪些? 9 .什么是 ...
机器学习——数据仓库与数据挖掘——期末复习（简答题）
1.试述真正例率(TPR).假正例率(FPR)与查准率(P).查全率(R)之间的联系. 查全率: 真实正例被预测为正例的比例真正例率: 真实正例被预测为正例的比例查全率与真正例率是相等的. 查准率 ...
数据挖掘期末复习--上篇
文章目录欧几里得距离的计算余弦相似度的计算简单匹配系数SMC的计算 Jaccard系数的计算召回率的计算精度(准确率)的计算问答题 1.以决策树算法为例,说明什么是模型过分拟合?模型过分拟 ...
【数据挖掘】期末复习模拟题（暨考试题）
数据挖掘-期末复习试题挑战全网最全题库单选题多选题判断题填空题程序填空 sigmoid 曼哈顿距离泰坦尼克号披萨价格预测鸢尾花DBSCN密度聚类决策树购物表单-关联规则火龙果- ...
《数据仓库与数据挖掘》期末复习总结
<数据仓库与数据挖掘>期末复习总结适用教材:<数据挖掘概念与技术(第3版)>,Jiawei Han,Mieheline Kamber,Jian Pei著,机械工业出版社提示 ...
《数据仓库与数据挖掘》期末复习总结（1）
<数据仓库与数据挖掘>期末复习总结(1)-(第一章引论) 第一章引论 1.OLAP 2.大数据的5V特征 3.数据挖掘 4.数据挖掘实验基本步骤 5.数据挖掘过程 6.数据的基本形式 ...
机器学习与数据挖掘(上)——期末复习
机器学习与数据挖掘(上)--期末复习机器学习与数据挖掘(下)--期末复习预备概念过拟合与欠拟合过拟合过拟合定义当学习器把训练样本学的"太好"了的时候,很可能已经把训练样 ...

数据挖掘期末复习01-02

数据挖掘期末复习

题型

概要和认识数据与数据预处理

数据挖掘期末复习01-02相关推荐

最新文章

热门文章