数据挖掘期末复习

题型

  1. 选择题:单选7 + 多选7(上课认真听课) 每道3分
  2. 解答 6道 概念性:什么是数据挖掘啊之类的
  3. 计算2道-3道(高分必备) 第二章 kk计算 第三章 aprio计算 第四章 树的东西 kmeans 签名矩阵 回归
  4. 综合:作为一个数据科学家怎么解决

概要和认识数据与数据预处理

  1. 什么是大数据?

    1. Big data is a buzzword, or catch-phrase, used to describe a massive volume of both structured and unstructured data that is so large that it’s difficult to process using traditional database and software techniques.
    2. 大数据是一个流行语,用于描述大量的结构化和非结构化数据,这些数据是如此之大,以至于很难使用传统的数据库和软件技术进行处理。
  2. 大数据的特征

    1. Volume 大数量
    2. Varity 多样性
    3. Velocity 快速度
    4. Veracity 真实性
  3. 什么是数据挖掘

    1. 大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 。
  4. 知识发现的流程是什么?核心?(KDD)

    数据挖掘是“数据库知识发现”(Knowledge-Discovery in Databases, KDD)的分析步骤

    1. 知识发现的核心–》数据挖掘
    2. 数据清理、数据集成、数据选择、数据变换、数据挖掘、 模式评估 和知识表示
  5. 数据挖掘的四大任务

    1. 关联分析(关联规则挖掘)
    2. 聚类分析
    3. 分类/预测
    4. 孤立点(离群点)检测
  6. 数据挖掘与其他学科

    1. 好像没什么东西

    2. 学科的交叉性:机器学习、数据库、统计学、拓扑学等具有紧密的联系

      挑战:高维,大数据、数据类型、参数、数据演化性和数据隐私/安全性

      常见工具包/期刊、会议。


  1. 认识数据与数据预处理

  2. 数据的属性:分类型和数值型

    1. 分类型

      1. 标称(特殊:二元)

        1. eg:ID号、眼球颜色、邮政编码
      2. 序数
        1. eg:军阶、GPA、用{tall,medium,short}表示的身高
    2. 数值型
      1. 区间

        1. eg:日历、摄氏或华氏温度
      2. 比率
        1. eg:长度、计数
  3. 数据的统计特征

    1. 中心趋势度量

      1. 均值,众数,中位数,中列数(数据集的最大和最小的平均值)
    2. 数据的散度
      1. 极差、四分位数、四分位数极差,五数概括,盒图
    3. 可视化
      1. 分位数图(观察单变量数据分布)
      2. fi=i−0.5NXi(i=1,...,N)递增排列的数据f_i=\frac{i-0.5}{N}~~X_i(i=1,...,N)递增排列的数据fi​=Ni−0.5​  Xi​(i=1,...,N)递增排列的数据
  4. 中心趋势

    1. 中位数:有序数据值的中间值。

    2. 均值:总和/个数

    3. 中列数:数据集的最大和最小值的平均值

    4. 众数

      1. n对于非对称的单峰数据,有以下经验关系:

        ​ mean-mode ~ 3*(mean-median)

  5. 散度:方差、极差

    1. 极差 max-min
    2. 四分位数(注意其实是三个数哦:Q1,Q2,Q3)
    3. 四分位数极差 Q3-Q1
    4. 方差
    5. 五数概括:[ min,Q1,median,Q3,max]
  6. 数据的相似性度量

    1. 标称属性数据

      1. 标称变量是二元变量的拓广,它可以取多余两种状态值,如:red,yellow,blue
      2. 相异性度量方法
        1. m:状态取值匹配的变量数目,p:变量总数
        2. d(i,j)=p−mpd(i,j)=\frac{p-m}{p}d(i,j)=pp−m​
  7. 标称型数据:对称和非对称

    1. 二元属性

      1. 计算二元变量的相似度

        1. 首先获取列联表
      2. 对称的二元变量的相异度计算

        1. d(i,j)=r+sq+r+s+td(i,j)=\frac{r+s}{q+r+s+t}d(i,j)=q+r+s+tr+s​
    2. 非对称的二元属性

      1. 一个值比另一个更重要

      2. 不对称的二元变量属性的相异度计算

        1. d(i,j)=r+sq+r+s=1−qq+r+s=1−Jaccard(i,j)d(i,j)=\frac{r+s}{q+r+s}=1-\frac{q}{q+r+s}=1-Jaccard(i,j)d(i,j)=q+r+sr+s​=1−q+r+sq​=1−Jaccard(i,j)
        2. 对于非对称的相似度,负匹配数目t被忽略
      3. Eg:

        Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4
        Jack M 1 N P N N N
        Mary F 1 N P N P N
        Jim M 1 P N N N N
        1. gender对称

        2. 其余不对称

        3. Y和P设置为1,N设置为0

        4. Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4
          Jack M 1 0 1 0 0 0
          Mary F 1 0 1 0 1 0
          Jim M 1 1 0 0 0 0
        5. d(Jack,Mary)=0+12+0+1=0.33d(jack,jim)=1+11+1+1=0.67d(jim,mary)=1+21+1+2=0.75d(Jack,Mary)=\frac{0+1}{2+0+1}=0.33\\d(jack,jim)=\frac{1+1}{1+1+1}=0.67\\d(jim,mary)=\frac{1+2}{1+1+2}=0.75d(Jack,Mary)=2+0+10+1​=0.33d(jack,jim)=1+1+11+1​=0.67d(jim,mary)=1+1+21+2​=0.75

  8. 数值型:欧氏距离

    1. 使用距离来度量两个数据对象之间的相似性/相异性
    2. 闵可夫斯基:d(i,j)=(f(x)=∣xi1−xj1∣q+∣xi2−xj2∣q)+……+∣xip−xjp∣qqd(i,j)=\sqrt[q]{(f(x)=\vert x_{i1}-x_{j1}\vert^q+\vert x_{i2}-x_{j2}\vert^q)+……+\vert x_{ip}-x_{jp}\vert^q}d(i,j)=q(f(x)=∣xi1​−xj1​∣q+∣xi2​−xj2​∣q)+……+∣xip​−xjp​∣q​
    3. 其中(i=xi1,xi2,...,xip)(i=x_{i1},x_{i2},...,x_{ip})(i=xi1​,xi2​,...,xip​)和j=(xj1,xj2,...,xjp)j=(x_{j1},x_{j2},...,x_{jp})j=(xj1​,xj2​,...,xjp​)是两个p-维的数据对象(q正整数)
    4. q=1,d是曼哈顿距离
    5. q=2,d是欧几里德距离
  9. 数据预处理:

  10. 数据清理:缺失值 噪声

    1. 空缺值,噪声数据,删除孤立点,解决不一致性
    2. 如何处理空缺值
      1. 忽略元组
      2. 人工填写(工作量大,可行性低)
      3. 使用一个全局变量填充空缺值
      4. 使用属性的平均值填充空缺值
      5. 使用与给定元组所属同一类的所有样本的平均值
      6. 使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样预测的方法
    3. 噪声数据:一个测量变量中的随机错误或偏差
    4. 如何处理噪声数据:
      1. 分箱
      2. 聚类
      3. 回归
  11. 数据集成:相关性分析 卡方检验

    1. 集成多个数据库、数据立方体或文件
    2. 数据集成-冗余数据处理
      1. 数值型:相关分析

        1. 相关系数(皮尔逊相关系数):rA,B=∑i=1n(ai−A‾)(bi−B‾)(n−1)σAσB=∑i=1n(aibi−nA‾B‾)(n−1)σAσBr_{A,B}=\frac{\sum_{i=1}^{n}(a_i-\overline{A})(b_i-\overline{B})}{(n-1)\sigma_A\sigma_B}=\frac{\sum_{i=1}^{n}(a_ib_i-n\overline{A}\overline{B})}{(n-1)\sigma_A\sigma_B}rA,B​=(n−1)σA​σB​∑i=1n​(ai​−A)(bi​−B)​=(n−1)σA​σB​∑i=1n​(ai​bi​−nAB)​
        2. n为样本个数,A‾\overline{A}A和B‾\overline{B}B属性A和B上的平均值,其他分别为标准差
        3. rA,Br_{A,B}rA,B​>0,A和B正相关,值越大相关程度越高
        4. rA,Br_{A,B}rA,B​=0:不相关;rA,Br_{A,B}rA,B​<0,负相关
        5. 协方差:衡量两个变量的变化趋势是否一致:Cov(A,B)=E((A−A‾)(B−B‾))=∑i=1n(ai−A‾)(bi−B‾))nCov(A,B)=E((A-\overline{A})(B-\overline{B}))=\frac{\sum_{i=1}^{n}(a_i-\overline{A})(b_i-\overline{B}))}{n}Cov(A,B)=E((A−A)(B−B))=n∑i=1n​(ai​−A)(bi​−B))​
        6. rA,B=Cov(A,B)σAσBr_{A,B}=\frac{Cov(A,B)}{\sigma_A\sigma_B}rA,B​=σA​σB​Cov(A,B)​
        7. Cov(A,B)>0,A和B同时倾向于大于期望值
        8. Cov(A,B)<0,若A大于期望值,B很可能小于期望值
        9. Cov(A,B)=0,不正确
      2. 标称数据:卡方检验
        1. σij是(ai,bj)的观测频度(实际计数)\sigma_{ij}是(a_i,b_j)的观测频度(实际计数)σij​是(ai​,bj​)的观测频度(实际计数)
        2. eij是(ai,bj)的期望频度e_{ij}是(a_i,b_j)的期望频度eij​是(ai​,bj​)的期望频度
        3. N是数据原则的个数
        4. χ2=∑i=1c∑j=1r(σij−eij)2eij\chi^2=\sum_{i=1}^{c}\sum_{j=1}^{r}\frac{(\sigma_{ij}-e_{ij})^2}{e_{ij}}χ2=i=1∑c​j=1∑r​eij​(σij​−eij​)2​
        5. eij=count(A=ai)∗count(B=bj)Ne_{ij}=\frac{count(A=a_i)*count(B=b_j)}{N}eij​=Ncount(A=ai​)∗count(B=bj​)​
        6. 自由度:(c-1)*(r-1)
        7. eg:
  12. 数据规约:维度规约和数量规约

    1. 得到数据集的压缩表示,但可以得到相同或相近的结果
    2. 数据规约策略:
      1. 维规约:小波分析、PCA、特征筛选

        1. 小波变换:保存小波较大的系数进行原始数据的压缩,主要用于图像分析中

        2. PCA:找到一个投影,其能表示数据的最大变换

        3. 特征筛选:通过删除不相干的属性或维减少数据量

          1. 算法:信息增益(ID3)
          2. 信息熵:
            1. 定义:H(x)=−∑i=1nP(xi)logp(xi)H(x)=-\sum_{i=1}^{n}P(x_i)log p(x_i)H(x)=−i=1∑n​P(xi​)logp(xi​)
            2. 例子:P(X=A)=4/10,P(X=B)=2/10;P(X=C)=4/10P(Y=A)=6/10,P(Y=B)=2/10;P(Y=C)=2/10H(X)=−(0.4∗log20.4+0.2∗log20.2+0.4∗log20.4)=1.52H(Y)=−(0.6∗log20.6+0.2∗log20.2+0.2∗log20.2)=1.37P(X=A) = 4/10, P(X=B) =2/10; P(X=C) = 4/10\\P(Y=A) = 6/10, P(Y=B) =2/10; P(Y=C) = 2/10\\H(X) = -(0.4*log_20.4+0.2*log_20.2+0.4*log_20.4) = 1.52\\H(Y) = -(0.6*log_20.6+0.2*log_20.2+0.2*log_20.2) = 1.37P(X=A)=4/10,P(X=B)=2/10;P(X=C)=4/10P(Y=A)=6/10,P(Y=B)=2/10;P(Y=C)=2/10H(X)=−(0.4∗log2​0.4+0.2∗log2​0.2+0.4∗log2​0.4)=1.52H(Y)=−(0.6∗log2​0.6+0.2∗log2​0.2+0.2∗log2​0.2)=1.37
          3. 条件信息熵:刻画在已知X的基础上需要多少信息来描述Y
            1. 定义:H(Y∣X)=∑x∈χp(x)H(Y∣X=x)=−∑x∈χp(x)∑y∈χp(y∣x)logp(y∣x)H(Y|X)=\sum_{x\in\chi}p(x)H(Y|X=x)\\=-\sum_{x\in\chi}p(x)\sum_{y\in\chi}p(y|x)log p(y|x)H(Y∣X)=x∈χ∑​p(x)H(Y∣X=x)=−x∈χ∑​p(x)y∈χ∑​p(y∣x)logp(y∣x)
            2. eg:
        4. 信息增益:刻画在已知X的基础上需要节约多少信息来描述Y

          1. IG(Y|X)=H(Y)-H(Y|X)
        5. 信息增益与特征筛选:

          1. 基本思想:选择那些特征对分类变量Y信息增益大,删除那些对分类无用的特征
      2. 能量规约:回归、聚类、采样、数据立方体聚集
      3. 数据压缩:使用变换
        1. 有损压缩 无损压缩
        2. 字符串压缩 音频/视频压缩
      4. 数量规约
  13. 数据变换:最大最小归一化

    1. 最小-最大规范化:v‘=v−minAmaxA−minA(newmaxA−newminA)+newminAv^`=\frac{v-min_A}{max_A-min_A}(newmax_A-newmin_A)+newmin_Av‘=maxA​−minA​v−minA​​(newmaxA​−newminA​)+newminA​
    2. z-score规范化:v‘=v−μσv^`=\frac{v-\mu}{\sigma}v‘=σv−μ​
  14. 数据离散化

    1. 离散化(连续数据)
    2. 概念分层(标称数据)
    3. 分箱:分箱技术递归的用于结果划分
    4. 直方图分析:直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层
    5. 聚类分析:将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点
    6. 基于信息熵的方法等

数据挖掘期末复习01-02相关推荐

  1. 数据挖掘期末复习提纲(2021.7.3)

    数据挖掘期末复习提纲 什么是数据挖掘 Opinion1: 数据中的知识发现(KDD) Opinion2: 是知识发现过程的一个基本步骤: 数据清理>数据集成>数据选择>数据变换> ...

  2. 数据挖掘期末复习速成大法 华南农业大学

    更新日志 [1] 新增了密度聚类峰值的讲解 [2] 新增了 SOM 聚类算法讲解 [3] 修正Apriori规则挖掘二级项集表 到 三级项集表更新策略:新增非频剪枝步骤. [4] 修正小数定标规范化示 ...

  3. 山东大学软件学院数据仓库数据挖掘期末复习

    文章目录 **数据仓库复习用: **6. 数据预处理的主要任务有哪些?每个任务要解决的问题主要有哪些?** 7 .脏数据主要有哪几种?产生的主要原因是什么? 8.缺失值的处理方法有哪些? 9 .什么是 ...

  4. 机器学习——数据仓库与数据挖掘——期末复习(简答题)

    1.试述真正例率(TPR).假正例率(FPR)与查准率(P).查全率(R)之间的联系. 查全率: 真实正例被预测为正例的比例 真正例率: 真实正例被预测为正例的比例 查全率与真正例率是相等的. 查准率 ...

  5. 数据挖掘期末复习--上篇

    文章目录 欧几里得距离的计算 余弦相似度的计算 简单匹配系数SMC的计算 Jaccard系数的计算 召回率的计算 精度(准确率)的计算 问答题 1.以决策树算法为例,说明什么是模型过分拟合?模型过分拟 ...

  6. 【数据挖掘】期末复习模拟题(暨考试题)

    数据挖掘-期末复习试题 挑战全网最全题库 单选题 多选题 判断题 填空题 程序填空 sigmoid 曼哈顿距离 泰坦尼克号 披萨价格预测 鸢尾花DBSCN密度聚类 决策树 购物表单-关联规则 火龙果- ...

  7. 《数据仓库与数据挖掘》期末复习总结

    <数据仓库与数据挖掘>期末复习总结 适用教材:<数据挖掘概念与技术(第3版)>,Jiawei Han,Mieheline Kamber,Jian Pei著,机械工业出版社 提示 ...

  8. 《数据仓库与数据挖掘》期末复习总结(1)

    <数据仓库与数据挖掘>期末复习总结(1)-(第一章 引论) 第一章 引论 1.OLAP 2.大数据的5V特征 3.数据挖掘 4.数据挖掘实验基本步骤 5.数据挖掘过程 6.数据的基本形式 ...

  9. 机器学习与数据挖掘(上)——期末复习

    机器学习与数据挖掘(上)--期末复习 机器学习与数据挖掘(下)--期末复习 预备概念 过拟合与欠拟合 过拟合 过拟合定义 当学习器把训练样本学的"太好"了的时候,很可能已经把训练样 ...

最新文章

  1. C++编程人员容易犯的10个C#错误
  2. instance of 泛型
  3. windows键盘在mac上怎么识别_Mac电脑怎么使用pc键盘?
  4. 服务器好玩的项目_GitHub 上有什么好玩的项目?(附地址)
  5. 两个经典的Oracle触发器示例
  6. AttributeError: 'str' object has no attribute 'decode'
  7. 【Ajax技术】JQuery的应用与高级调试技巧
  8. linux下python3源码安装及卸载
  9. 以前收集到的PHP总结笔记
  10. C语言 全局变量和局部变量的区别
  11. Struts2通配符和动态方法调用
  12. win10如何打开摄像头_1809版Win10系统启动相机提示0x800706be解决方法是什么?
  13. MYSQL Error:You must SET PASSWORD before execut...
  14. 模糊二维码识别、残缺二维码识别、快速二维码识别
  15. 关于element-ui中轮播图手动切换轮播图片
  16. python处理fasta文件_Python脚本:fasta文件单序列信息提取
  17. java创建Shape类,求子类circle,圆形rectangle矩形,rhombus菱形的周长和面积
  18. mysql数据备份与导入
  19. 学习.NET MAUI Blazor(三)、创建.NET MAUI Blazor应用并使用AntDesignBlazor
  20. 【学习笔记】计算机网络

热门文章

  1. 运维派网站数据迁移过程踩到的坑和教训
  2. AI背景下的新零售行业商业模式
  3. 一个小技巧告诉你,邮箱域名地址格式怎么选择?
  4. R语言基础 期中考试
  5. 【破解工具】Hashcat加密破解工具
  6. JupyterLab-APP
  7. matlab roundn函数_columns函数的使用方法 matlab中round函数具体用法
  8. 【python】身份证识别
  9. LeetCode不浪费原料的汉堡制作方案
  10. Java向数据库中插入数据出错时怎么避免插入错误数据