博主是学习了数据挖掘课后,结合教材和老师的课件,总结了这门课整体的一个知识点框架,还算比较详细,希望大家在学习数据挖掘的时候能够给大家一个参考,以及知识点的查漏补缺。有遗漏和错误的地方多谢指正。

参考教材:《数据挖掘:概念与技术》,(美)Jiawei Han / (加)Micheline Kamber / (加)Jian Pei,机械工业出版社

课件暂时不能分享,毕竟没有经过老师同意

标注 * 星号的为重点内容

框架目录

  • 第0章 课程概述
    • 0.1 引言
    • 0.2 数据挖掘概念及必要性
    • 0.3 数据挖掘的主要任务
    • 0.4 案列分析
  • 第1章 引论
    • 1.1 为什么进行数据
    • 1.2 什么是数据挖掘
      • * 数据挖掘过程/步骤
    • 1.3 可以挖掘什么类型的数据
    • 1.4 可以挖掘什么类型的模式
    • 1.5 使用什么技术
    • 1.6 面向什么类型的应用
    • 1.7 数据挖掘的主要问题
    • 1.8 小结
  • 第2章 了解数据
    • 2.1 数据对象和属性类型
      • * 数据集合的类型
      • 结构数据的重要特征
      • * 属性类型
    • 2.2 数据的基本统计描述
      • 度量数据的中心趋势
      • 度量数据散布
      • * 盒图
      • 直方图
      • 分位数图
      • * Q-Q 图
      • 散布图
    • 2.3 数据可视化
      • 几何投影可视化技术
    • 2.4 测量数据相似性和相异性
      • 相似性和相异性
      • 标称属性的邻近度量
      • * 二进制属性的邻近度量(Jaccard/Tanimoto系数)
      • 二进制属性的相异度量
      • * 闵可夫斯基距离(曼哈顿、欧式、上确界距离)
      • 有序变量
      • 混合型属性
      • * 余弦相似性
    • 2.5 小结
  • 第3章 数据预处理
    • 3.1 数据预处理:概述
      • 数据质量的评价指标
      • 数据预处理的主要任务
    • 3.2 数据清理
      • 处理缺失数据
      • 噪声数据
      • * 分箱
      • 数据清理作为一个过程
    • 3.3 数据集成
      • 冗余数据处理
      • * 相关系数(皮尔逊相关系数)
      • 协方差
      • * 卡方检验
    • 3.4 数据规约
      • 维规约
        • * 小波变换、傅里叶变换
        • * 主成分分析PCA
        • * 特征选择、决策树规约
      • 数量规约
        • 回归分析
        • 直方图
        • 聚类、抽样
        • 数据压缩
    • 3.5 数据变换和数据离散化
      • 数据变换
      • 规范化方法
        • * 最小-最大规范化(Min-Max)
        • * Z-分数规范化(Z-Score)
        • 小数定标
      • 离散化和概念分层
        • * Chi-Merge 分箱离散化
        • 自然划分离散化
        • 概念分层
    • 3.6 小结
  • 第4章 挖掘频繁模式、关联和相关性:基本概念和方法
    • 4.1 基本概念
      • 什么是频繁项集分析
      • 为什么频繁模式重要
      • 关联规则基本术语和定义
      • * 闭频繁项集、极大频繁项集
    • 4.2 频繁项集挖掘方法
      • * Apriori 算法
        • 步骤
        • 关联规则两条性质
        • 伪代码
      • 提高 Apriori 算法的效率
      • * FP-Growth 算法(挖掘频繁项集的模式增长方法)
        • 构造FP树
        • 构造条件模式基
        • 构造条件FP树
        • 其他相关方法
      • 用垂直数据格式挖掘频繁项集
      • 挖掘闭模式、极大模式
    • 4.3 模式评估方法
      • * 提升度 lift
      • * 全置信度 all_conf、最大置信度 max_conf、Kulc 度量、余弦度量cosine、零不变度量
      • 例子:各种度量的比较
    • 4.4 小结
  • 第5章 分类:基本概念
    • 5.1 基本概念
      • 有监督、无监督、分类、预测
      • 分类的过程
    • 5.2 * 决策树归纳
      • 例子、伪代码
      • 算法步骤
      • 属性选择的度量(信息增益、增益率、Gini指标)
        • * 信息增益(ID3/C4.5算法)
        • * 增益率(C4.5算法)
        • * 基尼指数 Gini
        • 三种比较
        • 其他度量指标
      • 过拟合与剪枝
      • 决策树归纳的增强
      • 大型数据库分类
        • RainForest(雨林)算法
        • BOAT(自助乐观)算法
    • 5.3 * 贝叶斯分类方法
      • 贝叶斯理论、概念
      • 朴素贝叶斯(NB)分类
      • 例子
      • * 避免零概率(拉布拉斯校准)
      • 优缺点
    • 5.4 基于规则的分类
      • IF-THEN 规则分类
      • 从决策树提取规则
      • * 顺序覆盖算法(FOIL)
        • 基本步骤
        • 规则产生
        • 伪代码、学习步骤
        • 规则质量度量与剪枝
    • 5.5 模型评估与选择
      • 评价指标
        • * 混淆矩阵(Confusion Matrix)
        • * 准确度(Accuracy)、误差率(Error Rate)、敏感度(Sensitivity)、特效性(Specificity)
        • * 精度(Precision)、召回率(Recall)、F度量(F-Score)
      • 评测分类器的正确率(交叉验证)
        • 自助法
        • * 估计置信区间
      • * 模型选择:ROC曲线图
    • 5.6 提高分类准确率的技术
    • 5.7 小结
  • 第6章 聚类分析:基本概念和方法
    • 6.1 聚类分析
      • 概念 、应用
      • 主要步骤
      • 要求
      • 聚类的主要方法
    • 6.2 划分方法
      • 概念
      • * k-平均(K-Means)算法
      • * k-中心点(PAM)算法
    • 6.3 层次方法
      • 概念
      • AGNES、DIANA算法
      • * 类间距离度量(最小/大距离、平均值距离、平均距离)
      • 缺点
      • * BIRCH 算法
        • CF 树
      • * Chameleon(变色龙)算法
      • 概率层次聚类
    • 6.4 基于密度的方法
      • 概念、特点、术语
      • * DBSCAN 算法
      • * OPTICS 算法
      • Denclue 算法
    • 6.5 基于网格的方法
      • 概念
      • * STING(统计信息网格)算法
      • * CLIQUE 算法
    • 6.6 聚类评估
      • 估计聚类趋势(霍普金斯统计量)
      • 确定聚类类别数目
      • 聚类质量评估
        • 外在方法
        • 内在方法(轮廓系数)
    • 6.7 小结
  • 第7章 深度学习
    • 7.1 神经网络基础
      • 概述
      • 神经元模型
      • *激活函数
        • 阶跃函数、* Sigmoid 函数
        • 梯度弥散(梯度消失)
        • Tanh 函数、* Relu 函数、P-Relu 函数、* SoftMax 函数
        • 函数选择建议
      • 神经网络结构(输入层、隐藏层、输出层)
      • 代价函数
        • 二次代价函数(回归)
        • * 交叉熵代价函数(相对熵、交叉熵)
      • 梯度下降
      • * 反向传播算法(BP)
      • 神经网络训练方法
        • * 过拟合、欠拟合
        • * 过拟合解决方法(早停、正则化、Dropout、数据增强)
        • 数据增强(增加训练集样本数)
    • 7.2 深度学习概念及模型
      • 深度学习概念
        • 概念
        • 发展历程
        • 深度学习和机器学习区别
        • 应用(CV、语音识别、NLP)
      • * 卷积神经网络 CNN
        • 原理
        • * 卷积
          • Ø 注意运算符号是卷积还是乘号:乘号在 CNN 中直接对应相乘相加;卷积号是颠倒相乘相加
        • 池化 Pooling
        • 局部连接
        • 权值共享
        • 网络结构
          • AlphaGo(阿法狗)
      • 生成对抗网络 GAN
      • 深度强化学习 DRL
    • 7.3 深度学习框架与实例
      • 概念
      • Tensorflow
      • Keras
      • Pytorch
      • Caffe
      • Paddlepaddle(百度飞桨)
      • 案例:mnist 手写数字识别
  • 框架图片(忽略后面的页码):

第0章 课程概述

0.1 引言

0.2 数据挖掘概念及必要性

0.3 数据挖掘的主要任务

0.4 案列分析

第1章 引论

1.1 为什么进行数据

1.2 什么是数据挖掘

* 数据挖掘过程/步骤

1.3 可以挖掘什么类型的数据

1.4 可以挖掘什么类型的模式

1.5 使用什么技术

1.6 面向什么类型的应用

1.7 数据挖掘的主要问题

1.8 小结

第2章 了解数据

2.1 数据对象和属性类型

* 数据集合的类型

结构数据的重要特征

* 属性类型

2.2 数据的基本统计描述

度量数据的中心趋势

度量数据散布

* 盒图

直方图

分位数图

* Q-Q 图

散布图

2.3 数据可视化

几何投影可视化技术

2.4 测量数据相似性和相异性

相似性和相异性

标称属性的邻近度量

* 二进制属性的邻近度量(Jaccard/Tanimoto系数)

二进制属性的相异度量

* 闵可夫斯基距离(曼哈顿、欧式、上确界距离)

有序变量

混合型属性

* 余弦相似性

2.5 小结

第3章 数据预处理

3.1 数据预处理:概述

数据质量的评价指标

数据预处理的主要任务

3.2 数据清理

处理缺失数据

噪声数据

* 分箱

数据清理作为一个过程

3.3 数据集成

冗余数据处理

* 相关系数(皮尔逊相关系数)

协方差

* 卡方检验

3.4 数据规约

维规约

* 小波变换、傅里叶变换

* 主成分分析PCA

* 特征选择、决策树规约

数量规约

回归分析

直方图

聚类、抽样

数据压缩

3.5 数据变换和数据离散化

数据变换

规范化方法

* 最小-最大规范化(Min-Max)

* Z-分数规范化(Z-Score)

小数定标

离散化和概念分层

* Chi-Merge 分箱离散化

自然划分离散化

概念分层

3.6 小结

第4章 挖掘频繁模式、关联和相关性:基本概念和方法

4.1 基本概念

什么是频繁项集分析

为什么频繁模式重要

关联规则基本术语和定义

* 闭频繁项集、极大频繁项集

4.2 频繁项集挖掘方法

* Apriori 算法

步骤

关联规则两条性质

伪代码

提高 Apriori 算法的效率

* FP-Growth 算法(挖掘频繁项集的模式增长方法)

构造FP树

构造条件模式基

构造条件FP树

其他相关方法

用垂直数据格式挖掘频繁项集

挖掘闭模式、极大模式

4.3 模式评估方法

* 提升度 lift

* 全置信度 all_conf、最大置信度 max_conf、Kulc 度量、余弦度量cosine、零不变度量

例子:各种度量的比较

4.4 小结

第5章 分类:基本概念

5.1 基本概念

有监督、无监督、分类、预测

分类的过程

5.2 * 决策树归纳

例子、伪代码

算法步骤

属性选择的度量(信息增益、增益率、Gini指标)

* 信息增益(ID3/C4.5算法)

* 增益率(C4.5算法)

* 基尼指数 Gini

三种比较

其他度量指标

过拟合与剪枝

决策树归纳的增强

大型数据库分类

RainForest(雨林)算法

BOAT(自助乐观)算法

5.3 * 贝叶斯分类方法

贝叶斯理论、概念

朴素贝叶斯(NB)分类

例子

* 避免零概率(拉布拉斯校准)

优缺点

5.4 基于规则的分类

IF-THEN 规则分类

从决策树提取规则

* 顺序覆盖算法(FOIL)

基本步骤

规则产生

伪代码、学习步骤

规则质量度量与剪枝

5.5 模型评估与选择

评价指标

* 混淆矩阵(Confusion Matrix)

* 准确度(Accuracy)、误差率(Error Rate)、敏感度(Sensitivity)、特效性(Specificity)

* 精度(Precision)、召回率(Recall)、F度量(F-Score)

评测分类器的正确率(交叉验证)

自助法

* 估计置信区间

* 模型选择:ROC曲线图

5.6 提高分类准确率的技术

 组合方法 装袋(Bagging) 提升(Boosting) Adaboost 算法 随机森林(Random Forest)算法

5.7 小结

第6章 聚类分析:基本概念和方法

6.1 聚类分析

概念 、应用

主要步骤

要求

聚类的主要方法

6.2 划分方法

概念

* k-平均(K-Means)算法

* k-中心点(PAM)算法

6.3 层次方法

概念

AGNES、DIANA算法

* 类间距离度量(最小/大距离、平均值距离、平均距离)

缺点

* BIRCH 算法

CF 树

* Chameleon(变色龙)算法

概率层次聚类

6.4 基于密度的方法

概念、特点、术语

* DBSCAN 算法

* OPTICS 算法

Denclue 算法

6.5 基于网格的方法

概念

* STING(统计信息网格)算法

* CLIQUE 算法

6.6 聚类评估

估计聚类趋势(霍普金斯统计量)

确定聚类类别数目

聚类质量评估

外在方法

内在方法(轮廓系数)

6.7 小结

第7章 深度学习

7.1 神经网络基础

概述

神经元模型

*激活函数

阶跃函数、* Sigmoid 函数

梯度弥散(梯度消失)

Tanh 函数、* Relu 函数、P-Relu 函数、* SoftMax 函数

函数选择建议

神经网络结构(输入层、隐藏层、输出层)

代价函数

二次代价函数(回归)

* 交叉熵代价函数(相对熵、交叉熵)

梯度下降

* 反向传播算法(BP)

神经网络训练方法

* 过拟合、欠拟合

* 过拟合解决方法(早停、正则化、Dropout、数据增强)

数据增强(增加训练集样本数)

7.2 深度学习概念及模型

深度学习概念

概念

发展历程

深度学习和机器学习区别

应用(CV、语音识别、NLP)

* 卷积神经网络 CNN

原理

* 卷积

Ø 注意运算符号是卷积还是乘号:乘号在 CNN 中直接对应相乘相加;卷积号是颠倒相乘相加

池化 Pooling

局部连接

权值共享

网络结构

AlphaGo(阿法狗)

生成对抗网络 GAN

深度强化学习 DRL

7.3 深度学习框架与实例

概念

Tensorflow

Keras

Pytorch

Caffe

Paddlepaddle(百度飞桨)

案例:mnist 手写数字识别

=======================================

框架图片(忽略后面的页码):

《数据挖掘》学习框架相关推荐

  1. 【数据挖掘】数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )

    文章目录 I . 数据挖掘 功能 II . 数据挖掘 结果判断 III . 数据挖掘 学习框架 IV . 数据挖掘 分类 I . 数据挖掘 功能 1 . 概念描述 ( Concept Descript ...

  2. TensorFlow领衔,七大深度学习框架大对比!

    作者|黄文坚 唐源 编辑|小智 TensorFlow 在 2015 年年底一出现就受到了极大的关注,在一个月内获得了 GitHub上超过一万颗星的关注,目前在所有的机器学习.深度学习项目中排名第一,甚 ...

  3. 2020 年最具潜力的 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台(附链接)...

    来源:AI开发者 本文约为7600字,建议阅读10分钟 本文给开发者提供了详细的各领域工具并整理了清单11 种极具潜力的 AI 工具类型. 工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开 ...

  4. 2020 年最具潜力 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台(值得收藏)

    导语:​Github 开源项目技术图 雷锋网 AI 开发者按:工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开发原则.选择与开发内容相匹配的工具,常常会使我们事半功倍.但面对人工智能的多个 ...

  5. DL-5 深度学习框架的对比

    在深度学习领域的五大巨头里,它们都各自力挺一种深度学习框架:像谷歌有自家的TensorFlow.Facebook有Torch.百度有Paddle Paddle.微软有CNTK.而亚马逊的AWS则有MX ...

  6. 聚焦CSDN技术主题月:深度学习框架的重构与思考专场回顾

    10月15日下午,在北京兆维大厦,由CSDN社区主办的技术主题月系列之--<深度学习框架的重构与思考>活动成功举办.CSDN邀请了用友畅捷通人工智能负责人张俊林.创业公司大数据总监周步恋. ...

  7. TensorFlow与主流深度学习框架对比

    引言:AlphaGo在2017年年初化身Master,在弈城和野狐等平台上横扫中日韩围棋高手,取得60连胜,未尝败绩.AlphaGo背后神秘的推动力就是TensorFlow--Google于2015年 ...

  8. 基于深度学习的异构时序事件患者数据表示学习框架

    基于深度学习的异构时序事件患者数据表示学习框架 刘卢琛, 沈剑豪, 张铭,, 王子昌, 李浩然, 刘泽群 北京大学信息科学技术学院,北京 100871   摘要:患者数据的表示学习可以将患者历史信息综 ...

  9. 8种主流深度学习框架介绍

    导读:近几年随着深度学习算法的发展,出现了许多深度学习框架.这些框架各有所长,各具特色.常用的开源框架有TensorFlow.Keras.Caffe.PyTorch.Theano.CNTK.MXNet ...

最新文章

  1. 《新一代城市大脑建设与发展》专家研讨会在京举办(新版)
  2. write up杂项:想蹭网先解开密码
  3. 【疑难杂症】vmware虚拟机提示“该虚拟机似乎正在使用中”,并且无法获取所有权解决办法(三步解决虚拟机vmware提示正在使用中的问题)
  4. 上海鸥新:基于大数据的商场实时客流分析系统
  5. c语言变量申明和定义区别,C语言中变量定义与声明的区别
  6. 【洛谷P4315】月下“毛景树”(树链剖分)
  7. 5款最适合 Windows 命令行/控制台的替代品
  8. Python学习之not,and,or篇
  9. 程序员代码面试指南-左PDF
  10. 串口程序设计——struct termios结构体
  11. 模拟卷Leetcode【普通】015. 三数之和
  12. OpenCV_tutorials 04 imgproc module - Affine Transformations
  13. ROS2机器人资料21-11-02(全面升级)
  14. 信息学奥赛一本通:1135:配对碱基链
  15. 机械设备网站建设多少钱
  16. QT简单实验——计算器
  17. 电视打开显示本网络无电视服务器,当贝市场教你网络机顶盒显示无信号怎么办?...
  18. Unity个人版设置黑色主题
  19. 马蜂窝一面:Comparable和Comparator有什么区别?
  20. layui时间选择器选择周和季度

热门文章

  1. WIN2016远程桌面服务配置和授权激活
  2. linux美元符号含义
  3. 【JavaEE基础与高级 第42章】C3P0连接数据库操作顺序
  4. 软件测试英语doc,软件测试英语单词.doc
  5. spring上传文件
  6. Ubuntu18.04 安装搭建 hadoop-3.3.0 集群
  7. ubuntu下vscode配置C++项目编译调试(json文件),以高翔octomap教程为例,顺便解决vscode无法设置断点问题.
  8. windows-sys9 :windows 系统官方下载网址
  9. 用Java语言实现文本内容对比的算法和程序
  10. 献给和我一样迷茫的人们,9天准备笔试上岸中科大MPM工程硕士的心路历程(8820字)