博主是学习了数据挖掘课后，结合教材和老师的课件，总结了这门课整体的一个知识点框架，还算比较详细，希望大家在学习数据挖掘的时候能够给大家一个参考，以及知识点的查漏补缺。有遗漏和错误的地方多谢指正。

参考教材：《数据挖掘：概念与技术》，（美）Jiawei Han / （加）Micheline Kamber / （加）Jian Pei，机械工业出版社

课件暂时不能分享，毕竟没有经过老师同意

标注 * 星号的为重点内容

框架目录

第0章课程概述
- 0.1 引言
- 0.2 数据挖掘概念及必要性
- 0.3 数据挖掘的主要任务
- 0.4 案列分析
第1章引论
- 1.1 为什么进行数据
- 1.2 什么是数据挖掘
- - * 数据挖掘过程/步骤
- 1.3 可以挖掘什么类型的数据
- 1.4 可以挖掘什么类型的模式
- 1.5 使用什么技术
- 1.6 面向什么类型的应用
- 1.7 数据挖掘的主要问题
- 1.8 小结
第2章了解数据
- 2.1 数据对象和属性类型
- - * 数据集合的类型
  - 结构数据的重要特征
  - * 属性类型
- 2.2 数据的基本统计描述
- - 度量数据的中心趋势
  - 度量数据散布
  - * 盒图
  - 直方图
  - 分位数图
  - * Q-Q 图
  - 散布图
- 2.3 数据可视化
- - 几何投影可视化技术
- 2.4 测量数据相似性和相异性
- - 相似性和相异性
  - 标称属性的邻近度量
  - * 二进制属性的邻近度量（Jaccard/Tanimoto系数）
  - 二进制属性的相异度量
  - * 闵可夫斯基距离（曼哈顿、欧式、上确界距离）
  - 有序变量
  - 混合型属性
  - * 余弦相似性
- 2.5 小结
第3章数据预处理
- 3.1 数据预处理：概述
- - 数据质量的评价指标
  - 数据预处理的主要任务
- 3.2 数据清理
- - 处理缺失数据
  - 噪声数据
  - * 分箱
  - 数据清理作为一个过程
- 3.3 数据集成
- - 冗余数据处理
  - * 相关系数（皮尔逊相关系数）
  - 协方差
  - * 卡方检验
- 3.4 数据规约
- - 维规约
  - - * 小波变换、傅里叶变换
    - * 主成分分析PCA
    - * 特征选择、决策树规约
  - 数量规约
  - - 回归分析
    - 直方图
    - 聚类、抽样
    - 数据压缩
- 3.5 数据变换和数据离散化
- - 数据变换
  - 规范化方法
  - - * 最小-最大规范化（Min-Max）
    - * Z-分数规范化（Z-Score）
    - 小数定标
  - 离散化和概念分层
  - - * Chi-Merge 分箱离散化
    - 自然划分离散化
    - 概念分层
- 3.6 小结
第4章挖掘频繁模式、关联和相关性：基本概念和方法
- 4.1 基本概念
- - 什么是频繁项集分析
  - 为什么频繁模式重要
  - 关联规则基本术语和定义
  - * 闭频繁项集、极大频繁项集
- 4.2 频繁项集挖掘方法
- - * Apriori 算法
  - - 步骤
    - 关联规则两条性质
    - 伪代码
  - 提高 Apriori 算法的效率
  - * FP-Growth 算法（挖掘频繁项集的模式增长方法）
  - - 构造FP树
    - 构造条件模式基
    - 构造条件FP树
    - 其他相关方法
  - 用垂直数据格式挖掘频繁项集
  - 挖掘闭模式、极大模式
- 4.3 模式评估方法
- - * 提升度 lift
  - * 全置信度 all_conf、最大置信度 max_conf、Kulc 度量、余弦度量cosine、零不变度量
  - 例子：各种度量的比较
- 4.4 小结
第5章分类：基本概念
- 5.1 基本概念
- - 有监督、无监督、分类、预测
  - 分类的过程
- 5.2 * 决策树归纳
- - 例子、伪代码
  - 算法步骤
  - 属性选择的度量（信息增益、增益率、Gini指标）
  - - * 信息增益（ID3/C4.5算法）
    - * 增益率（C4.5算法）
    - * 基尼指数 Gini
    - 三种比较
    - 其他度量指标
  - 过拟合与剪枝
  - 决策树归纳的增强
  - 大型数据库分类
  - - RainForest（雨林）算法
    - BOAT（自助乐观）算法
- 5.3 * 贝叶斯分类方法
- - 贝叶斯理论、概念
  - 朴素贝叶斯（NB）分类
  - 例子
  - * 避免零概率（拉布拉斯校准）
  - 优缺点
- 5.4 基于规则的分类
- - IF-THEN 规则分类
  - 从决策树提取规则
  - * 顺序覆盖算法（FOIL）
  - - 基本步骤
    - 规则产生
    - 伪代码、学习步骤
    - 规则质量度量与剪枝
- 5.5 模型评估与选择
- - 评价指标
  - - * 混淆矩阵（Confusion Matrix）
    - * 准确度（Accuracy）、误差率（Error Rate）、敏感度（Sensitivity）、特效性（Specificity）
    - * 精度（Precision）、召回率（Recall）、F度量（F-Score）
  - 评测分类器的正确率（交叉验证）
  - - 自助法
    - * 估计置信区间
  - * 模型选择：ROC曲线图
- 5.6 提高分类准确率的技术
- 5.7 小结
第6章聚类分析：基本概念和方法
- 6.1 聚类分析
- - 概念、应用
  - 主要步骤
  - 要求
  - 聚类的主要方法
- 6.2 划分方法
- - 概念
  - * k-平均（K-Means）算法
  - * k-中心点（PAM）算法
- 6.3 层次方法
- - 概念
  - AGNES、DIANA算法
  - * 类间距离度量（最小/大距离、平均值距离、平均距离）
  - 缺点
  - * BIRCH 算法
  - - CF 树
  - * Chameleon（变色龙）算法
  - 概率层次聚类
- 6.4 基于密度的方法
- - 概念、特点、术语
  - * DBSCAN 算法
  - * OPTICS 算法
  - Denclue 算法
- 6.5 基于网格的方法
- - 概念
  - * STING（统计信息网格）算法
  - * CLIQUE 算法
- 6.6 聚类评估
- - 估计聚类趋势（霍普金斯统计量）
  - 确定聚类类别数目
  - 聚类质量评估
  - - 外在方法
    - 内在方法（轮廓系数）
- 6.7 小结
第7章深度学习
- 7.1 神经网络基础
- - 概述
  - 神经元模型
  - *激活函数
  - - 阶跃函数、* Sigmoid 函数
    - 梯度弥散（梯度消失）
    - Tanh 函数、* Relu 函数、P-Relu 函数、* SoftMax 函数
    - 函数选择建议
  - 神经网络结构（输入层、隐藏层、输出层）
  - 代价函数
  - - 二次代价函数（回归）
    - * 交叉熵代价函数（相对熵、交叉熵）
  - 梯度下降
  - * 反向传播算法（BP）
  - 神经网络训练方法
  - - * 过拟合、欠拟合
    - * 过拟合解决方法（早停、正则化、Dropout、数据增强）
    - 数据增强（增加训练集样本数）
- 7.2 深度学习概念及模型
- - 深度学习概念
  - - 概念
    - 发展历程
    - 深度学习和机器学习区别
    - 应用（CV、语音识别、NLP）
  - * 卷积神经网络 CNN
  - - 原理
    - * 卷积
    - - Ø 注意运算符号是卷积还是乘号：乘号在 CNN 中直接对应相乘相加；卷积号是颠倒相乘相加
    - 池化 Pooling
    - 局部连接
    - 权值共享
    - 网络结构
    - - AlphaGo（阿法狗）
  - 生成对抗网络 GAN
  - 深度强化学习 DRL
- 7.3 深度学习框架与实例
- - 概念
  - Tensorflow
  - Keras
  - Pytorch
  - Caffe
  - Paddlepaddle（百度飞桨）
  - 案例：mnist 手写数字识别
框架图片（忽略后面的页码）：

第0章课程概述

0.1 引言

0.2 数据挖掘概念及必要性

0.3 数据挖掘的主要任务

0.4 案列分析

第1章引论

1.1 为什么进行数据

1.2 什么是数据挖掘

* 数据挖掘过程/步骤

1.3 可以挖掘什么类型的数据

1.4 可以挖掘什么类型的模式

1.5 使用什么技术

1.6 面向什么类型的应用

1.7 数据挖掘的主要问题

1.8 小结

第2章了解数据

2.1 数据对象和属性类型

* 数据集合的类型

结构数据的重要特征

* 属性类型

2.2 数据的基本统计描述

度量数据的中心趋势

度量数据散布

* 盒图

直方图

分位数图

* Q-Q 图

散布图

2.3 数据可视化

几何投影可视化技术

2.4 测量数据相似性和相异性

相似性和相异性

标称属性的邻近度量

* 二进制属性的邻近度量（Jaccard/Tanimoto系数）

二进制属性的相异度量

* 闵可夫斯基距离（曼哈顿、欧式、上确界距离）

有序变量

混合型属性

* 余弦相似性

2.5 小结

第3章数据预处理

3.1 数据预处理：概述

数据质量的评价指标

数据预处理的主要任务

3.2 数据清理

处理缺失数据

噪声数据

* 分箱

数据清理作为一个过程

3.3 数据集成

冗余数据处理

* 相关系数（皮尔逊相关系数）

协方差

* 卡方检验

3.4 数据规约

维规约

* 小波变换、傅里叶变换

* 主成分分析PCA

* 特征选择、决策树规约

数量规约

回归分析

直方图

聚类、抽样

数据压缩

3.5 数据变换和数据离散化

数据变换

规范化方法

* 最小-最大规范化（Min-Max）

* Z-分数规范化（Z-Score）

小数定标

离散化和概念分层

* Chi-Merge 分箱离散化

自然划分离散化

概念分层

3.6 小结

第4章挖掘频繁模式、关联和相关性：基本概念和方法

4.1 基本概念

什么是频繁项集分析

为什么频繁模式重要

关联规则基本术语和定义

* 闭频繁项集、极大频繁项集

4.2 频繁项集挖掘方法

* Apriori 算法

步骤

关联规则两条性质

伪代码

提高 Apriori 算法的效率

* FP-Growth 算法（挖掘频繁项集的模式增长方法）

构造FP树

构造条件模式基

构造条件FP树

其他相关方法

用垂直数据格式挖掘频繁项集

挖掘闭模式、极大模式

4.3 模式评估方法

* 提升度 lift

* 全置信度 all_conf、最大置信度 max_conf、Kulc 度量、余弦度量cosine、零不变度量

例子：各种度量的比较

4.4 小结

第5章分类：基本概念

5.1 基本概念

有监督、无监督、分类、预测

分类的过程

5.2 * 决策树归纳

例子、伪代码

算法步骤

属性选择的度量（信息增益、增益率、Gini指标）

* 信息增益（ID3/C4.5算法）

* 增益率（C4.5算法）

* 基尼指数 Gini

三种比较

其他度量指标

过拟合与剪枝

决策树归纳的增强

大型数据库分类

RainForest（雨林）算法

BOAT（自助乐观）算法

5.3 * 贝叶斯分类方法

贝叶斯理论、概念

朴素贝叶斯（NB）分类

例子

* 避免零概率（拉布拉斯校准）

优缺点

5.4 基于规则的分类

IF-THEN 规则分类

从决策树提取规则

* 顺序覆盖算法（FOIL）

基本步骤

规则产生

伪代码、学习步骤

规则质量度量与剪枝

5.5 模型评估与选择

评价指标

* 混淆矩阵（Confusion Matrix）

* 准确度（Accuracy）、误差率（Error Rate）、敏感度（Sensitivity）、特效性（Specificity）

* 精度（Precision）、召回率（Recall）、F度量（F-Score）

评测分类器的正确率（交叉验证）

自助法

* 估计置信区间

* 模型选择：ROC曲线图

5.6 提高分类准确率的技术

 组合方法 装袋（Bagging） 提升（Boosting） Adaboost 算法 随机森林（Random Forest）算法

5.7 小结

第6章聚类分析：基本概念和方法

6.1 聚类分析

概念、应用

主要步骤

要求

聚类的主要方法

6.2 划分方法

概念

* k-平均（K-Means）算法

* k-中心点（PAM）算法

6.3 层次方法

概念

AGNES、DIANA算法

* 类间距离度量（最小/大距离、平均值距离、平均距离）

缺点

* BIRCH 算法

CF 树

* Chameleon（变色龙）算法

概率层次聚类

6.4 基于密度的方法

概念、特点、术语

* DBSCAN 算法

* OPTICS 算法

Denclue 算法

6.5 基于网格的方法

概念

* STING（统计信息网格）算法

* CLIQUE 算法

6.6 聚类评估

估计聚类趋势（霍普金斯统计量）

确定聚类类别数目

聚类质量评估

外在方法

内在方法（轮廓系数）

6.7 小结

第7章深度学习

7.1 神经网络基础

概述

神经元模型

*激活函数

阶跃函数、* Sigmoid 函数

梯度弥散（梯度消失）

Tanh 函数、* Relu 函数、P-Relu 函数、* SoftMax 函数

函数选择建议

神经网络结构（输入层、隐藏层、输出层）

代价函数

二次代价函数（回归）

* 交叉熵代价函数（相对熵、交叉熵）

梯度下降

* 反向传播算法（BP）

神经网络训练方法

* 过拟合、欠拟合

* 过拟合解决方法（早停、正则化、Dropout、数据增强）

数据增强（增加训练集样本数）

7.2 深度学习概念及模型

深度学习概念

概念

发展历程

深度学习和机器学习区别

应用（CV、语音识别、NLP）

* 卷积神经网络 CNN

原理

* 卷积

Ø 注意运算符号是卷积还是乘号：乘号在 CNN 中直接对应相乘相加；卷积号是颠倒相乘相加

池化 Pooling

局部连接

权值共享

网络结构

AlphaGo（阿法狗）

生成对抗网络 GAN

深度强化学习 DRL

7.3 深度学习框架与实例

概念

Tensorflow

Keras

Pytorch

Caffe

Paddlepaddle（百度飞桨）

案例：mnist 手写数字识别

=======================================

框架图片（忽略后面的页码）：

《数据挖掘》学习框架相关推荐

【数据挖掘】数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )
文章目录 I . 数据挖掘功能 II . 数据挖掘结果判断 III . 数据挖掘学习框架 IV . 数据挖掘分类 I . 数据挖掘功能 1 . 概念描述 ( Concept Descript ...
TensorFlow领衔，七大深度学习框架大对比！
作者|黄文坚唐源编辑|小智 TensorFlow 在 2015 年年底一出现就受到了极大的关注,在一个月内获得了 GitHub上超过一万颗星的关注,目前在所有的机器学习.深度学习项目中排名第一,甚 ...
2020 年最具潜力的 44 个顶级开源项目，涵盖 11 类 AI 学习框架、平台（附链接）...
来源:AI开发者本文约为7600字,建议阅读10分钟本文给开发者提供了详细的各领域工具并整理了清单11 种极具潜力的 AI 工具类型. 工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开 ...
2020 年最具潜力 44 个顶级开源项目，涵盖 11 类 AI 学习框架、平台（值得收藏）
导语:Github 开源项目技术图雷锋网 AI 开发者按:工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开发原则.选择与开发内容相匹配的工具,常常会使我们事半功倍.但面对人工智能的多个 ...
DL-5 深度学习框架的对比
在深度学习领域的五大巨头里,它们都各自力挺一种深度学习框架:像谷歌有自家的TensorFlow.Facebook有Torch.百度有Paddle Paddle.微软有CNTK.而亚马逊的AWS则有MX ...
聚焦CSDN技术主题月：深度学习框架的重构与思考专场回顾
10月15日下午,在北京兆维大厦,由CSDN社区主办的技术主题月系列之--<深度学习框架的重构与思考>活动成功举办.CSDN邀请了用友畅捷通人工智能负责人张俊林.创业公司大数据总监周步恋. ...
TensorFlow与主流深度学习框架对比
引言:AlphaGo在2017年年初化身Master,在弈城和野狐等平台上横扫中日韩围棋高手,取得60连胜,未尝败绩.AlphaGo背后神秘的推动力就是TensorFlow--Google于2015年 ...
基于深度学习的异构时序事件患者数据表示学习框架
基于深度学习的异构时序事件患者数据表示学习框架刘卢琛, 沈剑豪, 张铭,, 王子昌, 李浩然, 刘泽群北京大学信息科学技术学院,北京 100871 摘要:患者数据的表示学习可以将患者历史信息综 ...
8种主流深度学习框架介绍
导读:近几年随着深度学习算法的发展,出现了许多深度学习框架.这些框架各有所长,各具特色.常用的开源框架有TensorFlow.Keras.Caffe.PyTorch.Theano.CNTK.MXNet ...

《数据挖掘》学习框架