《数据挖掘》学习框架
博主是学习了数据挖掘课后,结合教材和老师的课件,总结了这门课整体的一个知识点框架,还算比较详细,希望大家在学习数据挖掘的时候能够给大家一个参考,以及知识点的查漏补缺。有遗漏和错误的地方多谢指正。
参考教材:《数据挖掘:概念与技术》,(美)Jiawei Han / (加)Micheline Kamber / (加)Jian Pei,机械工业出版社
课件暂时不能分享,毕竟没有经过老师同意
标注 * 星号的为重点内容
框架目录
- 第0章 课程概述
- 0.1 引言
- 0.2 数据挖掘概念及必要性
- 0.3 数据挖掘的主要任务
- 0.4 案列分析
- 第1章 引论
- 1.1 为什么进行数据
- 1.2 什么是数据挖掘
- * 数据挖掘过程/步骤
- 1.3 可以挖掘什么类型的数据
- 1.4 可以挖掘什么类型的模式
- 1.5 使用什么技术
- 1.6 面向什么类型的应用
- 1.7 数据挖掘的主要问题
- 1.8 小结
- 第2章 了解数据
- 2.1 数据对象和属性类型
- * 数据集合的类型
- 结构数据的重要特征
- * 属性类型
- 2.2 数据的基本统计描述
- 度量数据的中心趋势
- 度量数据散布
- * 盒图
- 直方图
- 分位数图
- * Q-Q 图
- 散布图
- 2.3 数据可视化
- 几何投影可视化技术
- 2.4 测量数据相似性和相异性
- 相似性和相异性
- 标称属性的邻近度量
- * 二进制属性的邻近度量(Jaccard/Tanimoto系数)
- 二进制属性的相异度量
- * 闵可夫斯基距离(曼哈顿、欧式、上确界距离)
- 有序变量
- 混合型属性
- * 余弦相似性
- 2.5 小结
- 第3章 数据预处理
- 3.1 数据预处理:概述
- 数据质量的评价指标
- 数据预处理的主要任务
- 3.2 数据清理
- 处理缺失数据
- 噪声数据
- * 分箱
- 数据清理作为一个过程
- 3.3 数据集成
- 冗余数据处理
- * 相关系数(皮尔逊相关系数)
- 协方差
- * 卡方检验
- 3.4 数据规约
- 维规约
- * 小波变换、傅里叶变换
- * 主成分分析PCA
- * 特征选择、决策树规约
- 数量规约
- 回归分析
- 直方图
- 聚类、抽样
- 数据压缩
- 3.5 数据变换和数据离散化
- 数据变换
- 规范化方法
- * 最小-最大规范化(Min-Max)
- * Z-分数规范化(Z-Score)
- 小数定标
- 离散化和概念分层
- * Chi-Merge 分箱离散化
- 自然划分离散化
- 概念分层
- 3.6 小结
- 第4章 挖掘频繁模式、关联和相关性:基本概念和方法
- 4.1 基本概念
- 什么是频繁项集分析
- 为什么频繁模式重要
- 关联规则基本术语和定义
- * 闭频繁项集、极大频繁项集
- 4.2 频繁项集挖掘方法
- * Apriori 算法
- 步骤
- 关联规则两条性质
- 伪代码
- 提高 Apriori 算法的效率
- * FP-Growth 算法(挖掘频繁项集的模式增长方法)
- 构造FP树
- 构造条件模式基
- 构造条件FP树
- 其他相关方法
- 用垂直数据格式挖掘频繁项集
- 挖掘闭模式、极大模式
- 4.3 模式评估方法
- * 提升度 lift
- * 全置信度 all_conf、最大置信度 max_conf、Kulc 度量、余弦度量cosine、零不变度量
- 例子:各种度量的比较
- 4.4 小结
- 第5章 分类:基本概念
- 5.1 基本概念
- 有监督、无监督、分类、预测
- 分类的过程
- 5.2 * 决策树归纳
- 例子、伪代码
- 算法步骤
- 属性选择的度量(信息增益、增益率、Gini指标)
- * 信息增益(ID3/C4.5算法)
- * 增益率(C4.5算法)
- * 基尼指数 Gini
- 三种比较
- 其他度量指标
- 过拟合与剪枝
- 决策树归纳的增强
- 大型数据库分类
- RainForest(雨林)算法
- BOAT(自助乐观)算法
- 5.3 * 贝叶斯分类方法
- 贝叶斯理论、概念
- 朴素贝叶斯(NB)分类
- 例子
- * 避免零概率(拉布拉斯校准)
- 优缺点
- 5.4 基于规则的分类
- IF-THEN 规则分类
- 从决策树提取规则
- * 顺序覆盖算法(FOIL)
- 基本步骤
- 规则产生
- 伪代码、学习步骤
- 规则质量度量与剪枝
- 5.5 模型评估与选择
- 评价指标
- * 混淆矩阵(Confusion Matrix)
- * 准确度(Accuracy)、误差率(Error Rate)、敏感度(Sensitivity)、特效性(Specificity)
- * 精度(Precision)、召回率(Recall)、F度量(F-Score)
- 评测分类器的正确率(交叉验证)
- 自助法
- * 估计置信区间
- * 模型选择:ROC曲线图
- 5.6 提高分类准确率的技术
- 5.7 小结
- 第6章 聚类分析:基本概念和方法
- 6.1 聚类分析
- 概念 、应用
- 主要步骤
- 要求
- 聚类的主要方法
- 6.2 划分方法
- 概念
- * k-平均(K-Means)算法
- * k-中心点(PAM)算法
- 6.3 层次方法
- 概念
- AGNES、DIANA算法
- * 类间距离度量(最小/大距离、平均值距离、平均距离)
- 缺点
- * BIRCH 算法
- CF 树
- * Chameleon(变色龙)算法
- 概率层次聚类
- 6.4 基于密度的方法
- 概念、特点、术语
- * DBSCAN 算法
- * OPTICS 算法
- Denclue 算法
- 6.5 基于网格的方法
- 概念
- * STING(统计信息网格)算法
- * CLIQUE 算法
- 6.6 聚类评估
- 估计聚类趋势(霍普金斯统计量)
- 确定聚类类别数目
- 聚类质量评估
- 外在方法
- 内在方法(轮廓系数)
- 6.7 小结
- 第7章 深度学习
- 7.1 神经网络基础
- 概述
- 神经元模型
- *激活函数
- 阶跃函数、* Sigmoid 函数
- 梯度弥散(梯度消失)
- Tanh 函数、* Relu 函数、P-Relu 函数、* SoftMax 函数
- 函数选择建议
- 神经网络结构(输入层、隐藏层、输出层)
- 代价函数
- 二次代价函数(回归)
- * 交叉熵代价函数(相对熵、交叉熵)
- 梯度下降
- * 反向传播算法(BP)
- 神经网络训练方法
- * 过拟合、欠拟合
- * 过拟合解决方法(早停、正则化、Dropout、数据增强)
- 数据增强(增加训练集样本数)
- 7.2 深度学习概念及模型
- 深度学习概念
- 概念
- 发展历程
- 深度学习和机器学习区别
- 应用(CV、语音识别、NLP)
- * 卷积神经网络 CNN
- 原理
- * 卷积
- Ø 注意运算符号是卷积还是乘号:乘号在 CNN 中直接对应相乘相加;卷积号是颠倒相乘相加
- 池化 Pooling
- 局部连接
- 权值共享
- 网络结构
- AlphaGo(阿法狗)
- 生成对抗网络 GAN
- 深度强化学习 DRL
- 7.3 深度学习框架与实例
- 概念
- Tensorflow
- Keras
- Pytorch
- Caffe
- Paddlepaddle(百度飞桨)
- 案例:mnist 手写数字识别
- 框架图片(忽略后面的页码):
第0章 课程概述
0.1 引言
0.2 数据挖掘概念及必要性
0.3 数据挖掘的主要任务
0.4 案列分析
第1章 引论
1.1 为什么进行数据
1.2 什么是数据挖掘
* 数据挖掘过程/步骤
1.3 可以挖掘什么类型的数据
1.4 可以挖掘什么类型的模式
1.5 使用什么技术
1.6 面向什么类型的应用
1.7 数据挖掘的主要问题
1.8 小结
第2章 了解数据
2.1 数据对象和属性类型
* 数据集合的类型
结构数据的重要特征
* 属性类型
2.2 数据的基本统计描述
度量数据的中心趋势
度量数据散布
* 盒图
直方图
分位数图
* Q-Q 图
散布图
2.3 数据可视化
几何投影可视化技术
2.4 测量数据相似性和相异性
相似性和相异性
标称属性的邻近度量
* 二进制属性的邻近度量(Jaccard/Tanimoto系数)
二进制属性的相异度量
* 闵可夫斯基距离(曼哈顿、欧式、上确界距离)
有序变量
混合型属性
* 余弦相似性
2.5 小结
第3章 数据预处理
3.1 数据预处理:概述
数据质量的评价指标
数据预处理的主要任务
3.2 数据清理
处理缺失数据
噪声数据
* 分箱
数据清理作为一个过程
3.3 数据集成
冗余数据处理
* 相关系数(皮尔逊相关系数)
协方差
* 卡方检验
3.4 数据规约
维规约
* 小波变换、傅里叶变换
* 主成分分析PCA
* 特征选择、决策树规约
数量规约
回归分析
直方图
聚类、抽样
数据压缩
3.5 数据变换和数据离散化
数据变换
规范化方法
* 最小-最大规范化(Min-Max)
* Z-分数规范化(Z-Score)
小数定标
离散化和概念分层
* Chi-Merge 分箱离散化
自然划分离散化
概念分层
3.6 小结
第4章 挖掘频繁模式、关联和相关性:基本概念和方法
4.1 基本概念
什么是频繁项集分析
为什么频繁模式重要
关联规则基本术语和定义
* 闭频繁项集、极大频繁项集
4.2 频繁项集挖掘方法
* Apriori 算法
步骤
关联规则两条性质
伪代码
提高 Apriori 算法的效率
* FP-Growth 算法(挖掘频繁项集的模式增长方法)
构造FP树
构造条件模式基
构造条件FP树
其他相关方法
用垂直数据格式挖掘频繁项集
挖掘闭模式、极大模式
4.3 模式评估方法
* 提升度 lift
* 全置信度 all_conf、最大置信度 max_conf、Kulc 度量、余弦度量cosine、零不变度量
例子:各种度量的比较
4.4 小结
第5章 分类:基本概念
5.1 基本概念
有监督、无监督、分类、预测
分类的过程
5.2 * 决策树归纳
例子、伪代码
算法步骤
属性选择的度量(信息增益、增益率、Gini指标)
* 信息增益(ID3/C4.5算法)
* 增益率(C4.5算法)
* 基尼指数 Gini
三种比较
其他度量指标
过拟合与剪枝
决策树归纳的增强
大型数据库分类
RainForest(雨林)算法
BOAT(自助乐观)算法
5.3 * 贝叶斯分类方法
贝叶斯理论、概念
朴素贝叶斯(NB)分类
例子
* 避免零概率(拉布拉斯校准)
优缺点
5.4 基于规则的分类
IF-THEN 规则分类
从决策树提取规则
* 顺序覆盖算法(FOIL)
基本步骤
规则产生
伪代码、学习步骤
规则质量度量与剪枝
5.5 模型评估与选择
评价指标
* 混淆矩阵(Confusion Matrix)
* 准确度(Accuracy)、误差率(Error Rate)、敏感度(Sensitivity)、特效性(Specificity)
* 精度(Precision)、召回率(Recall)、F度量(F-Score)
评测分类器的正确率(交叉验证)
自助法
* 估计置信区间
* 模型选择:ROC曲线图
5.6 提高分类准确率的技术
组合方法 装袋(Bagging) 提升(Boosting) Adaboost 算法 随机森林(Random Forest)算法
5.7 小结
第6章 聚类分析:基本概念和方法
6.1 聚类分析
概念 、应用
主要步骤
要求
聚类的主要方法
6.2 划分方法
概念
* k-平均(K-Means)算法
* k-中心点(PAM)算法
6.3 层次方法
概念
AGNES、DIANA算法
* 类间距离度量(最小/大距离、平均值距离、平均距离)
缺点
* BIRCH 算法
CF 树
* Chameleon(变色龙)算法
概率层次聚类
6.4 基于密度的方法
概念、特点、术语
* DBSCAN 算法
* OPTICS 算法
Denclue 算法
6.5 基于网格的方法
概念
* STING(统计信息网格)算法
* CLIQUE 算法
6.6 聚类评估
估计聚类趋势(霍普金斯统计量)
确定聚类类别数目
聚类质量评估
外在方法
内在方法(轮廓系数)
6.7 小结
第7章 深度学习
7.1 神经网络基础
概述
神经元模型
*激活函数
阶跃函数、* Sigmoid 函数
梯度弥散(梯度消失)
Tanh 函数、* Relu 函数、P-Relu 函数、* SoftMax 函数
函数选择建议
神经网络结构(输入层、隐藏层、输出层)
代价函数
二次代价函数(回归)
* 交叉熵代价函数(相对熵、交叉熵)
梯度下降
* 反向传播算法(BP)
神经网络训练方法
* 过拟合、欠拟合
* 过拟合解决方法(早停、正则化、Dropout、数据增强)
数据增强(增加训练集样本数)
7.2 深度学习概念及模型
深度学习概念
概念
发展历程
深度学习和机器学习区别
应用(CV、语音识别、NLP)
* 卷积神经网络 CNN
原理
* 卷积
Ø 注意运算符号是卷积还是乘号:乘号在 CNN 中直接对应相乘相加;卷积号是颠倒相乘相加
池化 Pooling
局部连接
权值共享
网络结构
AlphaGo(阿法狗)
生成对抗网络 GAN
深度强化学习 DRL
7.3 深度学习框架与实例
概念
Tensorflow
Keras
Pytorch
Caffe
Paddlepaddle(百度飞桨)
案例:mnist 手写数字识别
=======================================
框架图片(忽略后面的页码):
《数据挖掘》学习框架相关推荐
- 【数据挖掘】数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )
文章目录 I . 数据挖掘 功能 II . 数据挖掘 结果判断 III . 数据挖掘 学习框架 IV . 数据挖掘 分类 I . 数据挖掘 功能 1 . 概念描述 ( Concept Descript ...
- TensorFlow领衔,七大深度学习框架大对比!
作者|黄文坚 唐源 编辑|小智 TensorFlow 在 2015 年年底一出现就受到了极大的关注,在一个月内获得了 GitHub上超过一万颗星的关注,目前在所有的机器学习.深度学习项目中排名第一,甚 ...
- 2020 年最具潜力的 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台(附链接)...
来源:AI开发者 本文约为7600字,建议阅读10分钟 本文给开发者提供了详细的各领域工具并整理了清单11 种极具潜力的 AI 工具类型. 工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开 ...
- 2020 年最具潜力 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台(值得收藏)
导语:Github 开源项目技术图 雷锋网 AI 开发者按:工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开发原则.选择与开发内容相匹配的工具,常常会使我们事半功倍.但面对人工智能的多个 ...
- DL-5 深度学习框架的对比
在深度学习领域的五大巨头里,它们都各自力挺一种深度学习框架:像谷歌有自家的TensorFlow.Facebook有Torch.百度有Paddle Paddle.微软有CNTK.而亚马逊的AWS则有MX ...
- 聚焦CSDN技术主题月:深度学习框架的重构与思考专场回顾
10月15日下午,在北京兆维大厦,由CSDN社区主办的技术主题月系列之--<深度学习框架的重构与思考>活动成功举办.CSDN邀请了用友畅捷通人工智能负责人张俊林.创业公司大数据总监周步恋. ...
- TensorFlow与主流深度学习框架对比
引言:AlphaGo在2017年年初化身Master,在弈城和野狐等平台上横扫中日韩围棋高手,取得60连胜,未尝败绩.AlphaGo背后神秘的推动力就是TensorFlow--Google于2015年 ...
- 基于深度学习的异构时序事件患者数据表示学习框架
基于深度学习的异构时序事件患者数据表示学习框架 刘卢琛, 沈剑豪, 张铭,, 王子昌, 李浩然, 刘泽群 北京大学信息科学技术学院,北京 100871 摘要:患者数据的表示学习可以将患者历史信息综 ...
- 8种主流深度学习框架介绍
导读:近几年随着深度学习算法的发展,出现了许多深度学习框架.这些框架各有所长,各具特色.常用的开源框架有TensorFlow.Keras.Caffe.PyTorch.Theano.CNTK.MXNet ...
最新文章
- 《新一代城市大脑建设与发展》专家研讨会在京举办(新版)
- write up杂项:想蹭网先解开密码
- 【疑难杂症】vmware虚拟机提示“该虚拟机似乎正在使用中”,并且无法获取所有权解决办法(三步解决虚拟机vmware提示正在使用中的问题)
- 上海鸥新:基于大数据的商场实时客流分析系统
- c语言变量申明和定义区别,C语言中变量定义与声明的区别
- 【洛谷P4315】月下“毛景树”(树链剖分)
- 5款最适合 Windows 命令行/控制台的替代品
- Python学习之not,and,or篇
- 程序员代码面试指南-左PDF
- 串口程序设计——struct termios结构体
- 模拟卷Leetcode【普通】015. 三数之和
- OpenCV_tutorials 04 imgproc module - Affine Transformations
- ROS2机器人资料21-11-02(全面升级)
- 信息学奥赛一本通:1135:配对碱基链
- 机械设备网站建设多少钱
- QT简单实验——计算器
- 电视打开显示本网络无电视服务器,当贝市场教你网络机顶盒显示无信号怎么办?...
- Unity个人版设置黑色主题
- 马蜂窝一面:Comparable和Comparator有什么区别?
- layui时间选择器选择周和季度
热门文章
- WIN2016远程桌面服务配置和授权激活
- linux美元符号含义
- 【JavaEE基础与高级 第42章】C3P0连接数据库操作顺序
- 软件测试英语doc,软件测试英语单词.doc
- spring上传文件
- Ubuntu18.04 安装搭建 hadoop-3.3.0 集群
- ubuntu下vscode配置C++项目编译调试(json文件),以高翔octomap教程为例,顺便解决vscode无法设置断点问题.
- windows-sys9 :windows 系统官方下载网址
- 用Java语言实现文本内容对比的算法和程序
- 献给和我一样迷茫的人们,9天准备笔试上岸中科大MPM工程硕士的心路历程(8820字)