文章目录

  • 一、 数据挖掘算法组件化思想
  • 二、 Apriori 算法 ( 关联分析算法 )
  • 三、 K-means 算法 ( 聚类分析算法 )
  • 四、 ID3 算法 ( 决策树算法 )

一、 数据挖掘算法组件化思想


0 . 数据挖掘算法的五个标准组件 :

  • ① 模型或模式结构 : 决策树模型 , ( 信念 ) 贝叶斯模型 , 神经网络模型 等 ;
  • ② 数据挖掘任务 : 概念描述 , 关联分析 , 分类 , 聚类 , 异常检测 , 趋势分析 等 ;
  • ③ 评分函数 : 误差平方和 , 最大似然 , 准确率 等 ;
  • ④ 搜索和优化方法 : 随机梯度下降 ;
  • ⑤ 数据管理策略 : 数据存储 , 数据库相关 ;

1 . 模型或模式结构 : 通过 数据挖掘过程 得到知识 ; 是算法的输出格式 , 使用 模型 / 模式 将其表达出来, 如 : 线性回归模型 , 层次聚类模型 , 频繁序列模式 等 ;

2 . 数据挖掘任务分类 : 根据数据挖掘的目标 , 可以将数据挖掘任务分为以下几类 : ① 模式挖掘 , ② 描述建模 , ③ 预测建模 ;

① 模式挖掘 : 如 异常模式 , 频繁模式 ;

② 描述建模 : 如 聚类分析 ;

③ 预测建模 : 如 分类预测 , 趋势分析等 ;

3 . 评分函数 :

① 评分函数概念 : 评分函数用于评估 数据集 与 模型 ( 模式 ) 的拟合程度 , 值 越大 ( 越小 ) 越好 ;

② 评分函数作用 : 为 模型 ( 模式 ) 选出最合适的参数值 ;

4 . 搜索和优化算法作用 : 确定 模型 ( 模式 ) 以及其相关的 参数值 , 该模型 ( 模式 ) 使评分函数 达到某个最大 ( 最小 ) 值 ; 本质是帮助评分函数取得 最大 ( 最小 ) 值的方法 ;

① 结构确定求参数 ( 优化问题 ) : 模型 ( 模式 ) 结构确定后 , 目的就是为了确定参数值 , 针对固定的 模式 ( 模型 ) 结构 , 确定一组参数值 , 使评分函数最优 , 这是优化问题 ;

② 结构不确定 ( 搜索问题 ) : 搜索 既需要确定 模型 ( 模式 ) 的结构 , 又需要确定其参数值 , 这种类型是搜索问题 ;

5 . 数据管理策略 : 传统数据与大数据 ;

① 传统数据 ( 内存管理数据 ) : 传统的数据管理方法是将数据都放入内存中 , 少量数据 , 直接在内存中处理 , 不需要特别关注数据管理技术 ;

② 大数据 ( 集群管理数据 ) : 数据挖掘中的数据一般是 GB , TB 甚至 PB 级别的大数据 , 如果使用传统的内存算法处理这些数据 , 性能会很低 ;

二、 Apriori 算法 ( 关联分析算法 )


1 . 数据挖掘任务 : 关联模式挖掘 ;

2 . 模型 ( 模式 ) 结构 : 关联规则 , 类似于键值对结构 , 如购买啤酒的很大几率购买尿布 , 规则如下 : {啤酒} -> {尿布} ;

3 . 搜索空间 : 针对一个 “格” , 这个 “格” 是所有条目的可能组合 ; 如对购买的商品进行关联分析 , 那么搜索空间就是所有的商品 ;

4 . 搜索空间示例 : 有 4 种商品 A , B , C , D , 购买时有可能产生哪些组合呢 :

如果购买 1 个商品 , 有 C(4 , 1) 种组合 ;
如果购买 2 个商品 , 有 C(4 , 2) 种组合 ;
如果购买 3 个商品 , 有 C(4 , 3) 种组合 ;
如果购买 4 个商品 , 有 C(4 , 4) 种组合 ;

搜索空间就是上面的所有可能组合 ; 其中 C(4 , 2) 就是从 4 个元素的集合中任选 2 个的组合 , 参考离散数学的排列组合公式 ;

5 . 搜索空间概念 : 搜索和优化算法的搜索空间 , 如宽度优先遍历图时 , 先要有图的数据结构 , 这个图的数据结构就是搜索空间 ;

6 . 评分函数 : 支持度 , 可信度 ;

7 . 搜索和优化算法 : 宽度优先搜索 ;

8 . 数据管理策略 : 内存中管理数据 ;

三、 K-means 算法 ( 聚类分析算法 )


1 . 数据挖掘任务 : 聚类分析 ;

2 . 模型 ( 模式 ) 结构 : 聚类结果 , 将数据分组 , 若干组数据就是聚类分析的结果 ;

3 . 搜索空间 : 找到中心点 , 其它成员向其靠拢 , 以此为依据分组 ;

4 . 评分函数 : 误差平方和 ;

5 . 搜索优化方法 : 梯度下降方法 ;

6 . 数据管理策略 : 内存管理 ;

四、 ID3 算法 ( 决策树算法 )


1 . 数据挖掘任务 : 分类 ;

2 . 模型 ( 模式 ) 结构 : 决策树 , 树型结构 ;

3 . 搜索空间 : 决策树的所有可能的组合 ;

4 . 评分函数 : 准确率 , 分类结果越准确越好 ; 信息增益 ;

5 . 搜索优化方法 : 贪婪算法 , 确保当前步骤最优 , 但全局不一定最优 ;

6 . 数据管理策略 : 内存管理 ;

【数据挖掘】数据挖掘算法 组件化思想 示例分析 ( 组件化思想 | Apriori 算法 | K-means 算法 | ID3 算法 )相关推荐

  1. 【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )

    文章目录 I . 拼写纠正 简介 II . 拼写纠正 案例需求 III . 计算每个假设的概率 IV . 引入 贝叶斯公式 V . 使用贝叶斯公式计算每个假设的概率 VI . 比较每个假设概率时 P( ...

  2. 【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★

    文章目录 一. 贝叶斯分类器分类的流程 二. 拉普拉斯修正 三. 贝叶斯分类器示例2 参考博客 : [数据挖掘]贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公 ...

  3. 【算法设计与分析】14 分治算法的一般描述和分析方法

    本文主要描述分治算法的一般描述和分析方法.衔接上一篇文章:[算法设计与分析]13 分治策略的设计思想 文章目录 1 分治算法的一般性描述 1.1 分支算法的时间分析 1.2 两类常见的递推方程与求解方 ...

  4. 利用计算机语言实现ID3算法,机器学习之决策树学习-id3算法-原理分析及c语言代码实现.pdf...

    机器学习之决策树学习-id3算法-原理分析及c语言代码实现.pdf 还剩 23页未读, 继续阅读 下载文档到电脑,马上远离加班熬夜! 亲,很抱歉,此页已超出免费预览范围啦! 如果喜欢就下载吧,价低环保 ...

  5. 决策树的生成—ID3算法

    决策树的生成-ID3算法 算法由来: 决策树算法最开始是由Hunt Earl B提出的CLS(Concept Learning System),但是没有给出采用什么方法选择最优特征,后面罗斯昆(J. ...

  6. 机器学习——使用ID3算法从原理到实际举例理解决策树

    文章目录 一.什么是决策树 二.介绍建立决策树的算法 三.决策树的一般流程 四.实际举例构建决策树 使用ID3算法的原理实现构建决策树 参考链接 一.什么是决策树 基本概念 决策树是一种树形结构,其组 ...

  7. 【数据挖掘】卷积神经网络 ( 池化 | 丢弃 | 批量规范化 | 卷积神经网络完整流程示例 | 卷积 | 池化 | 全连接 | 输出 | 卷积神经网络总结 )

    文章目录 I . 池化 II . 丢弃操作 III . 批量规范化 IV . 卷积神经网络 完整流程示例 ( 1 ) : 原始输入图 V . 卷积神经网络 完整流程示例 ( 2 ) : 卷积层 C1C ...

  8. 数据仓库、OLAP和 数据挖掘、统计分析的关系和区别分析 .

    数据仓库.OLAP和 数据挖掘.统计分析的关系和区别分析 一.什么是数据挖掘 数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Databas ...

  9. 对足球轨迹进行计算机仿真,基于数据挖掘的足球最优射门角度分析

    刘溢鑫 摘 要: 为了提高足球射门的准确度,提出数据挖掘的足球最优射门角度分析算法.采用粒子群算法把球场规划为一个虚拟的网格环境,对足球射门路径点实时标定和叠加特性进行分析,根据球场环境中的信息素,粒 ...

最新文章

  1. 笔记-高项案例题-2017年上-变更管理-需求管理
  2. SQLserver2008数据表的修改操作
  3. Redis-Predis 扩展
  4. 动态规划—最长公共子串
  5. 支付宝回应手机黑产;微软将允许员工永久在家办公;Flutter 1.22 正式发布|极客头条
  6. RHEL 5 rpm包安装bind
  7. html怎么用脚本显示隐藏,使用隐藏状态而不是注释或自定义脚本标记来模板化HTML...
  8. 挑战程序设计竞赛2 算法与数据结构 笔记
  9. html等宽字体汉字,等宽字体(Monospaced Font)
  10. guide, manual, tutorial之间的区别
  11. 多人对战中国象棋文档
  12. struts1——静态ActionForm与动态ActionForm
  13. python把英语句子成分字母_英语句子成分
  14. C/C++ 常用程序库
  15. Python数学计算工具1、海伦公式计算三角形面积
  16. 普瑞PS8742 Switch V0.9
  17. 2020-10-18Go语言接口
  18. linux加新的硬盘,linux添加新硬盘
  19. 一款可以链接access数据库的工具
  20. Sharding JDBC(四) 分片策略一:标准分片策略StandardShardingStrategy

热门文章

  1. ASP.NET 网站路径[转载]
  2. jenkins内置变量的使用
  3. is_valid校验机制
  4. bzoj1095: [ZJOI2007]Hide 捉迷藏 动态点分治学习
  5. 2014百度之星资格赛 1001:Energy Conversion(水题,逻辑题)
  6. IBM HACMP 系列 -- 安装和配置三
  7. SQL SERVER 2000 安装问题
  8. 入门Leaflet之小Demo
  9. windows中卸载Jenkins
  10. .Net Core Cors中间件解析