数据挖掘十大经典算法原理
数据挖掘十大经典算法原理
1. Apriori算法
Apriori是一种关联规则的频繁集算法,其核心思想是通过候选集生成金额情节向下检测两个阶段来挖掘频繁集。它使用支持度寻找频繁集。使用置信度确定强关联规则。
2. KNN算法
KNN算法的主要思想是计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的k个训练数据,k个数据中哪个类别的占多数,则该待测元组就属于哪个类别。
3. C4.5算法
C4.5是经典的决策树分类方法,其原理和ID3算法相似,它由ID3算法改进而来。不同的是ID3算法使用信息增益的高低创建决策结点,而C4.5是根据信息增益比来选择决策特征。
比起ID3算法他有以下新功能:
1.使用了信息增益比的概念
2.合并具有连续属性的值
3.可以处理缺少属性值得样本
4.使用不同的修剪技术避免过度拟合
4. k-means算法
k-means算法是一种迭代求解的聚类分析算法,其步骤是随机选取k个对象作为初始的聚类中心点,然后计算每个对象与种子聚类中心点的距离,吧每个对象分配给距离它最近的聚类中心,每分配样本后重新计算新的中心点并重复以上步骤,直到满足终止条件(中心点的位置不再发生变化)
5. Em算法
EM算法是一类通过迭代进行极大似然估计的优化算法。一般重复一下两个步骤:
1.E(估计)步骤:使用当前的h和观察数据X来估计Y的概率分布以计算Q(h’|h)
2.M(最大化)步骤:奖假设h替换为使得Q函数最大化的假设h’
6. CART算法
CART算法是一种分类决策树算法,与C4.5和ID3算法不同的是它使用基尼指数来代替信息增益。基尼指数代表了模型的不纯度,基尼指数越小,不纯度越低,特征越好。与C4.5相同,CART算法处理连续值得时候需要将其离散化。
7.Naive Baye
是以贝叶斯为基础,使用概率统计的知识对样本就行分类。由于有着坚实的数学基础,所以贝叶斯算法的误判率是很低的。贝叶斯的特点是结合先验和后验概率,避免了只是用先验概率的主观偏见。
8.PageRank
PageRank根据网页被其他网站链接的次数来衡量网站的价值,被链接的次数越多,说明网站的价值越高。
数据挖掘十大经典算法原理相关推荐
- 数据挖掘十大经典算法笔记
主要总结一下数据挖掘十大经典算法,包括各自优缺点, 适用数据场景,做个小笔记,分享一下 数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求.而这三类里又 ...
- 数据挖掘十大经典算法之——Naive Bayes 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
- 数据挖掘十大经典算法之——AdaBoost 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
- 数据挖掘十大经典算法之——K-Means 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
- 数据挖掘十大经典算法之——C4.5 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
- 数据挖掘十大经典算法(详解)
数据挖掘十大经典算法 一. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法 ...
- [转]数据挖掘十大经典算法
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-M ...
- 数据挖掘十大经典算法之——CART 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
- DataMining学习2_数据挖掘十大经典算法
数据挖掘十大经典算法 一. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: ...
- 数据挖掘十大经典算法之——EM 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
最新文章
- 《Lua游戏开发实践指南》学习笔记3
- 简单理解Ext.DomQuery操作CSS3选择器
- php mongo分页查询,PHP操作Mongodb之高级查询篇
- jfreechart demo 源代码 下载
- 如何判断当前的SAP Spartacus已经运行在SSR模式,而不是PWA模式下了
- div覆盖div DIV相互重叠如何解决
- pandas数据聚合与分组
- 1.4 测试各阶段(单元、集成、系统 、Alpha、Beta、验收)
- 《迅雷链精品课》第十二课:PoW 共识算法
- cas session共享
- Android8.1 MTK平台 SystemUI源码分析之 Notification流程
- java接收二进制数据,java接口接收二进制流
- 大数据认定奖补条件2022年安徽省部分地市大数据企业认定奖补条件办法政策
- [愚见]Lightening Network for Low-LightImage Enhancement
- 使用webpack将ES6转化ES5, Browerify
- POI解析Excel表格
- 制作stlink(烧录部分)
- 数据藏在json文件中,如何爬取---以王者荣耀官网为例
- 虾皮开店之聊聊回复率你真的懂吗?
- mysqld: error while loading shared libraries: libaio.so.1: cannot open shared object完美解决方案
热门文章
- visio2019即点即用版本兼容下载与安装
- 去除右键菜单中图形属性、图形选项
- sql语句学习之having用法
- 2019淘宝最新类目清单免费提供欢迎点赞
- 应用java编写 按键小脚本_一个使用JAVA编写的类似按键精灵的程序,支持脚本文件编写(含源代码) | 学步园...
- android pickerview 多行,Android仿ios条件选择器pickerview
- No package python27 available
- python 2.7安装pandas失败
- 【网络覆盖优化】基于matlab的网络覆盖遗传优化问题仿真
- java编程过程——流程图