AI十大数据挖掘算法
C4.5 data mining algorithm
C4.5以决策树的形式构造分类器。为了做到这一点,C4.5给出了一组表示已经分类的事物的数据。是数据挖掘中的一种工具,它使用一组数据表示我们要分类的东西,并试图预测新数据属于哪个类。·
案例:假设一个数据集包含一群病人。我们了解每个病人的各种情况,如年龄、脉搏、血压、最大摄氧量、家族史等。这些被称为属性。然后根据其特性把得癌症和不得癌症的进行分类; 新的病人来了就将属性输入进行分类,得到结果;
k-means data mining algorithm
是什么?k-means从一组对象创建k个组,以便组中的成员更加相似。它是研究数据集的一种流行的聚类分析技术。可以把向量看成是我们所知道的关于病人的数字列表。这个列表也可以解释为多维空间中的坐标。脉搏可以是一个维度,血压可以是另一个维度;
使用:只需要告诉其需要多少个簇,就可以得到相似的病人;
SVM data mining algorithm
是什么? 支持向量机(SVM)学习一个超平面(y= m*x + b)将数据分类为两类。在高层次上,支持向量机执行类似于C4.5的任务,只是支持向量机根本不使用决策树。
案例:如果我们有一个病人数据集,每个病人都可以通过各种测量来描述,比如脉搏、胆固醇水平、血压等等。每一个测量值都是一个维度。底线是:
Apriori data mining algorithm
是什么? Apriori算法学习关联规则,并应用于包含大量事务的数据库。是一种学习数据库中变量之间关系的数据挖掘技术。这是一个无监督学习
使用场景:找到一个超时购买记录数据库中一个人的购买商品关联性,以提高产品关联购买;
EM data mining algorithm
是什么? 在数据挖掘中,期望最大化(EM)通常被用作知识发现的聚类算法(类似于k-均值)。 这是无监督学习
使用场景:测算某一得分的学生个数
案例: 我将模型视为描述如何生成观察到的数据的东西。例如,考试的成绩可以符合钟形曲线,因此假设成绩是通过钟形曲线(又称正态分布)生成的模型。用均值和方差描述这个正态分布;
PageRank data mining algorithm
是什么? PageRank是一种链接分析算法,用于确定在一个对象网络中链接的某些对象的相对重要性。是无监督学习
使用场景:网络分析方法,用于探索事物之间的关联
案例:谷歌搜索引擎确定网页重要性;确定哪些网页是相关的,哪些网页是受欢迎-排名,优先级;
AdaBoost data mining algorithm
是什么? AdaBoost是一种构造分类器的增强算法。您可能还记得,分类器获取一组数据,并尝试预测或分类新数据元素属于哪个类。属于监督学习
案例: 预测一个病人是否会得癌症
第一步:获取第一次中预测成功率最高的学习者,其他预测失败的案例提高权重;
第二步:循环上一步的过程;然后剩下一组加权学习者
特点:简单仅需要指定循环次数,执行快,灵活多变可以用于学习任何算法;
kNN data mining algorithm
是什么? kNN,或k近邻,是一种分类算法。然而,它与前面描述的分类器不同,因为它是一个懒惰的学习者。在训练过程中除了存储训练数据外没有做什么。只有输入新的未标记的数据时,这类学习者才会进行分类,分类采用相邻最近的方式进行判断。为了得到相邻, 对于连续数据,kNN使用了类似于欧氏距离的距离度量。距离度量的选择在很大程度上取决于数据。有些人甚至建议学习基于训练数据的距离度量。还有很多关于kNN距离度量的细节和论文。 对于离散数据,其思想是将离散数据转换为连续数据。 KNN属于监督学习,因为kNN提供了一个标记的训练数据集。
使用场景:
Naive Bayes data mining algorithm
是什么?朴素贝叶斯不是一个单一的算法,而是一组分类算法,它们共享一个共同的假设:被分类数据的每个特征都独立于给定类的所有其他特征。
使用场景:该定理允许我们使用概率来预测给定一组特征的类。尽管朴素贝叶斯很简单,但它可以惊人地准确。例如,它被发现是有效的垃圾邮件过滤。
案例:根据长度、颜色、甜度区分(香蕉,橘子,其他)
朴素贝叶斯实现过程:
①计算出频率表:该水果在 长度 颜色-黄色 甜度上的概率
②将所有的概率相乘,
③在需要的时候除以分母,这个案例中忽略分母
④贝叶斯分类,计算出来的概率值多少为香蕉 多少为其他,多少为橘子;
CART data mining algorithm
是什么?CART代表分类和回归树。它是一种输出分类树或回归树的决策树学习技术。和C4.5一样,CART也是一个分类器。
使用场景?在预测场景中,与分类树预测类别不同,回归树预测数值或连续值;
案例:手机的价格、病人的住院时间
原文地址: https://hackerbits.com/data/top-10-data-mining-algorithms-in-plain-english/
AI十大数据挖掘算法相关推荐
- 【转】十大数据挖掘算法
数据挖掘十大经典算法 转自:https://www.cnblogs.com/lcchuguo/p/4874288.html 一. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心 ...
- 数据挖掘十大经典算法(详解)
数据挖掘十大经典算法 一. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法 ...
- [转]数据挖掘十大经典算法
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-M ...
- AI人士不得不了解的十大机器算法
往期精彩文章回顾: pytorch--人工智能的开源深度学习框架 PyTorch 手把手搭建神经网络 (MNIST) 神经网络的自我修养--神经网络结构搜索NAS简述 AI人士不得不了解的十大机器算法 ...
- DataMining学习2_数据挖掘十大经典算法
数据挖掘十大经典算法 一. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: ...
- 数据挖掘领域十大经典算法初探
博主说明: 1.原文献非最新文章,只是本人向来对算法比较敏感.感兴趣,便把原文细看了下, 翻译过程中,有参考一些网友翻译的文章,但个人认为,阐述皆不够精准,且都是泛泛而谈, 故此,做了此份翻译,希望, ...
- 数据挖掘十大经典算法之——EM 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
- 数据挖掘十大经典算法之——Apriori 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
- 数据挖掘十大经典算法之——PageRank 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
- 数据挖掘十大经典算法之——Naive Bayes 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
最新文章
- SpringBoot中关于Shiro权限管理的整合使用
- 12人类为什么有战争
- 每日一学:如何转换png图片为jpg图片
- 政企边缘安全,如何助您提升企业的“免疫力“?
- 新拟物素材|UI设计领域必掌握的要领!
- Redis学习总结(7)——怎么保持缓存与数据库一致性?
- bigint在java中用什么表示_即使我确信圣诞老人不存在,我却仍然每年给我的孩子们准备圣诞礼物,为什么?...
- 实现加入购物车抛物线效果
- java实现数据结构-堆排序
- CCNA学习指南 IP路由
- 取石子游戏--尼姆博弈
- Lucene实现全文检索
- 微信小程序苹果手机statusBarHeight状态栏高度为0
- arcgis10动态地图的制作
- 软件运行的好好的,突然黑屏啥也进不去了
- iqq for linux源代码,开源qq下载-Linux开源QQ 2012(iQQ)下载 v1.0.2 免费版-IT猫扑网
- 阿里巴巴三面总结,讲一讲从P5到P8需要掌握的知识点,本人已成功入职。
- Desktop Central 应用规范报告—如何利用BYOD(一)
- Google Protocol Buffers 之.Net应用
- php求解一元二次方程,求一元二次方程a*x^2 + b*x + c = 0的根