C4.5 data mining algorithm

C4.5以决策树的形式构造分类器。为了做到这一点,C4.5给出了一组表示已经分类的事物的数据。是数据挖掘中的一种工具,它使用一组数据表示我们要分类的东西,并试图预测新数据属于哪个类。·

案例:假设一个数据集包含一群病人。我们了解每个病人的各种情况,如年龄、脉搏、血压、最大摄氧量、家族史等。这些被称为属性。然后根据其特性把得癌症和不得癌症的进行分类;  新的病人来了就将属性输入进行分类,得到结果;

k-means data mining algorithm

是什么?k-means从一组对象创建k个组,以便组中的成员更加相似。它是研究数据集的一种流行的聚类分析技术。可以把向量看成是我们所知道的关于病人的数字列表。这个列表也可以解释为多维空间中的坐标。脉搏可以是一个维度,血压可以是另一个维度;

使用:只需要告诉其需要多少个簇,就可以得到相似的病人;

SVM data mining algorithm

是什么? 支持向量机(SVM)学习一个超平面(y= m*x + b)将数据分类为两类。在高层次上,支持向量机执行类似于C4.5的任务,只是支持向量机根本不使用决策树。

案例:如果我们有一个病人数据集,每个病人都可以通过各种测量来描述,比如脉搏、胆固醇水平、血压等等。每一个测量值都是一个维度。底线是:

Apriori data mining algorithm

是什么?  Apriori算法学习关联规则,并应用于包含大量事务的数据库。是一种学习数据库中变量之间关系的数据挖掘技术。这是一个无监督学习

使用场景:找到一个超时购买记录数据库中一个人的购买商品关联性,以提高产品关联购买;

EM data mining algorithm

是什么? 在数据挖掘中,期望最大化(EM)通常被用作知识发现的聚类算法(类似于k-均值)。 这是无监督学习

使用场景:测算某一得分的学生个数

案例: 我将模型视为描述如何生成观察到的数据的东西。例如,考试的成绩可以符合钟形曲线,因此假设成绩是通过钟形曲线(又称正态分布)生成的模型。用均值和方差描述这个正态分布;

PageRank data mining algorithm

是什么?  PageRank是一种链接分析算法,用于确定在一个对象网络中链接的某些对象的相对重要性。是无监督学习

使用场景:网络分析方法,用于探索事物之间的关联

案例:谷歌搜索引擎确定网页重要性;确定哪些网页是相关的,哪些网页是受欢迎-排名,优先级;

AdaBoost data mining algorithm

是什么?   AdaBoost是一种构造分类器的增强算法。您可能还记得,分类器获取一组数据,并尝试预测或分类新数据元素属于哪个类。属于监督学习

案例: 预测一个病人是否会得癌症

第一步:获取第一次中预测成功率最高的学习者,其他预测失败的案例提高权重;

第二步:循环上一步的过程;然后剩下一组加权学习者

特点:简单仅需要指定循环次数,执行快,灵活多变可以用于学习任何算法;

kNN data mining algorithm

是什么?    kNN,或k近邻,是一种分类算法。然而,它与前面描述的分类器不同,因为它是一个懒惰的学习者。在训练过程中除了存储训练数据外没有做什么。只有输入新的未标记的数据时,这类学习者才会进行分类,分类采用相邻最近的方式进行判断。为了得到相邻,   对于连续数据,kNN使用了类似于欧氏距离的距离度量。距离度量的选择在很大程度上取决于数据。有些人甚至建议学习基于训练数据的距离度量。还有很多关于kNN距离度量的细节和论文。    对于离散数据,其思想是将离散数据转换为连续数据。  KNN属于监督学习,因为kNN提供了一个标记的训练数据集。

使用场景:

Naive Bayes data mining algorithm

是什么?朴素贝叶斯不是一个单一的算法,而是一组分类算法,它们共享一个共同的假设:被分类数据的每个特征都独立于给定类的所有其他特征。

使用场景:该定理允许我们使用概率来预测给定一组特征的类。尽管朴素贝叶斯很简单,但它可以惊人地准确。例如,它被发现是有效的垃圾邮件过滤。

案例:根据长度、颜色、甜度区分(香蕉,橘子,其他)

朴素贝叶斯实现过程:
         ①计算出频率表:该水果在 长度 颜色-黄色   甜度上的概率

②将所有的概率相乘,

③在需要的时候除以分母,这个案例中忽略分母

④贝叶斯分类,计算出来的概率值多少为香蕉 多少为其他,多少为橘子;

CART data mining algorithm

是什么?CART代表分类和回归树。它是一种输出分类树或回归树的决策树学习技术。和C4.5一样,CART也是一个分类器。

使用场景?在预测场景中,与分类树预测类别不同,回归树预测数值或连续值;

案例:手机的价格、病人的住院时间

原文地址: https://hackerbits.com/data/top-10-data-mining-algorithms-in-plain-english/

AI十大数据挖掘算法相关推荐

  1. 【转】十大数据挖掘算法

    数据挖掘十大经典算法 转自:https://www.cnblogs.com/lcchuguo/p/4874288.html  一. C4.5  C4.5算法是机器学习算法中的一种分类决策树算法,其核心 ...

  2. 数据挖掘十大经典算法(详解)

                                                           数据挖掘十大经典算法  一. C4.5  C4.5算法是机器学习算法中的一种分类决策树算法 ...

  3. [转]数据挖掘十大经典算法

    国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-M ...

  4. AI人士不得不了解的十大机器算法

    往期精彩文章回顾: pytorch--人工智能的开源深度学习框架 PyTorch 手把手搭建神经网络 (MNIST) 神经网络的自我修养--神经网络结构搜索NAS简述 AI人士不得不了解的十大机器算法 ...

  5. DataMining学习2_数据挖掘十大经典算法

     数据挖掘十大经典算法  一. C4.5  C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法.   C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: ...

  6. 数据挖掘领域十大经典算法初探

    博主说明: 1.原文献非最新文章,只是本人向来对算法比较敏感.感兴趣,便把原文细看了下, 翻译过程中,有参考一些网友翻译的文章,但个人认为,阐述皆不够精准,且都是泛泛而谈, 故此,做了此份翻译,希望, ...

  7. 数据挖掘十大经典算法之——EM 算法

    数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...

  8. 数据挖掘十大经典算法之——Apriori 算法

    数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...

  9. 数据挖掘十大经典算法之——PageRank 算法

    数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...

  10. 数据挖掘十大经典算法之——Naive Bayes 算法

    数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...

最新文章

  1. SpringBoot中关于Shiro权限管理的整合使用
  2. 12人类为什么有战争
  3. 每日一学:如何转换png图片为jpg图片
  4. 政企边缘安全,如何助您提升企业的“免疫力“?
  5. 新拟物素材|UI设计领域必掌握的要领!
  6. Redis学习总结(7)——怎么保持缓存与数据库一致性?
  7. bigint在java中用什么表示_即使我确信圣诞老人不存在,我却仍然每年给我的孩子们准备圣诞礼物,为什么?...
  8. 实现加入购物车抛物线效果
  9. java实现数据结构-堆排序
  10. CCNA学习指南 IP路由
  11. 取石子游戏--尼姆博弈
  12. Lucene实现全文检索
  13. 微信小程序苹果手机statusBarHeight状态栏高度为0
  14. arcgis10动态地图的制作
  15. 软件运行的好好的,突然黑屏啥也进不去了
  16. iqq for linux源代码,开源qq下载-Linux开源QQ 2012(iQQ)下载 v1.0.2 免费版-IT猫扑网
  17. 阿里巴巴三面总结,讲一讲从P5到P8需要掌握的知识点,本人已成功入职。
  18. Desktop Central 应用规范报告—如何利用BYOD(一)
  19. Google Protocol Buffers 之.Net应用
  20. php求解一元二次方程,求一元二次方程a*x^2 + b*x + c = 0的根

热门文章

  1. 三维人体姿态估计年度进展综述(周晓巍教授)
  2. Visio 2019图文安装教程
  3. 基础算法|Java递归算法练习
  4. visio程序流程图绘制教程
  5. grafana中国地图插件
  6. vue3 echarts地图(各省的json数据跟china.json)
  7. ansys2017安装教程_ANSYS Student
  8. 【HTML】【简易电子相册】overflow:hidden;
  9. 7-15 sdut-数据类型-4 第七次全国人口普查数据分析
  10. c# 对象json互相转换_C#编程实现对象与JSON串互相转换实例分析