C4.5 data mining algorithm

C4.5以决策树的形式构造分类器。为了做到这一点,C4.5给出了一组表示已经分类的事物的数据。是数据挖掘中的一种工具,它使用一组数据表示我们要分类的东西,并试图预测新数据属于哪个类。·

案例:假设一个数据集包含一群病人。我们了解每个病人的各种情况,如年龄、脉搏、血压、最大摄氧量、家族史等。这些被称为属性。然后根据其特性把得癌症和不得癌症的进行分类;  新的病人来了就将属性输入进行分类,得到结果;

k-means data mining algorithm

是什么?k-means从一组对象创建k个组,以便组中的成员更加相似。它是研究数据集的一种流行的聚类分析技术。可以把向量看成是我们所知道的关于病人的数字列表。这个列表也可以解释为多维空间中的坐标。脉搏可以是一个维度,血压可以是另一个维度;

使用:只需要告诉其需要多少个簇,就可以得到相似的病人;

SVM data mining algorithm

是什么? 支持向量机(SVM)学习一个超平面(y= m*x + b)将数据分类为两类。在高层次上,支持向量机执行类似于C4.5的任务,只是支持向量机根本不使用决策树。

案例:如果我们有一个病人数据集,每个病人都可以通过各种测量来描述,比如脉搏、胆固醇水平、血压等等。每一个测量值都是一个维度。底线是:

Apriori data mining algorithm

是什么?  Apriori算法学习关联规则,并应用于包含大量事务的数据库。是一种学习数据库中变量之间关系的数据挖掘技术。这是一个无监督学习

使用场景:找到一个超时购买记录数据库中一个人的购买商品关联性,以提高产品关联购买;

EM data mining algorithm

是什么? 在数据挖掘中,期望最大化(EM)通常被用作知识发现的聚类算法(类似于k-均值)。 这是无监督学习

使用场景:测算某一得分的学生个数

案例: 我将模型视为描述如何生成观察到的数据的东西。例如,考试的成绩可以符合钟形曲线,因此假设成绩是通过钟形曲线(又称正态分布)生成的模型。用均值和方差描述这个正态分布;

PageRank data mining algorithm

是什么?  PageRank是一种链接分析算法,用于确定在一个对象网络中链接的某些对象的相对重要性。是无监督学习

使用场景:网络分析方法,用于探索事物之间的关联

案例:谷歌搜索引擎确定网页重要性;确定哪些网页是相关的,哪些网页是受欢迎-排名,优先级;

AdaBoost data mining algorithm

是什么?   AdaBoost是一种构造分类器的增强算法。您可能还记得,分类器获取一组数据,并尝试预测或分类新数据元素属于哪个类。属于监督学习

案例: 预测一个病人是否会得癌症

第一步:获取第一次中预测成功率最高的学习者,其他预测失败的案例提高权重;

第二步:循环上一步的过程;然后剩下一组加权学习者

特点:简单仅需要指定循环次数,执行快,灵活多变可以用于学习任何算法;

kNN data mining algorithm

是什么?    kNN,或k近邻,是一种分类算法。然而,它与前面描述的分类器不同,因为它是一个懒惰的学习者。在训练过程中除了存储训练数据外没有做什么。只有输入新的未标记的数据时,这类学习者才会进行分类,分类采用相邻最近的方式进行判断。为了得到相邻,   对于连续数据,kNN使用了类似于欧氏距离的距离度量。距离度量的选择在很大程度上取决于数据。有些人甚至建议学习基于训练数据的距离度量。还有很多关于kNN距离度量的细节和论文。    对于离散数据,其思想是将离散数据转换为连续数据。  KNN属于监督学习,因为kNN提供了一个标记的训练数据集。

使用场景:

Naive Bayes data mining algorithm

是什么?朴素贝叶斯不是一个单一的算法,而是一组分类算法,它们共享一个共同的假设:被分类数据的每个特征都独立于给定类的所有其他特征。

使用场景:该定理允许我们使用概率来预测给定一组特征的类。尽管朴素贝叶斯很简单,但它可以惊人地准确。例如,它被发现是有效的垃圾邮件过滤。

案例:根据长度、颜色、甜度区分(香蕉,橘子,其他)

朴素贝叶斯实现过程:
         ①计算出频率表:该水果在 长度 颜色-黄色   甜度上的概率

②将所有的概率相乘,

③在需要的时候除以分母,这个案例中忽略分母

④贝叶斯分类,计算出来的概率值多少为香蕉 多少为其他,多少为橘子;

CART data mining algorithm

是什么?CART代表分类和回归树。它是一种输出分类树或回归树的决策树学习技术。和C4.5一样,CART也是一个分类器。

使用场景?在预测场景中,与分类树预测类别不同,回归树预测数值或连续值;

案例:手机的价格、病人的住院时间

原文地址: https://hackerbits.com/data/top-10-data-mining-algorithms-in-plain-english/

AI十大数据挖掘算法相关推荐

  1. 【转】十大数据挖掘算法

    数据挖掘十大经典算法 转自:https://www.cnblogs.com/lcchuguo/p/4874288.html  一. C4.5  C4.5算法是机器学习算法中的一种分类决策树算法,其核心 ...

  2. 数据挖掘十大经典算法(详解)

                                                           数据挖掘十大经典算法  一. C4.5  C4.5算法是机器学习算法中的一种分类决策树算法 ...

  3. [转]数据挖掘十大经典算法

    国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-M ...

  4. AI人士不得不了解的十大机器算法

    往期精彩文章回顾: pytorch--人工智能的开源深度学习框架 PyTorch 手把手搭建神经网络 (MNIST) 神经网络的自我修养--神经网络结构搜索NAS简述 AI人士不得不了解的十大机器算法 ...

  5. DataMining学习2_数据挖掘十大经典算法

     数据挖掘十大经典算法  一. C4.5  C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法.   C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: ...

  6. 数据挖掘领域十大经典算法初探

    博主说明: 1.原文献非最新文章,只是本人向来对算法比较敏感.感兴趣,便把原文细看了下, 翻译过程中,有参考一些网友翻译的文章,但个人认为,阐述皆不够精准,且都是泛泛而谈, 故此,做了此份翻译,希望, ...

  7. 数据挖掘十大经典算法之——EM 算法

    数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...

  8. 数据挖掘十大经典算法之——Apriori 算法

    数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...

  9. 数据挖掘十大经典算法之——PageRank 算法

    数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...

  10. 数据挖掘十大经典算法之——Naive Bayes 算法

    数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...

最新文章

  1. 实验楼第二次试验报告
  2. android中关于手机屏幕的相关操作(获取屏幕的宽高等操作)
  3. json 反射java 实体_Java 将JSON反射到实体类
  4. 粒子群算法求解带约束优化问题 源码实现
  5. python3.6怎么安装numpy_Python3.6_安装numpy(2)
  6. 通过Cloudera Manager部署CDH5.15.1的webUI界面详解
  7. 在线XML美化格式化工具
  8. 接手一个APP,如何从0到1去做测试体系的搭建?
  9. 27. 使用distance和advance将容器的const_iterator转换成iterator
  10. .NET Framework中的配置文件(config)
  11. 编写一个基于控制台的聊天室程序
  12. 使用phpQuery 抓取HTML 页面内容
  13. 利用matlab来求极限
  14. win7安装VScode(Visual Studio Code)
  15. 黎曼 zeta 函数与黎曼猜想
  16. 常见的夜间经济项目有哪些?
  17. 在信用证支付的情况下,空运单可否作成以银行为收货人?在此种情况下可否起到约束进口方付款的作用?...
  18. 程序员上网搜答案被HR吐槽人品差,网友:你们公司是断网开发吗?
  19. dcloud 本地存储
  20. mysql 留存率_mysql查询用户留存语法(用户留存和用户留存率问题)

热门文章

  1. eclipse下载安装
  2. 黑苹果OC引导注入_黑苹果OC配置工具:OpenCore Configurator v2.15.2.0
  3. 概率机器人-贝叶斯滤波
  4. 《云计算核心技术剖析》mini书
  5. 故障树手册(Fault Tree handbook)(2)
  6. java和jave_Jave VS C++谁更胜一筹?
  7. 开源一个简单的VC界面库
  8. Java实现各种加密验证算法(MD5、SHA256、base64、pdkdf2、pdkdf2_sha256)
  9. 草根站长建站需要掌握或者了解的5种技术
  10. txt文本换行(txt文本设置、wps替换换行)