AI十大数据挖掘算法

C4.5 data mining algorithm

C4.5以决策树的形式构造分类器。为了做到这一点，C4.5给出了一组表示已经分类的事物的数据。是数据挖掘中的一种工具，它使用一组数据表示我们要分类的东西，并试图预测新数据属于哪个类。·

案例：假设一个数据集包含一群病人。我们了解每个病人的各种情况，如年龄、脉搏、血压、最大摄氧量、家族史等。这些被称为属性。然后根据其特性把得癌症和不得癌症的进行分类；新的病人来了就将属性输入进行分类，得到结果；

k-means data mining algorithm

是什么？k-means从一组对象创建k个组，以便组中的成员更加相似。它是研究数据集的一种流行的聚类分析技术。可以把向量看成是我们所知道的关于病人的数字列表。这个列表也可以解释为多维空间中的坐标。脉搏可以是一个维度，血压可以是另一个维度；

使用：只需要告诉其需要多少个簇，就可以得到相似的病人；

SVM data mining algorithm

是什么？支持向量机(SVM)学习一个超平面（y= m*x + b）将数据分类为两类。在高层次上，支持向量机执行类似于C4.5的任务，只是支持向量机根本不使用决策树。

案例：如果我们有一个病人数据集，每个病人都可以通过各种测量来描述，比如脉搏、胆固醇水平、血压等等。每一个测量值都是一个维度。底线是:

Apriori data mining algorithm

是什么？ Apriori算法学习关联规则，并应用于包含大量事务的数据库。是一种学习数据库中变量之间关系的数据挖掘技术。这是一个无监督学习

使用场景：找到一个超时购买记录数据库中一个人的购买商品关联性，以提高产品关联购买；

EM data mining algorithm

是什么？在数据挖掘中，期望最大化(EM)通常被用作知识发现的聚类算法(类似于k-均值)。这是无监督学习

使用场景：测算某一得分的学生个数

案例：我将模型视为描述如何生成观察到的数据的东西。例如，考试的成绩可以符合钟形曲线，因此假设成绩是通过钟形曲线(又称正态分布)生成的模型。用均值和方差描述这个正态分布；

PageRank data mining algorithm

是什么？ PageRank是一种链接分析算法，用于确定在一个对象网络中链接的某些对象的相对重要性。是无监督学习

使用场景：网络分析方法，用于探索事物之间的关联

案例：谷歌搜索引擎确定网页重要性；确定哪些网页是相关的，哪些网页是受欢迎-排名，优先级；

AdaBoost data mining algorithm

是什么？ AdaBoost是一种构造分类器的增强算法。您可能还记得，分类器获取一组数据，并尝试预测或分类新数据元素属于哪个类。属于监督学习

案例：预测一个病人是否会得癌症

第一步：获取第一次中预测成功率最高的学习者，其他预测失败的案例提高权重；

第二步：循环上一步的过程；然后剩下一组加权学习者

特点：简单仅需要指定循环次数，执行快，灵活多变可以用于学习任何算法；

kNN data mining algorithm

是什么？ kNN，或k近邻，是一种分类算法。然而，它与前面描述的分类器不同，因为它是一个懒惰的学习者。在训练过程中除了存储训练数据外没有做什么。只有输入新的未标记的数据时，这类学习者才会进行分类，分类采用相邻最近的方式进行判断。为了得到相邻，对于连续数据，kNN使用了类似于欧氏距离的距离度量。距离度量的选择在很大程度上取决于数据。有些人甚至建议学习基于训练数据的距离度量。还有很多关于kNN距离度量的细节和论文。对于离散数据，其思想是将离散数据转换为连续数据。 KNN属于监督学习，因为kNN提供了一个标记的训练数据集。

使用场景：

Naive Bayes data mining algorithm

是什么？朴素贝叶斯不是一个单一的算法，而是一组分类算法，它们共享一个共同的假设:被分类数据的每个特征都独立于给定类的所有其他特征。

使用场景：该定理允许我们使用概率来预测给定一组特征的类。尽管朴素贝叶斯很简单，但它可以惊人地准确。例如，它被发现是有效的垃圾邮件过滤。

案例：根据长度、颜色、甜度区分（香蕉，橘子，其他）

朴素贝叶斯实现过程：
①计算出频率表：该水果在长度颜色-黄色甜度上的概率

②将所有的概率相乘，

③在需要的时候除以分母，这个案例中忽略分母

④贝叶斯分类，计算出来的概率值多少为香蕉多少为其他，多少为橘子；

CART data mining algorithm

是什么？CART代表分类和回归树。它是一种输出分类树或回归树的决策树学习技术。和C4.5一样，CART也是一个分类器。

使用场景？在预测场景中，与分类树预测类别不同，回归树预测数值或连续值；

案例：手机的价格、病人的住院时间

原文地址： https://hackerbits.com/data/top-10-data-mining-algorithms-in-plain-english/