数据挖掘十大经典算法系列，点击链接直接跳转：

数据挖掘简介及十大经典算法（大纲索引）

1. 数据挖掘十大经典算法之——C4.5 算法

2. 数据挖掘十大经典算法之——K-Means 算法

3. 数据挖掘十大经典算法之——SVM 算法

4. 数据挖掘十大经典算法之——Apriori 算法

5. 数据挖掘十大经典算法之——EM 算法

6. 数据挖掘十大经典算法之——PageRank 算法

7 数据挖掘十大经典算法之——AdaBoost 算法

8. 数据挖掘十大经典算法之——KNN 算法

9. 数据挖掘十大经典算法之——Naive Bayes 算法

10. 数据挖掘十大经典算法之——CART 算法

简介

CART ：Classification And Regression Tree(分类和回归树)。是一种决策树分类方法，采用基于最小距离的基尼指数估计函数，用来决定由该子数据集生成的决策树的拓展形。如果目标变量是标称的，称为分类树；如果目标变量是连续的，称为回归树。分类树是使用树结构算法将数据分成离散类的方法。

原理

CART 算法是决策树的一种，所不同的是，它的分支始终是二分的。用变量 y 表示分类结果，用 X 表示 p 维特征，该算法首先找出p 维特征中对分类有效的某个特征 x，将样本分成两个本集子样，以树的左右枝表示，并将此特征作为根节点。接下来判断左右子样本集是否只包含纯样本(全部正样本或全部负样本)，如果是，则将此样本集定义为叶子；否则，再次在此子样本集中找出有效特征，继续将子样本集空间划分成左右枝，直到被划分的子样本集中只包含纯样本为止。在同一等级的节点中，可以选取相同属性的特征作为节点，这个划分是以递归方式实现的，最终形成一棵二叉树，形状如图 3 所示。

从根节点到每一个叶子节点，都对应一个规则。分类时，将待测样本的对应特征逐一在此树上从上到下搜索，直到叶子节点，此时，就将该样本的属性划分为该叶节点所表征的类(正样本或负样本)。在决策树的分支中，常用的分支准则为信息熵法和信息增益法。其中，信息熵是 ID3 算法中常用的分支方法，而信息增益法主要是C4.5 和 CART 中常用的分支方法。信息熵本为通信电路携带信息量的大小，在这里反映的是某一个特征阈值对样本的划分准确率。对于训练例集 U，假设有 m 个类别，全局信息熵表示为：

其中，si 表示 i 类中正样本的个数，s 为总样本个数。在 CART 算法中，因为每个节点都是二分的，即将样本分成两部分，所以熵的表示也就相对简单。假设其中的正样本出现的概率为 p+，则负样本出现的概率就是p-=1p+，信息熵的公式表示为： E=-p+log2p±p-log2p- (5) 如某一特征阈值将正负样本完全分开，此时被分开的每个子集的信息熵就达到最小。设训练样本空间为 U，以某一特征 A 将样本空间划分为 U1 和 U2 两个子集，在子空间，如果包含 20 个样本，10 个正样本和 10 个负样本，则正样本的概率等于负样本的概率，即 p+=p-= 0.5，带入式(5)可计算得到此空间的信息熵达到最大值 1。与此类似，如果样本空间 U1 为同一样本，则计算得到熵的最小值 0。如果用属性 A 将训练集划分为两个子集 S1 和 S2，每个子集中的信息熵又按照式(5)计算，分别用 Es1和 Es2表示，此时的正负样本概率都以该子集中的样本为依据统计。然后得出信息期望熵：

CART 算法对节点的分支依赖于信息熵增益，即选取信息增益熵最大的特征作为一个节点。信息熵增益反映了全局信息熵降低的程度，信息熵增益越大，表明特征对样本分类越有利，信息熵增益表示如下：

G=E−E(U,A)G = E-E(U,A)G=E−E(U,A)

由于噪声的存在，决策树往往出现枝叶过于茂盛或者树干过长的情况，在分类的过程中，这会导致对训练数据过度拟合，使分类的错误率升高，反而不能对验证数据很好地分类。所以，一棵优秀的决策树应该包含剪枝的过程，即用验证数据将树的叶子或节点修剪，防止其对训练数据的过度拟合。剪枝算法有多种，常见的有前向剪枝和后向剪枝两种，CART 算法采用的是后向剪枝算法。

步骤

CART决策树的生成就是递归地构建二叉决策树的过程，核心步骤由以下两步组成：

决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大；
决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时损失函数最小作为剪枝的标准。

特性

优点：

非常灵活，可以允许有部分错分成本，还可指定先验概率分布，可使用自动的成本复杂性剪枝来得到归纳性更强的树。
在面对诸如存在缺失值、变量数多等问题时CART 显得非常稳健

缺点：

案例

【决策树案例详解】数据挖掘十大算法之决策树详解

代码

【Python】机器学习算法|CART算法–python实现
【Python】数据挖掘领域十大经典算法之—CART算法

学术

【算法研究】基于 Adaboost 和 CART 结合的优化分类算法

应用

【金融领域】对银行交叉销售的数据挖掘分析——基于CART方法

参考资料

【论文】基于 Adaboost 和 CART 结合的优化分类算法
【博客】数据挖掘十大算法之CART详解

注：本文旨在引导探索，深度学习还需认真研究相关学者的成果。文章如有侵权，请联系作者删除。

数据挖掘十大经典算法之——CART 算法相关推荐

数据挖掘十大经典算法之——EM 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
数据挖掘十大经典算法之——Apriori 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
数据挖掘十大经典算法之——PageRank 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
数据挖掘十大经典算法之——Naive Bayes 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
数据挖掘十大经典算法之——KNN 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
数据挖掘十大经典算法之——AdaBoost 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
数据挖掘十大经典算法之——K-Means 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
数据挖掘十大经典算法之——C4.5 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
数据挖掘十大经典算法（转载）
数据挖掘十大经典算法一.C4.5 C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基 ...

数据挖掘十大经典算法之——CART 算法

简介

原理

步骤

特性

案例

代码

学术

应用

参考资料

数据挖掘十大经典算法之——CART 算法相关推荐

最新文章

热门文章