1、决策树模型与学习

决策树(decision tree)算法基于特征属性进行分类,其主要的优点:模型具有可读性,计算量小,分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5,Breiman等提出的CART。其中,C4.5是基于ID3的,对分裂属性的目标函数做出了改进。

决策树模型

决策树是一种通过对特征属性的分类对样本进行分类的树形结构,包括有向边与三类节点:

根节点(root node),表示第一个特征属性,只有出边没有入边;

内部节点(internal node),表示特征属性,有一条入边至少两条出边

叶子节点(leaf node),表示类别,只有一条入边没有出边。

上图给出了(二叉)决策树的示例。决策树具有以下特点:

对于二叉决策树而言,可以看作是if-then规则集合,由决策树的根节点到叶子节点对应于一条分类规则;

分类规则是互斥并且完备的,所谓互斥即每一条样本记录不会同时匹配上两条分类规则,所谓完备即每条样本记录都在决策树中都能匹配上一条规则。

分类的本质是对特征空间的划分,如下图所示,

决策树学习

决策树学习的本质是从训练数据集中归纳出一组分类规则[2]。但随着分裂属性次序的不同,所得到的决策树也会不同。如何得到一棵决策树既对训练数据有较好的拟合,又对未知数据有很好的预测呢?

首先,我们要解决两个问题:

如何选择较优的特征属性进行分裂?每一次特征属性的分裂,相当于对训练数据集进行再划分,对应于一次决策树的生长。ID3算法定义了目标函数来进行特征选择。

什么时候应该停止分裂?有两种自然情况应该停止分裂,一是该节点对应的所有样本记录均属于同一类别,二是该节点对应的所有样本的特征属性值均相等。但除此之外,是不是还应该其他情况停止分裂呢?

2、决策树算法

特征选择

特征选择指选择最大化所定义目标函数的特征。下面给出如下三种特征(Gender, Car Type, Customer ID)分裂的例子:

图中有两类类别(C0, C1),C0: 6是对C0类别的计数。直观上,应选择Car Type特征进行分裂,因为其类别的分布概率具有更大的倾斜程度,类别不确定程度更小。

为了衡量类别分布概率的倾斜程度,定义决策树节点t的不纯度(impurity),其满足:不纯度越小,则类别的分布概率越倾斜;下面给出不纯度的的三种度量:

其中,

表示对于决策树节点

的概率。这三种不纯度的度量是等价的,在等概率分布是达到最大值。

为了判断分裂前后节点不纯度的变化情况,目标函数定义为信息增益(informationgain):

表示父节点分裂后的某子节点,

为其计数,n为分裂后的子节点数。

特别地,ID3算法选取熵值作为不纯度

的度量,则

c指父节点对应所有样本记录的类别; A表示选择的特征属性,即

的集合。 那么,决策树学习中的信息增益

等价于训练数据集中类与特征的互信息,表示由于得知特征A的信息训练数据集c不确定性减少的程度。

在特征分裂后,有些子节点的记录数可能偏少,以至于影响分类结果。为了解决这个问题,CART算法提出了只进行特征的二元分裂,即决策树是一棵二叉树;C4.5算法改进分裂目标函数,用信息增益比(information gain ratio)来选择特征:

因而,特征选择的过程等同于计算每个特征的信息增益,选择最大信息增益的特征进行分裂。此即回答前面所提出的第一个问题(选择较优特征)。ID3算法设定一阈值,当最大信息增益小于阈值时,认为没有找到有较优分类能力的特征,没有往下继续分裂的必要。根据最大表决原则,将最多计数的类别作为此叶子节点。即回答前面所提出的第二个问题(停止分裂条件)。

决策树生成

ID3算法的核心是根据信息增益最大的准则,递归地构造决策树;算法流程如下:

如果节点满足停止分裂条件(所有记录属同一类别 or 最大信息增益小于阈值),将其置为叶子节点;

选择信息增益最大的特征进行分裂;

重复步骤1-2,直至分类完成。

C4.5算法流程与ID3相类似,只不过将信息增益改为信息增益比。

3、决策树剪枝

过拟合

生成的决策树对训练数据会有很好的分类效果,却可能对未知数据的预测不准确,即决策树模型发生过拟合(overfitting)——训练误差(training error)很小、泛化误差(generalization error,亦可看作为test error)较大。下图给出训练误差、测试误差(test error)随决策树节点数的变化情况:

可以观察到,当节点数较小时,训练误差与测试误差均较大,即发生了欠拟合(underfitting)。当节点数较大时,训练误差较小,测试误差却很大,即发生了过拟合。只有当节点数适中是,训练误差居中,测试误差较小;对训练数据有较好的拟合,同时对未知数据有很好的分类准确率。

发生过拟合的根本原因是分类模型过于复杂,可能的原因如下:

训练数据集中有噪音样本点,对训练数据拟合的同时也对噪音进行拟合,从而影响了分类的效果;

决策树的叶子节点中缺乏有分类价值的样本记录,也就是说此叶子节点应被剪掉。

剪枝策略

为了解决过拟合,C4.5通过剪枝以减少模型的复杂度。[2]中提出一种简单剪枝策略,通过极小化决策树的整体损失函数(loss function)或代价函数(cost function)来实现,决策树T的损失函数为:

其中,

表示决策树的训练误差,

为调节参数,

模型的复杂度。当模型越复杂时,训练的误差就越小。上述定义的损失正好做了两者之间的权衡。

如果剪枝后损失函数减少了,即说明这是有效剪枝。具体剪枝算法可以由动态规划等来实现。

二叉树剪枝_数据挖掘算法:决策树算法如何学习及分裂剪枝相关推荐

  1. 机器学习算法——决策树算法详细介绍,并使用sklearn实现案例预测,可视化决策树

    目录 一.决策树算法简介 二.决策树分类原理 1.熵 1.1 概念 1.2 案例 2.决策树的划分依据一:信息增益 2.1 概念 2.2 案例: 3.决策树的划分依据二:信息增益率 3.1 概念 3. ...

  2. 机器学习算法:决策树算法

    1.基本定义   决策树(Decision Tree)是一种基本的分类和回归算法.该算法模型呈树形结构,主要由结点和有向边组成.结点又分为两种类型:内部结点和叶子结点.内部结点表示在一个属性或特征上的 ...

  3. 【数据挖掘】决策树算法简介 ( 决策树模型 | 模型示例 | 决策树算法性能要求 | 递归创建决策树 | 树根属性选择 )

    文章目录 I . 决策树模型 II . 决策树模型 示例 III . 决策树算法列举 IV . 决策树算法 示例 V . 决策树算法性能要求 VI . 决策树模型创建 ( 递归创建决策树 ) VII ...

  4. 【数据挖掘】-决策树算法+代码实现(七)

    目录 从例子出发 算法原理 算法的优缺点 关于剪枝 代码实现 随机森林.GBDT.XGBOOST 总结 决策树(decision tree):是一种基本的分类与回归方法,此处主要讨论分类的决策树. 在 ...

  5. Python机器学习--算法--决策树算法

    决策树算法 决策树算法类型: 决策树是一系列算法,而不是一个算法. 决策树包含了 ID3分类算法,C4.5分类算法,Cart分类树算法,Cart回归树算法. 决策树既可以做分类算法,也可以做回归算法. ...

  6. 数据挖掘算法_数据挖掘算法入门

    有南方的朋友讲过北方人喜欢打比方,尤其是甲方的,其实也没什么不好了.如果是做菜的话,那么这些算法就相当于烹饪的工具了.对原始的食材进行预处理.加工整合,选择合适烹饪工具,以及对应的方法步骤,最后收获舌 ...

  7. 分类算法——决策树算法及其R实现

    决策树定义 以鸢尾花为例子来说明: 观察上图,判决鸢尾花的思考过程可以这么来描述:花瓣的长度小于2.4cm的是setosa(图中绿色的分类),长度大于2.4cm的呢?可以通过宽度来判别,宽度小于1.8 ...

  8. 数据挖掘——ID3决策树算法

    转自:数据挖掘-决策树ID3分类算法的C++实现_Coding for Dreams-CSDN博客 原链接:数据挖掘-决策树ID3分类算法的C++实现_Coding for Dreams-CSDN博客 ...

  9. R语言学习系列(数据挖掘之决策树算法实现--ID3代码篇)

    转载自:http://blog.csdn.net/hawksoft/article/details/7760868 1.辅助类,用于计算过程和结果存储 [csharp] view plaincopyp ...

最新文章

  1. 安装open-vm-tools
  2. Blazor 0.5.0 升级及新特性介绍
  3. java对列_JAVA实现EXCEL行列号解析(一)——单格解析
  4. (转)AIX rootvg 镜像创建与磁盘更换
  5. Hive(三)——数据定义
  6. 微信小程序源代码基本文件类型
  7. 网络工具之PacketTracer8安装
  8. 基于GA遗传算法的TSP旅行商问题求解
  9. 数据库是根和数据仓库是魂
  10. 服务器虚拟化svc,服务器虚拟化与SVC技术在高校灾备中的应用
  11. C盘ProgramData变得巨大--VS2010在C盘下生成的.iTrace文件解决办法
  12. google talk
  13. 第二章节 MongoDB的基本命令
  14. 行人车辆检测与计数系统(Python+YOLOv5深度学习模型+清新界面)
  15. 如何培养自己的赚钱能力
  16. 去除html双击后选中有蓝色背景
  17. 解析TCP连接之“三次握手”和“四次挥手”
  18. win10软件字符乱码解决
  19. 移动创业风向标:Apple 2010年度移动应用榜单
  20. 游戏趣史:游戏引擎的发展史

热门文章

  1. 网易被低估的一款游戏,《堡垒之夜》加吃鸡玩法竟然这么解压?
  2. Logistic回归示例:从疝气病预测病马的死亡率
  3. C语言实现“输入年月求对应月份天数”
  4. HTTP和HTTPS的区别【面试常考】
  5. 学生信息管理系统—优化错误篇
  6. java sleep异常_Java的Thread.sleep何时会引发InterruptedException?
  7. unity2D:如何实现二段跳?
  8. 【亚马逊运营】不得不防!恶意投诉层出不穷,跨境卖家该如何应对?
  9. DDS(数据分发服务)技术
  10. 玩游戏计算机缺失msvcp140,电脑丢失msvcp140.dll的解决方法 电脑缺少msvcp140.dll怎么解决...