二叉树剪枝_数据挖掘算法:决策树算法如何学习及分裂剪枝
1、决策树模型与学习
决策树(decision tree)算法基于特征属性进行分类,其主要的优点:模型具有可读性,计算量小,分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5,Breiman等提出的CART。其中,C4.5是基于ID3的,对分裂属性的目标函数做出了改进。
决策树模型
决策树是一种通过对特征属性的分类对样本进行分类的树形结构,包括有向边与三类节点:
根节点(root node),表示第一个特征属性,只有出边没有入边;
内部节点(internal node),表示特征属性,有一条入边至少两条出边
叶子节点(leaf node),表示类别,只有一条入边没有出边。
上图给出了(二叉)决策树的示例。决策树具有以下特点:
对于二叉决策树而言,可以看作是if-then规则集合,由决策树的根节点到叶子节点对应于一条分类规则;
分类规则是互斥并且完备的,所谓互斥即每一条样本记录不会同时匹配上两条分类规则,所谓完备即每条样本记录都在决策树中都能匹配上一条规则。
分类的本质是对特征空间的划分,如下图所示,
决策树学习
决策树学习的本质是从训练数据集中归纳出一组分类规则[2]。但随着分裂属性次序的不同,所得到的决策树也会不同。如何得到一棵决策树既对训练数据有较好的拟合,又对未知数据有很好的预测呢?
首先,我们要解决两个问题:
如何选择较优的特征属性进行分裂?每一次特征属性的分裂,相当于对训练数据集进行再划分,对应于一次决策树的生长。ID3算法定义了目标函数来进行特征选择。
什么时候应该停止分裂?有两种自然情况应该停止分裂,一是该节点对应的所有样本记录均属于同一类别,二是该节点对应的所有样本的特征属性值均相等。但除此之外,是不是还应该其他情况停止分裂呢?
2、决策树算法
特征选择
特征选择指选择最大化所定义目标函数的特征。下面给出如下三种特征(Gender, Car Type, Customer ID)分裂的例子:
图中有两类类别(C0, C1),C0: 6是对C0类别的计数。直观上,应选择Car Type特征进行分裂,因为其类别的分布概率具有更大的倾斜程度,类别不确定程度更小。
为了衡量类别分布概率的倾斜程度,定义决策树节点t的不纯度(impurity),其满足:不纯度越小,则类别的分布概率越倾斜;下面给出不纯度的的三种度量:
其中,
表示对于决策树节点
的概率。这三种不纯度的度量是等价的,在等概率分布是达到最大值。
为了判断分裂前后节点不纯度的变化情况,目标函数定义为信息增益(informationgain):
表示父节点分裂后的某子节点,
为其计数,n为分裂后的子节点数。
特别地,ID3算法选取熵值作为不纯度
的度量,则
c指父节点对应所有样本记录的类别; A表示选择的特征属性,即
的集合。 那么,决策树学习中的信息增益
等价于训练数据集中类与特征的互信息,表示由于得知特征A的信息训练数据集c不确定性减少的程度。
在特征分裂后,有些子节点的记录数可能偏少,以至于影响分类结果。为了解决这个问题,CART算法提出了只进行特征的二元分裂,即决策树是一棵二叉树;C4.5算法改进分裂目标函数,用信息增益比(information gain ratio)来选择特征:
因而,特征选择的过程等同于计算每个特征的信息增益,选择最大信息增益的特征进行分裂。此即回答前面所提出的第一个问题(选择较优特征)。ID3算法设定一阈值,当最大信息增益小于阈值时,认为没有找到有较优分类能力的特征,没有往下继续分裂的必要。根据最大表决原则,将最多计数的类别作为此叶子节点。即回答前面所提出的第二个问题(停止分裂条件)。
决策树生成
ID3算法的核心是根据信息增益最大的准则,递归地构造决策树;算法流程如下:
如果节点满足停止分裂条件(所有记录属同一类别 or 最大信息增益小于阈值),将其置为叶子节点;
选择信息增益最大的特征进行分裂;
重复步骤1-2,直至分类完成。
C4.5算法流程与ID3相类似,只不过将信息增益改为信息增益比。
3、决策树剪枝
过拟合
生成的决策树对训练数据会有很好的分类效果,却可能对未知数据的预测不准确,即决策树模型发生过拟合(overfitting)——训练误差(training error)很小、泛化误差(generalization error,亦可看作为test error)较大。下图给出训练误差、测试误差(test error)随决策树节点数的变化情况:
可以观察到,当节点数较小时,训练误差与测试误差均较大,即发生了欠拟合(underfitting)。当节点数较大时,训练误差较小,测试误差却很大,即发生了过拟合。只有当节点数适中是,训练误差居中,测试误差较小;对训练数据有较好的拟合,同时对未知数据有很好的分类准确率。
发生过拟合的根本原因是分类模型过于复杂,可能的原因如下:
训练数据集中有噪音样本点,对训练数据拟合的同时也对噪音进行拟合,从而影响了分类的效果;
决策树的叶子节点中缺乏有分类价值的样本记录,也就是说此叶子节点应被剪掉。
剪枝策略
为了解决过拟合,C4.5通过剪枝以减少模型的复杂度。[2]中提出一种简单剪枝策略,通过极小化决策树的整体损失函数(loss function)或代价函数(cost function)来实现,决策树T的损失函数为:
其中,
表示决策树的训练误差,
为调节参数,
模型的复杂度。当模型越复杂时,训练的误差就越小。上述定义的损失正好做了两者之间的权衡。
如果剪枝后损失函数减少了,即说明这是有效剪枝。具体剪枝算法可以由动态规划等来实现。
二叉树剪枝_数据挖掘算法:决策树算法如何学习及分裂剪枝相关推荐
- 机器学习算法——决策树算法详细介绍,并使用sklearn实现案例预测,可视化决策树
目录 一.决策树算法简介 二.决策树分类原理 1.熵 1.1 概念 1.2 案例 2.决策树的划分依据一:信息增益 2.1 概念 2.2 案例: 3.决策树的划分依据二:信息增益率 3.1 概念 3. ...
- 机器学习算法:决策树算法
1.基本定义 决策树(Decision Tree)是一种基本的分类和回归算法.该算法模型呈树形结构,主要由结点和有向边组成.结点又分为两种类型:内部结点和叶子结点.内部结点表示在一个属性或特征上的 ...
- 【数据挖掘】决策树算法简介 ( 决策树模型 | 模型示例 | 决策树算法性能要求 | 递归创建决策树 | 树根属性选择 )
文章目录 I . 决策树模型 II . 决策树模型 示例 III . 决策树算法列举 IV . 决策树算法 示例 V . 决策树算法性能要求 VI . 决策树模型创建 ( 递归创建决策树 ) VII ...
- 【数据挖掘】-决策树算法+代码实现(七)
目录 从例子出发 算法原理 算法的优缺点 关于剪枝 代码实现 随机森林.GBDT.XGBOOST 总结 决策树(decision tree):是一种基本的分类与回归方法,此处主要讨论分类的决策树. 在 ...
- Python机器学习--算法--决策树算法
决策树算法 决策树算法类型: 决策树是一系列算法,而不是一个算法. 决策树包含了 ID3分类算法,C4.5分类算法,Cart分类树算法,Cart回归树算法. 决策树既可以做分类算法,也可以做回归算法. ...
- 数据挖掘算法_数据挖掘算法入门
有南方的朋友讲过北方人喜欢打比方,尤其是甲方的,其实也没什么不好了.如果是做菜的话,那么这些算法就相当于烹饪的工具了.对原始的食材进行预处理.加工整合,选择合适烹饪工具,以及对应的方法步骤,最后收获舌 ...
- 分类算法——决策树算法及其R实现
决策树定义 以鸢尾花为例子来说明: 观察上图,判决鸢尾花的思考过程可以这么来描述:花瓣的长度小于2.4cm的是setosa(图中绿色的分类),长度大于2.4cm的呢?可以通过宽度来判别,宽度小于1.8 ...
- 数据挖掘——ID3决策树算法
转自:数据挖掘-决策树ID3分类算法的C++实现_Coding for Dreams-CSDN博客 原链接:数据挖掘-决策树ID3分类算法的C++实现_Coding for Dreams-CSDN博客 ...
- R语言学习系列(数据挖掘之决策树算法实现--ID3代码篇)
转载自:http://blog.csdn.net/hawksoft/article/details/7760868 1.辅助类,用于计算过程和结果存储 [csharp] view plaincopyp ...
最新文章
- 安装open-vm-tools
- Blazor 0.5.0 升级及新特性介绍
- java对列_JAVA实现EXCEL行列号解析(一)——单格解析
- (转)AIX rootvg 镜像创建与磁盘更换
- Hive(三)——数据定义
- 微信小程序源代码基本文件类型
- 网络工具之PacketTracer8安装
- 基于GA遗传算法的TSP旅行商问题求解
- 数据库是根和数据仓库是魂
- 服务器虚拟化svc,服务器虚拟化与SVC技术在高校灾备中的应用
- C盘ProgramData变得巨大--VS2010在C盘下生成的.iTrace文件解决办法
- google talk
- 第二章节 MongoDB的基本命令
- 行人车辆检测与计数系统(Python+YOLOv5深度学习模型+清新界面)
- 如何培养自己的赚钱能力
- 去除html双击后选中有蓝色背景
- 解析TCP连接之“三次握手”和“四次挥手”
- win10软件字符乱码解决
- 移动创业风向标:Apple 2010年度移动应用榜单
- 游戏趣史:游戏引擎的发展史
热门文章
- 网易被低估的一款游戏,《堡垒之夜》加吃鸡玩法竟然这么解压?
- Logistic回归示例:从疝气病预测病马的死亡率
- C语言实现“输入年月求对应月份天数”
- HTTP和HTTPS的区别【面试常考】
- 学生信息管理系统—优化错误篇
- java sleep异常_Java的Thread.sleep何时会引发InterruptedException?
- unity2D:如何实现二段跳?
- 【亚马逊运营】不得不防!恶意投诉层出不穷,跨境卖家该如何应对?
- DDS(数据分发服务)技术
- 玩游戏计算机缺失msvcp140,电脑丢失msvcp140.dll的解决方法 电脑缺少msvcp140.dll怎么解决...