决策树CART介绍*
属性划分使用Gini指数
回顾:ID3使用信息增益,C4.5使用信息增益率。都是基于计算熵,熵运算涉及到对数运算,耗时。
CART使用Gini指数代替信息增益。
直观上,Gini指数表示从数据集D随机抽取两个样本,类别不一致的概率。
注意:GIni指数越小,数据集D纯度越高,这与信息增益相反。
所以,在找划分属性时,每个属性a的GIni指数具体计算公式如下:
CART创建的决策树是二叉树,也就是划分节点的时候是二分。
CART连续特征的处理
与C4.5的几乎相同,都是讲连续特征离散化后二分,只是评价指标换成了Gini指数。
假设连续属性A在数据集D上有m个取值a1,...,ama_1,...,a_ma1,...,am,对相邻取值做平均数,得到m-1个二划分点。选择使得划分后Gini指数最小的划分点进行二划分。
注意: 当前节点若为连续属性,则该属性后面还可以参与子节点的属性划分过程。
CART对离散特征的二分改进
回顾:C4.5和ID3对属性A划分,若属性A的取值有a1,a2,a3a_1,a_2,a_3a1,a2,a3三个,则就是划分出3个分支。(有多少种属性取值,就划分出多少个分支)
CART采用的是不停二分的办法。 比如,先把A的取值分成{a1},{a2,a3}\{a_1\},\{a_2,a_3\}{a1},{a2,a3};{a1,a2},{a3}\{a_1,a_2\},\{a_3\}{a1,a2},{a3};{a2},{a1,a3}\{a_2\},\{a_1,a_3\}{a2},{a1,a3}三种情况,找到使得Gini指数最小的组合,然后建立二叉树节点。假设选取的是a1,a2,a3{a_1},{a_2,a_3}a1,a2,a3,那这次划分就没有将a2,a3{a_2,a_3}a2,a3划分开来,所以A属性还可以参与后续的属性划分。
CART回归树
和分类树的主要区别:
划分的评价指标是均方误差。
树建立以后的预测方式不同。
分类树采用的是Gini指数作为标准,但是这对回归模型显然不适用。
CART回归的度量目标:对于任意划分特征A,对应的任意划分点s两边划分成的数据集D1和D2,求出使D1和D2各自集合的均方差最小,同时D1和D2的均方差之和最小所对应的特征和特征值划分点。表达式为:
预测方式:采用最终叶子的均值或者中位数来做预测输出结果。
注:我的理解,上式内层的min应该是固定一个特征,选择这个特征下最优的二划分点;外层的min就是在选择最优的划分特征。
剪枝
目的是为了决策树过拟合。剪枝方法适用于分类树与回归树。
CART采用的剪枝方法是后剪枝。
以后补…
决策树CART介绍*相关推荐
- 决策树ID3、决策树C4.5、决策树CART、CART树的生成、树的剪枝、从ID3到CART、从决策树生成规则、决策树优缺点
决策树ID3.决策树C4.5.决策树CART.CART树的生成.树的剪枝.从ID3到CART.从决策树生成规则.决策树优缺点 目录
- 02-23 决策树CART算法
文章目录 决策树CART算法 决策树CART算法学习目标 决策树CART算法详解 基尼指数和熵 CART算法对连续值特征的处理 CART算法对离散值特征的处理 CART算法剪枝 生成剪枝后的决策树 选 ...
- 决策树CART算法、基尼系数的计算方法和含义
决策树CART算法--基尼系数 决策树的CART算法使用基尼系数来选择划分属性.一个数据集的纯度可以用基尼系数来度量 Gini(D)=∑k=1∣y∣∑k′≠kpkpk′=1−∑k=1∣y∣pk2\be ...
- python决策树怎么选择_【机器学习+python(8)】分类决策树的介绍与实现
之前我们介绍过用逻辑回归根据鸢尾花萼片.花瓣的长度和宽度进行鸢尾花类别的判定:也通过朴素贝叶斯模型分享了如何根据男生专业和身高两大属性,判断其是否有女朋友.而本期我们将介绍另外一种有监督的机器学习分类 ...
- cart算法_机器学习十大算法之一——决策树CART算法
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第23篇文章,我们今天分享的内容是十大数据挖掘算法之一的CART算法. CART算法全称是Classification ...
- 决策树CART、ID3、C4.5原理梳理
<老饼讲解机器学习>http://ml.bbbdata.com/teach#108 目录 一. 学习决策树原理的顺序 二.CART分类树 (一)分类树模型结构 (二).分类树构建过程 (二 ...
- 决策树-CART回归树
1.什么是CART? CART,又名分类回归树,是在ID3的基础上进行优化的决策树,学习CART记住以下几个关键点: (1)CART既能是分类树,又能是分类树: (2)当CART是分类树时,采用GIN ...
- 决策树-CART(上)
CART(Classification And Regression Trees,分类回归树)算法是一种树构建算法,既可以用于分类任务,又可以用于回归.相比于 ID3 和 C4.5 只能用于离散型数据 ...
- 分类算法之决策树CART算法
1. CART算法的认识 Classification And Regression Tree,即分类回归树算法,简称CART算法,它是决策树的一种实现,通常决策树主要有三种实现,分别是ID3算法,C ...
- 机器学习第五篇:详解决策树-CART算法
01|前言: 本篇接着上一篇决策树详解,CART是英文"classification and regression tree"的缩写,翻译过来是分类与回归树,与前面说到的ID3.C ...
最新文章
- php 正则中文匹配
- android 置灰不可点击,Android Studio 运行按钮灰色的完美解决方法
- UITests操作指南
- swfupload--php上传说明
- 求和第一个算到最后一个周末求_Excel最全求和函数—sum家族系列
- 2017年哪些网络安全威胁不容忽视?
- 自然语言处理-LDA主题模型
- Hadoop入门进阶步步高(四)-测试Hadoop
- iOS ipv6审核被拒绝的解决方案(已审核通过)
- HDU 4966 GGS-DDU(最小树形图)
- java学习视频 java常用23种设计模式
- 数仓指标体系--建设方法
- 康托尔连续统假设(CH)不成立
- 莫让“浮云”遮望眼:“企业技术”才是硬道理
- 调整Oracle用户密码期限及错误登录次数
- BZOJ4049 : [Cerc2014] Mountainous landscape
- matlab画PV曲线程序,Matlab模拟包络线形成:Envolope程序
- vux以插件方式调用
- Android/安卓 半透明设置方法
- mezzanine 历险记