属性划分使用Gini指数

回顾:ID3使用信息增益,C4.5使用信息增益率。都是基于计算熵,熵运算涉及到对数运算,耗时。
CART使用Gini指数代替信息增益。

直观上,Gini指数表示从数据集D随机抽取两个样本,类别不一致的概率。
注意:GIni指数越小,数据集D纯度越高,这与信息增益相反。
所以,在找划分属性时,每个属性a的GIni指数具体计算公式如下:

CART创建的决策树是二叉树,也就是划分节点的时候是二分。

CART连续特征的处理

与C4.5的几乎相同,都是讲连续特征离散化后二分,只是评价指标换成了Gini指数。
假设连续属性A在数据集D上有m个取值a1,...,ama_1,...,a_ma1​,...,am​,对相邻取值做平均数,得到m-1个二划分点。选择使得划分后Gini指数最小的划分点进行二划分。
注意: 当前节点若为连续属性,则该属性后面还可以参与子节点的属性划分过程。

CART对离散特征的二分改进

回顾:C4.5和ID3对属性A划分,若属性A的取值有a1,a2,a3a_1,a_2,a_3a1​,a2​,a3​三个,则就是划分出3个分支。(有多少种属性取值,就划分出多少个分支)
CART采用的是不停二分的办法。 比如,先把A的取值分成{a1},{a2,a3}\{a_1\},\{a_2,a_3\}{a1​},{a2​,a3​};{a1,a2},{a3}\{a_1,a_2\},\{a_3\}{a1​,a2​},{a3​};{a2},{a1,a3}\{a_2\},\{a_1,a_3\}{a2​},{a1​,a3​}三种情况,找到使得Gini指数最小的组合,然后建立二叉树节点。假设选取的是a1,a2,a3{a_1},{a_2,a_3}a1​,a2​,a3​,那这次划分就没有将a2,a3{a_2,a_3}a2​,a3​划分开来,所以A属性还可以参与后续的属性划分。

CART回归树

和分类树的主要区别:

  1. 划分的评价指标是均方误差。

  2. 树建立以后的预测方式不同。

    分类树采用的是Gini指数作为标准,但是这对回归模型显然不适用。
    CART回归的度量目标:对于任意划分特征A,对应的任意划分点s两边划分成的数据集D1和D2,求出使D1和D2各自集合的均方差最小,同时D1和D2的均方差之和最小所对应的特征和特征值划分点。表达式为:

    预测方式:采用最终叶子的均值或者中位数来做预测输出结果。
    :我的理解,上式内层的min应该是固定一个特征,选择这个特征下最优的二划分点;外层的min就是在选择最优的划分特征。

剪枝

目的是为了决策树过拟合。剪枝方法适用于分类树与回归树。
CART采用的剪枝方法是后剪枝
以后补…

决策树CART介绍*相关推荐

  1. 决策树ID3、决策树C4.5、决策树CART、CART树的生成、树的剪枝、从ID3到CART、从决策树生成规则、决策树优缺点

    决策树ID3.决策树C4.5.决策树CART.CART树的生成.树的剪枝.从ID3到CART.从决策树生成规则.决策树优缺点 目录

  2. 02-23 决策树CART算法

    文章目录 决策树CART算法 决策树CART算法学习目标 决策树CART算法详解 基尼指数和熵 CART算法对连续值特征的处理 CART算法对离散值特征的处理 CART算法剪枝 生成剪枝后的决策树 选 ...

  3. 决策树CART算法、基尼系数的计算方法和含义

    决策树CART算法--基尼系数 决策树的CART算法使用基尼系数来选择划分属性.一个数据集的纯度可以用基尼系数来度量 Gini(D)=∑k=1∣y∣∑k′≠kpkpk′=1−∑k=1∣y∣pk2\be ...

  4. python决策树怎么选择_【机器学习+python(8)】分类决策树的介绍与实现

    之前我们介绍过用逻辑回归根据鸢尾花萼片.花瓣的长度和宽度进行鸢尾花类别的判定:也通过朴素贝叶斯模型分享了如何根据男生专业和身高两大属性,判断其是否有女朋友.而本期我们将介绍另外一种有监督的机器学习分类 ...

  5. cart算法_机器学习十大算法之一——决策树CART算法

    本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第23篇文章,我们今天分享的内容是十大数据挖掘算法之一的CART算法. CART算法全称是Classification ...

  6. 决策树CART、ID3、C4.5原理梳理

    <老饼讲解机器学习>http://ml.bbbdata.com/teach#108 目录 一. 学习决策树原理的顺序 二.CART分类树 (一)分类树模型结构 (二).分类树构建过程 (二 ...

  7. 决策树-CART回归树

    1.什么是CART? CART,又名分类回归树,是在ID3的基础上进行优化的决策树,学习CART记住以下几个关键点: (1)CART既能是分类树,又能是分类树: (2)当CART是分类树时,采用GIN ...

  8. 决策树-CART(上)

    CART(Classification And Regression Trees,分类回归树)算法是一种树构建算法,既可以用于分类任务,又可以用于回归.相比于 ID3 和 C4.5 只能用于离散型数据 ...

  9. 分类算法之决策树CART算法

    1. CART算法的认识 Classification And Regression Tree,即分类回归树算法,简称CART算法,它是决策树的一种实现,通常决策树主要有三种实现,分别是ID3算法,C ...

  10. 机器学习第五篇:详解决策树-CART算法

    01|前言: 本篇接着上一篇决策树详解,CART是英文"classification and regression tree"的缩写,翻译过来是分类与回归树,与前面说到的ID3.C ...

最新文章

  1. php 正则中文匹配
  2. android 置灰不可点击,Android Studio 运行按钮灰色的完美解决方法
  3. UITests操作指南
  4. swfupload--php上传说明
  5. 求和第一个算到最后一个周末求_Excel最全求和函数—sum家族系列
  6. 2017年哪些网络安全威胁不容忽视?
  7. 自然语言处理-LDA主题模型
  8. Hadoop入门进阶步步高(四)-测试Hadoop
  9. iOS ipv6审核被拒绝的解决方案(已审核通过)
  10. HDU 4966 GGS-DDU(最小树形图)
  11. java学习视频 java常用23种设计模式
  12. 数仓指标体系--建设方法
  13. 康托尔连续统假设(CH)不成立
  14. 莫让“浮云”遮望眼:“企业技术”才是硬道理
  15. 调整Oracle用户密码期限及错误登录次数
  16. BZOJ4049 : [Cerc2014] Mountainous landscape
  17. matlab画PV曲线程序,Matlab模拟包络线形成:Envolope程序
  18. vux以插件方式调用
  19. Android/安卓 半透明设置方法
  20. mezzanine 历险记

热门文章

  1. Python处理excel表格中的数据
  2. vs 编译nmake工程
  3. 【OR】YALMIP 含参数规划
  4. Vue+MDUI+Muse-UI的使用与安装
  5. 2022最新RTMP+HTTP直播地址汇总(亲测可用)
  6. 译文伪原创的全文翻译软件
  7. 使运行的窗口不在任务栏显示
  8. keil5 社区版 使用教程 安装 下载 账号
  9. linux视频补帧,SVP(电脑视频补帧软件) V4.3.180 Linux版
  10. Matlab魔方矩阵的创建及逻辑矩阵的用法