对比总结:

一、 C&R 树

classification and regression trees 是一种基于树的分类和预测方法,模型使用简单,易于理解(规则解释起来更简明易),该方法通过在每个步骤最大限度降低不纯洁度,使用递归分区来将训练记录分割为组。然后,可根据使用的建模方法在每个分割处自动选择最合适的预测变量。如果节点中100% 的观测值都属于目标字段的一个特定类别,则该节点将被认定为“纯洁”。目标和预测变量字段可以是范围字段,也可以是分类字段;所有分割均为二元分割(即分割为两组)。分割标准用的是基尼系数(Gini Index)。

CART即分类回归树。如果目标变量是离散变量,则是classfication Tree,如果目标是连续变量,则是Regression Tree。

CART树是二叉树。 二叉树有什么优点?不像多叉树那样形成过多的数据碎片

二、C4.5离散化的过程

C4.5算法是构造决策树分类器的一种算法。这种算法利用比较各个描述性属性的信息增益值(Information Gain)的大小,来选择Gain值最大的属性进行分类。如果存在连续型的描述性属性,那么首先要把这些连续型属性的值分成不同的区间,即“离散化”。把连续型属性值“离散化”的方法是:
   1.寻找该连续型属性的最小值,并把它赋值给MIN,寻找该连续型属性的最大值,并把它赋值给MAX;

2.设置区间【MIN,MAX】中的N个等分断点Ai,它们分别是Ai=MIN+(MAX-MIN)/N*i,其中,i=1,2,……,N;

3.分别计算把【MIN,Ai】和(Ai,MAX】(i=1,2,……,N)作为区间值时的Gain值,并进行比较;

4.选取Gain值最大的Ak作为该连续型属性的断点,把属性值设置为【MIN,Ak】和(Ak,MAX】两个区间值。

CA.5算法使用信息增益的概念来构造决策树,其中每个分类的决定都与所

择的目标分类有关不确定性的最佳评估方法是平均信息量,即信息嫡(Entropy):

  C4.5 决策树

优点:执行效率和内存使用改进、适用大数据集
      1)    面对数据遗漏和输入字段很多的问题时非常稳健;
      2)    通常不需要很长的训练次数进行估计;工作原理是基于产生最大信息增益的字段逐级分割样本
      3)    比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;
      4)    允许进行多次多于两个子组的分割。目标字段必须为分类字段

CART与ID3的区别

通过之前的研究发现,CART与ID3算法都是基于信息论的决策树算法,CART算法是一种通过计算Diversity(整体)-diversity(左节点)-diversity(右节点)的值取最佳分割的算法。ID3和CART算法的区别主要集中在树的生成和树的修剪方面,但是ID3算法只能处理离散型的描述性属性。C4.5算法是ID3算法的后续算法,它能够处理连续型数据。

CART中用于选择变量的不纯性度量是Gini指数;

如果目标变量是标称的,并且是具有两个以上的类别,则CART可能考虑将目标类别合并成两个超类别(双化);
       如果目标变量是连续的,则CART算法找出一组基于树的回归方程来预测目标变量。

ID3,ID4.5,CART树相关推荐

  1. 决策树ID3、决策树C4.5、决策树CART、CART树的生成、树的剪枝、从ID3到CART、从决策树生成规则、决策树优缺点

    决策树ID3.决策树C4.5.决策树CART.CART树的生成.树的剪枝.从ID3到CART.从决策树生成规则.决策树优缺点 目录

  2. 决策树构建算法—ID3、C4.5、CART树

    决策树构建算法-ID3.C4.5.CART树 决策树构建算法-ID3.C4.5.CART树 构建决策树的主要算法 ID3 C4.5 CART 三种算法总结对比 决策树构建算法-ID3.C4.5.CAR ...

  3. 决策树数学原理(ID3,c4.5,cart算法)

    上面这个图就是一棵典型的决策树.我们在做决策树的时候,会经历两个阶段:构造和剪枝. 构造 简单来说,构造的过程就是选择什么属性作为节点的过程,那么在构造过程中,会存在三种节点: 根节点:就是树的最顶端 ...

  4. 3-6 决策树、CART树、GBDT、xgboost、lightgbm一些关键点梳理

    目录 1.决策树 2.CART树 2.1 CART分类树-输入样本特征:输出样本对应的类别(离散型) 2.2 CART回归树-输入样本特征:输出样本的回归值(连续型) 3.GBDT 3.1 提升树 3 ...

  5. CART树(分类回归树)

    传送门 决策树算法原理(ID3,C4.5) CART回归树 决策树的剪枝 在决策树算法原理(ID3,C4.5)中,提到C4.5的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处 ...

  6. CART树分类、回归、剪枝实现

    决策树ID3,C4.5是多叉树,CART树是一个完全二叉树,CART树不仅能完成分类也能实现回归功能,所谓回归指的是目标是一个连续的数值类型,比如体重.身高.收入.价格等,在介绍ID3,C4.5其核心 ...

  7. 树类算法之---决策树Cart树Gini系数就算原理。

    1.介绍 ID3树与CART树的区别: ID3算法中,选择的是信息增益来进行特征选择,信息增益大的特征优先选择. 而在C4.5中,选择的是信息增益比来选择特征,以减少信息增益容易选择特征值多的特征的缺 ...

  8. 决策树中的CART树

    1.cart树的介绍 : Classification and Regression Trees (CART): (L. Breiman, J. Friedman, R.Olshen, C. Ston ...

  9. 机器学习-有监督学习-分类算法:决策树算法【CART树:分类树(基于信息熵;分类依据:信息增益、信息增益率、基尼系数)、回归树(基于均方误差)】【损失函数:叶节点信息熵和】【对特征具有很好的分析能力】

    一.决策树概述 注:生产实践中,不使用决策树,太简单,而是使用决策树的升级版:集成学习算法. 集成学习算法有: Random Forest(随机森林) Extremely Randomized For ...

最新文章

  1. Golang TDD实践报告:快速排序Quick Sort
  2. paxos整合mysql_微信开源PhxSQL:高可用、强一致的MySQL集群(转载)
  3. PAT甲级1081 Rational Sum:[C++题解]分数求和、辗转相除法求最大公约数、long long有一个数据溢出
  4. logic回归是一种线性回归
  5. AFIO时钟何时开启
  6. python123电脑登录不了_Python-用户登陆,密码失败3次,账户将被锁住(login)
  7. 【机器学习】线性回归之概率解释及局部加权线性回归
  8. Java回顾之Spring基础
  9. python参考手册下载_Python中文手册【Word版 】
  10. 纯css3动画实现奔跑的小人
  11. VMware Workstation 14中文破解版下载(附密钥)(笔记)
  12. 前端 css 自动生成,关于前端:利用Zeplin从设计图自动生成CSS提高前端样式开发效率...
  13. Linux常见错误 “cp: omitting directory/ cp: :Permission denied”解决办法
  14. 无数据蒸馏方向文献_1
  15. HTML+CSS+JavaScript 实现登录注册页面(超炫酷)
  16. 软件测试学习 之 Python 函数默认参数
  17. QT5.15.2安装教程
  18. 皮格马利翁效应(转载)
  19. 主编编辑器如何收藏素材?
  20. unity中实现3d物体的颜色随时间渐渐消失

热门文章

  1. 小姨开水果店的,所以今天用Python写了一个水果店小系统!
  2. Flutter IconFont 使用
  3. c语言编程模拟机械钟表行走,C语言模拟时钟转动课设报告-附代码
  4. Commonly Used Afx Functions
  5. 批处理文件删除注册表数据
  6. pjsip for android,编译pjsip for Android
  7. 周鸿祎:可穿戴设备将带来安全问题
  8. 一文搞懂 PEP8 代码风格
  9. How many ways (记忆化搜索)
  10. Datawhale学习笔记-飞桨AI-Task02:头脑风暴:让人拍案叫绝的创意是如何产生的?