分类回归树  classification and regression tree(C&RT)  racoon

优点
(1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考;
(2)在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健(robust);
(3)估计模型通常不用花费很长的训练时间;
  (4) 推理过程完全依据属性变量的取值特点(与 C5.0不同,C&RT的输出字段既可以是数值型,也可以是分类型)
(5)比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释,决策推理过程可以表示成   IF…THEN的形式
(6)目标是定类变量为分类树,若目标变量是定距变量,则为回归树;
(7)通过检测输入字段,通过度量各个划分产生的异质性的减小程度,找到最佳的一个划分。
(8)非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成本复杂性剪枝来得到归纳性更强的树。

决策树生长的核心是确定决策树的分枝准则。
一、 如何从众多的属性变量中选择一个当前的最佳分支变量;
也就是选择能使异质性下降最快的变量。
异质性的度量:GINI、TWOING、least squared deviation。
前两种主要针对分类型变量,LSD针对连续性变量。

代理划分、加权划分、先验概率

二、 如何从分支变量的众多取值中找到一个当前的最佳分割点(分割阈值)。
(1) 分割阈值:
A、数值型变量——对记录的值从小到大排序,计算每个值作为临界点产生的子节点的异质性统计量。能够使异质性减小程度最大的临界值便是最佳的划分点。
B、分类型变量——列出划分为两个子集的所有可能组合,计算每种组合下生成子节点的异质性。同样,找到使异质性减小程度最大的组合作为最佳划分点。
  
三、 决策树停止生长的条件
满足以下一个即停止生长。
(1) 节点达到完全纯性;
(2) 数树的深度达到用户指定的深度;
(3) 节点中样本的个数少于用户指定的个数;
(4) 异质性指标下降的最大幅度小于用户指定的幅度。

剪枝:完整的决策树对训练样本特征的描述可能“过于精确”(受噪声数据的影响),缺少了一般代表性而无法较好的用对新数据做分类预测,出现 ”过度拟合“。
——移去对树的精度影响不大的划分。使用 成本复杂度方法,即同时度量错分风险和树的复杂程度,使二者越小越好。
剪枝方式:
A、 预修剪(prepruning):停止生长策略
B、后修剪(postpruning):在允许决策树得到最充分生长的基础上,再根据一定的规则,自下而上逐层进行剪枝。
预测:
回归树——预测值为叶节点目标变量的加权均值
分类树——某叶节点预测的分类值应是造成错判损失最小的分类值。

四、 模型评价:
减少在冒险因素或损失因素方面的不确定性。
不仅包括不同模型的比较,而且还要对模型产生结果的商业价值进行比较。
模型评价的角度
-风险(risk)
-收益(gain)
-利润(profits)

clementine  流程图 :

转载于:https://www.cnblogs.com/wuwuwu/p/6335238.html

机器学习算法之CART(分类回归树)概要相关推荐

  1. 【机器学习】决策树——CART分类回归树(理论+图解+公式)

  2. 机器学习--CART分类回归树

    目录 文章目录 目录 前言 1.CART回归树简介 2.剪枝策略 3.模型树 4.线性回归 回归树 模型树比较 前言 虽然许多问题都可以用线性方法取得良好的结果,但现实中也有许多问题是非线性的,用线性 ...

  3. 监督学习 | CART 分类回归树原理

    文章目录 CART 算法 1. CART 生成 1.1 回归树生成 最小二乘回归树生成算法 1.2 分类树生成 基尼指数 CART 生成算法 参考文献 相关文章: 机器学习 | 目录 监督学习 | I ...

  4. python 决策树回归参数_python决策树之CART分类回归树详解

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...

  5. id3决策树 鸢尾花 python_机器学习之分类回归树(python实现CART)

    机器学习之分类回归树(python实现CART) 之前有文章介绍过决策树(ID3).简单回顾一下:ID3每次选取最佳特征来分割数据,这个最佳特征的判断原则是通过信息增益来实现的.按照某种特征切分数据后 ...

  6. CART分类回归树算法

    CART分类回归树算法 与上次文章中提到的ID3算法和C4.5算法类似,CART算法也是一种决策树分类算法.CART分类回归树算法的本质也是对数据进行分类的,最终数据的表现形式也是以树形的模式展现的, ...

  7. 机器学习十大算法之-CART分类决策树、回归树和模型树

    转载(http://blog.163.com/zhoulili1987619@126/blog/static/35308201201542731455261/) Classification And ...

  8. 机器学习实战(八)分类回归树CART(Classification And Regression Tree)

    目录 0. 前言 1. 回归树 2. 模型树 3. 剪枝(pruning) 3.1. 预剪枝 3.2. 后剪枝 4. 实战案例 4.1. 回归树 4.2. 模型树 学习完机器学习实战的分类回归树,简单 ...

  9. 机器学习之分类回归树(CART)

    前言 写这一章本来是想来介绍GBDT-LR这一个推荐模型的.但是这里面就涉及到了很多机器学习的基础树形算法,思前想后还是决定分成几篇文章来写,这里先介绍一下CART数,因为在GBDT中用来分类回归的树 ...

最新文章

  1. mnn op name is empty or dup
  2. linux 查看libevent 安装目录,linux下libevent安装配置与简介 以及 linux库文件搜索路径的配置...
  3. 监听程序配制及数据备份
  4. HDU:4185-Oil Skimming
  5. 事务传播特性和隔离级别
  6. WPF 用装饰器制作抽屉效果
  7. 项目管理六大制约因素_用PCTS理念做好项目管理规划(优秀项目管理者必知)...
  8. 工作48:$emit
  9. 内存对齐分配策略(含位域模式)
  10. Springboot 集成 Swagger
  11. 蓝桥杯 基础练习 矩阵乘法
  12. ClickHouse 为何如此快?
  13. Python asyncio库的学习和使用
  14. android 动画x轴旋转,android – 动画在视图之间转换,在z轴上旋转...
  15. 苹果x和xsmax有什么区别_苹果手机OLED屏幕与LCD屏幕有什么区别
  16. Win7网络和共享中心显示“依赖服务或组无法启动”,无法连接网络
  17. ARFoundation多图识别的一个脚本
  18. 10nm 以一敌二 — 雷蛇灵刃潜行 2020 水银版评测
  19. 五千来字小作文,是的,我们是有个HTTP。
  20. (基础准备)多元相关与回归分析——一元线性相关与回归分析(一) python+numpy库 实现

热门文章

  1. git中.ssh文件夹在哪_关于git中的https和ssh,权限等问题
  2. ORM框架之Mybatis(四)MyBatis生成器,逆向工程生成实体类和SQL
  3. 荔枝糖FPGA开发板相关博客
  4. [网址链接]格林童话故事的原始素材
  5. 远程服务器传数据库,怎样把本机的mysql数据库上传到远程主机上
  6. 下载Oracle_VM_VirtualBox_Extension_Pack-5.2.28.vbox-extpack
  7. matlab knn,matlab自带knn函数
  8. 计算机组成原理中EMAR是什么,计算机组成原理复习资料+试题
  9. portal认证 只能重定向80和443请求_华为防火墙内置Portal认证报文交互
  10. MATLAB里sortrows是什么意思,Matlab中sortrows函数解析