专注系列化高质量的R语言教程

推文索引 | 联系小编 | 付费合集


分类回归树(Classification and Regression Trees,CART)模型分为分类树模型和回归树模型:当因变量为分类变量(因子变量)时,使用的是分类树模型;当因变量是连续变量(数值变量)时,使用的是回归树模型。

分类回归树模型不同于线性模型和Logistics模型,它没有具体的模型方程,而是根据自变量多次二分将样本划分成若干子集[1]

本文理论部分主要参考如下链接的内容:

https://www.nature.com/articles/nmeth.4370

本文目录如下:

  • 1 分类树

    • 1.1 理论基础

    • 1.2 R中的函数

  • 2 回归树

    • 2.1 理论基础

    • 2.2 R中的函数

  • 3 模型预测

1 分类树

1.1 理论基础

以表示因变量,在分类树模型中,它是一个分类变量,对应到R语言中的数据类型为因子(factor)。

以任意一个自变量的任意一个值为分割点,可以将样本划分成和两个子集。存在一种划分结果,可以使

最大化。

式中,表示样本全集,和表示划分后的两个子集;表示总样本数,和分别表示两个子集的样本数;是关于样本集合的函数。

函数有多种定义方式,常用的有:

  • 基尼指数(Gini index):

  • 熵指数(entropy index):

  • 分类误差(misclassification error):

式中,表示的某个分类在集合中所占的样本比例。

例如,共有三个分类水平1、2、3,其对应的样本数分别为20、30、50,则分别等于0.2、0.3、0.5,三种指数计算如下:

p = c(0.2, 0.3, 0.5)(Ig = sum(p*(1-p)))
## [1] 0.62(Ie = -sum(p*log2(p)))
## [1] 1.485475(Ic = 1 - max(p))
## [1] 0.5

以基尼指数为例,当所有样本都集中于同一个分类时,指数最小且为0;当样本平均分布在各个类别时,,其中为分类个数,此时。因此可以说,基尼指数越小,表明样本分布越集中,彼此越相似,集合特征也就越明显;基尼指数越大,表明样本分布越分散,彼此差别也越大,集合特征也越不明显。

从的定义式可以看出,由于本身是确定的,因此最大化,实际就是寻找一种划分方法使得最小化,也就是希望子集内的样本尽可能地相似,这也是分类的初衷所在。

在第一轮划分之后得到两个子集,再分别对两个子集进行类似的划分,以此类推,直至达到设定的终止条件,最终将全集样本划分成具有特征的若干子集,形成分类树。

tree | 分类回归树模型相关推荐

  1. 机器学习实战(八)分类回归树CART(Classification And Regression Tree)

    目录 0. 前言 1. 回归树 2. 模型树 3. 剪枝(pruning) 3.1. 预剪枝 3.2. 后剪枝 4. 实战案例 4.1. 回归树 4.2. 模型树 学习完机器学习实战的分类回归树,简单 ...

  2. CART决策树(分类回归树)分析及应用建模

    一.CART决策树模型概述(Classification And Regression Trees)   决策树是使用类似于一棵树的结构来表示类的划分,树的构建可以看成是变量(属性)选择的过程,内部节 ...

  3. 机器学习系列之手把手教你实现一个分类回归树

    https://www.ibm.com/developerworks/cn/analytics/library/machine-learning-hands-on5-cart-tree/index.h ...

  4. 机器学习--CART分类回归树

    目录 文章目录 目录 前言 1.CART回归树简介 2.剪枝策略 3.模型树 4.线性回归 回归树 模型树比较 前言 虽然许多问题都可以用线性方法取得良好的结果,但现实中也有许多问题是非线性的,用线性 ...

  5. 监督学习 | CART 分类回归树原理

    文章目录 CART 算法 1. CART 生成 1.1 回归树生成 最小二乘回归树生成算法 1.2 分类树生成 基尼指数 CART 生成算法 参考文献 相关文章: 机器学习 | 目录 监督学习 | I ...

  6. 机器学习算法之CART(分类回归树)概要

    分类回归树  classification and regression tree(C&RT)  racoon 优点 (1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减 ...

  7. ❤️解决非线性回归问题的机器学习方法总结:多项式线性模型、广义线性(GAM)模型、回归树模型、支持向量回归(SVR)模型

    文章目录 前言 多项式回归模型 概念解释: sklearn实现多项式回归模型: 广义线性可加(GAM)模型 概念解释: pygam实现广义线性可加模型: GAM模型的优点与不足: 回归树模型 概念解释 ...

  8. 机器学习之分类回归树(CART)

    前言 写这一章本来是想来介绍GBDT-LR这一个推荐模型的.但是这里面就涉及到了很多机器学习的基础树形算法,思前想后还是决定分成几篇文章来写,这里先介绍一下CART数,因为在GBDT中用来分类回归的树 ...

  9. 传统机器学习笔记6——回归树模型

    目录 前言 一.决策树回归 1.1.核心思想 二.启发式切分与最优属性选择 2.1.回归模型示例 2.2.回归树的构建方法 递归二分 过拟合与正则化 3.1.过拟合问题 3.2.过拟合问题的解决方法 ...

最新文章

  1. HashMap 在并发下可能出现的问题分析!
  2. Ubuntu 9.10下Nvidia官方最新190.42显卡驱动安装
  3. 社交产品后端架构设计--转载
  4. H.264编码profile level控制
  5. 为什么TCP连接要三次握手?
  6. node --- 使用koa-router,让后端模块化
  7. 遵义大数据中心项目工程概况_中策大数据:8月建筑工程项目有哪些?建筑工程项目信息汇总...
  8. TensorFlow笔记(9) ResNet
  9. 前端防抖和节流合二为一
  10. SpringCloud工作笔记042---SpringCloud RestFul接口中跨域问题_这个解决方式不太完美,每个接口上都要加
  11. [转载]Qt之模型/视图(实时更新数据)_vortex_新浪博客
  12. 小心调用Replicator, While 和 CAG子活动
  13. vax与vay的区别
  14. 一文学懂risc-v汇编操作
  15. VLAN隔离葵花宝典(二)
  16. Split过程源码分析
  17. 计算机if函数自动填充,Excel表格函数怎么能实现自动填充-excel填充函数,excel表格根据公式自动填充...
  18. 数据科学的重要支柱——统计学的最佳入门书籍
  19. Edge上的gmail网页改为纯文字模式后改不回标准模式(HTML Gmail)问题和解决方法
  20. 短视频高流量的秘诀,上热门全靠这些技巧

热门文章

  1. python绘制科赫曲线
  2. win10禁用计算机维护,想要电脑不卡,你必须知道win10必须禁用的服务有哪些
  3. 机械硬盘的工作原理详细解析,以及机械硬盘和固态硬盘的优缺点对比
  4. 修改ffmpeg支持文件描述符,以适配android10沙箱机制
  5. C语言递归函数实现十位数转换进制并打印出来(超详细)
  6. Grafana 系列文章(十五):Exemplars
  7. ajax、promise、react、缓存笔记记录
  8. Swift 编程语言教程(官方文档)
  9. 经验,初创公司如何做到完美地招人、挖人
  10. Teradata天睿公司任命王波为大中华区总裁