tree | 分类回归树模型
专注系列化、高质量的R语言教程
推文索引 | 联系小编 | 付费合集
分类回归树(Classification and Regression Trees,CART)模型分为分类树模型和回归树模型:当因变量为分类变量(因子变量)时,使用的是分类树模型;当因变量是连续变量(数值变量)时,使用的是回归树模型。
分类回归树模型不同于线性模型和Logistics模型,它没有具体的模型方程,而是根据自变量多次二分将样本划分成若干子集[1]。
本文理论部分主要参考如下链接的内容:
https://www.nature.com/articles/nmeth.4370
本文目录如下:
1 分类树
1.1 理论基础
1.2 R中的函数
2 回归树
2.1 理论基础
2.2 R中的函数
3 模型预测
1 分类树
1.1 理论基础
以表示因变量,在分类树模型中,它是一个分类变量,对应到R语言中的数据类型为因子(factor)。
以任意一个自变量的任意一个值为分割点,可以将样本划分成和两个子集。存在一种划分结果,可以使
最大化。
式中,表示样本全集,和表示划分后的两个子集;表示总样本数,和分别表示两个子集的样本数;是关于样本集合的函数。
函数有多种定义方式,常用的有:
基尼指数(Gini index):
熵指数(entropy index):
分类误差(misclassification error):
式中,表示的某个分类在集合中所占的样本比例。
例如,共有三个分类水平1、2、3,其对应的样本数分别为20、30、50,则分别等于0.2、0.3、0.5,三种指数计算如下:
p = c(0.2, 0.3, 0.5)(Ig = sum(p*(1-p)))
## [1] 0.62(Ie = -sum(p*log2(p)))
## [1] 1.485475(Ic = 1 - max(p))
## [1] 0.5
以基尼指数为例,当所有样本都集中于同一个分类时,指数最小且为0;当样本平均分布在各个类别时,,其中为分类个数,此时。因此可以说,基尼指数越小,表明样本分布越集中,彼此越相似,集合特征也就越明显;基尼指数越大,表明样本分布越分散,彼此差别也越大,集合特征也越不明显。
从的定义式可以看出,由于本身是确定的,因此最大化,实际就是寻找一种划分方法使得最小化,也就是希望子集内的样本尽可能地相似,这也是分类的初衷所在。
在第一轮划分之后得到两个子集,再分别对两个子集进行类似的划分,以此类推,直至达到设定的终止条件,最终将全集样本划分成具有特征的若干子集,形成分类树。
tree | 分类回归树模型相关推荐
- 机器学习实战(八)分类回归树CART(Classification And Regression Tree)
目录 0. 前言 1. 回归树 2. 模型树 3. 剪枝(pruning) 3.1. 预剪枝 3.2. 后剪枝 4. 实战案例 4.1. 回归树 4.2. 模型树 学习完机器学习实战的分类回归树,简单 ...
- CART决策树(分类回归树)分析及应用建模
一.CART决策树模型概述(Classification And Regression Trees) 决策树是使用类似于一棵树的结构来表示类的划分,树的构建可以看成是变量(属性)选择的过程,内部节 ...
- 机器学习系列之手把手教你实现一个分类回归树
https://www.ibm.com/developerworks/cn/analytics/library/machine-learning-hands-on5-cart-tree/index.h ...
- 机器学习--CART分类回归树
目录 文章目录 目录 前言 1.CART回归树简介 2.剪枝策略 3.模型树 4.线性回归 回归树 模型树比较 前言 虽然许多问题都可以用线性方法取得良好的结果,但现实中也有许多问题是非线性的,用线性 ...
- 监督学习 | CART 分类回归树原理
文章目录 CART 算法 1. CART 生成 1.1 回归树生成 最小二乘回归树生成算法 1.2 分类树生成 基尼指数 CART 生成算法 参考文献 相关文章: 机器学习 | 目录 监督学习 | I ...
- 机器学习算法之CART(分类回归树)概要
分类回归树 classification and regression tree(C&RT) racoon 优点 (1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减 ...
- ❤️解决非线性回归问题的机器学习方法总结:多项式线性模型、广义线性(GAM)模型、回归树模型、支持向量回归(SVR)模型
文章目录 前言 多项式回归模型 概念解释: sklearn实现多项式回归模型: 广义线性可加(GAM)模型 概念解释: pygam实现广义线性可加模型: GAM模型的优点与不足: 回归树模型 概念解释 ...
- 机器学习之分类回归树(CART)
前言 写这一章本来是想来介绍GBDT-LR这一个推荐模型的.但是这里面就涉及到了很多机器学习的基础树形算法,思前想后还是决定分成几篇文章来写,这里先介绍一下CART数,因为在GBDT中用来分类回归的树 ...
- 传统机器学习笔记6——回归树模型
目录 前言 一.决策树回归 1.1.核心思想 二.启发式切分与最优属性选择 2.1.回归模型示例 2.2.回归树的构建方法 递归二分 过拟合与正则化 3.1.过拟合问题 3.2.过拟合问题的解决方法 ...
最新文章
- HashMap 在并发下可能出现的问题分析!
- Ubuntu 9.10下Nvidia官方最新190.42显卡驱动安装
- 社交产品后端架构设计--转载
- H.264编码profile level控制
- 为什么TCP连接要三次握手?
- node --- 使用koa-router,让后端模块化
- 遵义大数据中心项目工程概况_中策大数据:8月建筑工程项目有哪些?建筑工程项目信息汇总...
- TensorFlow笔记(9) ResNet
- 前端防抖和节流合二为一
- SpringCloud工作笔记042---SpringCloud RestFul接口中跨域问题_这个解决方式不太完美,每个接口上都要加
- [转载]Qt之模型/视图(实时更新数据)_vortex_新浪博客
- 小心调用Replicator, While 和 CAG子活动
- vax与vay的区别
- 一文学懂risc-v汇编操作
- VLAN隔离葵花宝典(二)
- Split过程源码分析
- 计算机if函数自动填充,Excel表格函数怎么能实现自动填充-excel填充函数,excel表格根据公式自动填充...
- 数据科学的重要支柱——统计学的最佳入门书籍
- Edge上的gmail网页改为纯文字模式后改不回标准模式(HTML Gmail)问题和解决方法
- 短视频高流量的秘诀,上热门全靠这些技巧