机器学习算法之CART(分类回归树)概要
分类回归树 classification and regression tree(C&RT) racoon
优点
(1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考;
(2)在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健(robust);
(3)估计模型通常不用花费很长的训练时间;
(4) 推理过程完全依据属性变量的取值特点(与 C5.0不同,C&RT的输出字段既可以是数值型,也可以是分类型)
(5)比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释,决策推理过程可以表示成 IF…THEN的形式
(6)目标是定类变量为分类树,若目标变量是定距变量,则为回归树;
(7)通过检测输入字段,通过度量各个划分产生的异质性的减小程度,找到最佳的一个划分。
(8)非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成本复杂性剪枝来得到归纳性更强的树。
决策树生长的核心是确定决策树的分枝准则。
一、 如何从众多的属性变量中选择一个当前的最佳分支变量;
也就是选择能使异质性下降最快的变量。
异质性的度量:GINI、TWOING、least squared deviation。
前两种主要针对分类型变量,LSD针对连续性变量。
代理划分、加权划分、先验概率
二、 如何从分支变量的众多取值中找到一个当前的最佳分割点(分割阈值)。
(1) 分割阈值:
A、数值型变量——对记录的值从小到大排序,计算每个值作为临界点产生的子节点的异质性统计量。能够使异质性减小程度最大的临界值便是最佳的划分点。
B、分类型变量——列出划分为两个子集的所有可能组合,计算每种组合下生成子节点的异质性。同样,找到使异质性减小程度最大的组合作为最佳划分点。
三、 决策树停止生长的条件
满足以下一个即停止生长。
(1) 节点达到完全纯性;
(2) 数树的深度达到用户指定的深度;
(3) 节点中样本的个数少于用户指定的个数;
(4) 异质性指标下降的最大幅度小于用户指定的幅度。
剪枝:完整的决策树对训练样本特征的描述可能“过于精确”(受噪声数据的影响),缺少了一般代表性而无法较好的用对新数据做分类预测,出现 ”过度拟合“。
——移去对树的精度影响不大的划分。使用 成本复杂度方法,即同时度量错分风险和树的复杂程度,使二者越小越好。
剪枝方式:
A、 预修剪(prepruning):停止生长策略
B、后修剪(postpruning):在允许决策树得到最充分生长的基础上,再根据一定的规则,自下而上逐层进行剪枝。
预测:
回归树——预测值为叶节点目标变量的加权均值
分类树——某叶节点预测的分类值应是造成错判损失最小的分类值。
四、 模型评价:
减少在冒险因素或损失因素方面的不确定性。
不仅包括不同模型的比较,而且还要对模型产生结果的商业价值进行比较。
模型评价的角度
-风险(risk)
-收益(gain)
-利润(profits)
clementine 流程图 :
转载于:https://www.cnblogs.com/wuwuwu/p/6335238.html
机器学习算法之CART(分类回归树)概要相关推荐
- 【机器学习】决策树——CART分类回归树(理论+图解+公式)
- 机器学习--CART分类回归树
目录 文章目录 目录 前言 1.CART回归树简介 2.剪枝策略 3.模型树 4.线性回归 回归树 模型树比较 前言 虽然许多问题都可以用线性方法取得良好的结果,但现实中也有许多问题是非线性的,用线性 ...
- 监督学习 | CART 分类回归树原理
文章目录 CART 算法 1. CART 生成 1.1 回归树生成 最小二乘回归树生成算法 1.2 分类树生成 基尼指数 CART 生成算法 参考文献 相关文章: 机器学习 | 目录 监督学习 | I ...
- python 决策树回归参数_python决策树之CART分类回归树详解
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...
- id3决策树 鸢尾花 python_机器学习之分类回归树(python实现CART)
机器学习之分类回归树(python实现CART) 之前有文章介绍过决策树(ID3).简单回顾一下:ID3每次选取最佳特征来分割数据,这个最佳特征的判断原则是通过信息增益来实现的.按照某种特征切分数据后 ...
- CART分类回归树算法
CART分类回归树算法 与上次文章中提到的ID3算法和C4.5算法类似,CART算法也是一种决策树分类算法.CART分类回归树算法的本质也是对数据进行分类的,最终数据的表现形式也是以树形的模式展现的, ...
- 机器学习十大算法之-CART分类决策树、回归树和模型树
转载(http://blog.163.com/zhoulili1987619@126/blog/static/35308201201542731455261/) Classification And ...
- 机器学习实战(八)分类回归树CART(Classification And Regression Tree)
目录 0. 前言 1. 回归树 2. 模型树 3. 剪枝(pruning) 3.1. 预剪枝 3.2. 后剪枝 4. 实战案例 4.1. 回归树 4.2. 模型树 学习完机器学习实战的分类回归树,简单 ...
- 机器学习之分类回归树(CART)
前言 写这一章本来是想来介绍GBDT-LR这一个推荐模型的.但是这里面就涉及到了很多机器学习的基础树形算法,思前想后还是决定分成几篇文章来写,这里先介绍一下CART数,因为在GBDT中用来分类回归的树 ...
最新文章
- mnn op name is empty or dup
- linux 查看libevent 安装目录,linux下libevent安装配置与简介 以及 linux库文件搜索路径的配置...
- 监听程序配制及数据备份
- HDU:4185-Oil Skimming
- 事务传播特性和隔离级别
- WPF 用装饰器制作抽屉效果
- 项目管理六大制约因素_用PCTS理念做好项目管理规划(优秀项目管理者必知)...
- 工作48:$emit
- 内存对齐分配策略(含位域模式)
- Springboot 集成 Swagger
- 蓝桥杯 基础练习 矩阵乘法
- ClickHouse 为何如此快?
- Python asyncio库的学习和使用
- android 动画x轴旋转,android – 动画在视图之间转换,在z轴上旋转...
- 苹果x和xsmax有什么区别_苹果手机OLED屏幕与LCD屏幕有什么区别
- Win7网络和共享中心显示“依赖服务或组无法启动”,无法连接网络
- ARFoundation多图识别的一个脚本
- 10nm 以一敌二 — 雷蛇灵刃潜行 2020 水银版评测
- 五千来字小作文,是的,我们是有个HTTP。
- (基础准备)多元相关与回归分析——一元线性相关与回归分析(一) python+numpy库 实现
热门文章
- git中.ssh文件夹在哪_关于git中的https和ssh,权限等问题
- ORM框架之Mybatis(四)MyBatis生成器,逆向工程生成实体类和SQL
- 荔枝糖FPGA开发板相关博客
- [网址链接]格林童话故事的原始素材
- 远程服务器传数据库,怎样把本机的mysql数据库上传到远程主机上
- 下载Oracle_VM_VirtualBox_Extension_Pack-5.2.28.vbox-extpack
- matlab knn,matlab自带knn函数
- 计算机组成原理中EMAR是什么,计算机组成原理复习资料+试题
- portal认证 只能重定向80和443请求_华为防火墙内置Portal认证报文交互
- MATLAB里sortrows是什么意思,Matlab中sortrows函数解析