【机器学习入门】决策树算法(四):CART算法(Classification and Regression Tree)
CART算法的简介:
CART(Classification and Regression Tree)算法,即分类回归树算法,也是决策树构建的一种常用算法,CART的构建过程采用的是二分循环分割的方法,每次划分都把当前样本集划分为两个子样本集,使决策树中的节点均有两个分支,显然,这样就构造了一个二叉树。
如果分支属性有多于两个取值,在分裂时会对属性值进行组合,选择最佳的两个组合分支。假设某属性存在q个可能取值,那么以该属性作为分支属性,生成两个分支的分裂方法共有(2q−1−1)种。
度量指标:
CART算法在分支处理中分支属性的度量指标是Gini。设S为大小为n的样本集,其分类属性有m个不同取值,用来定义m个不同分类Ci(i=1,2,…,m),则其Gini指标的计算公式为:
在CART算法中,针对样本集S,选取属性A作为分支属性,将样本集S分裂为A=a1的子样本集S1,与其余样本组成的样本集S2,则在此情况下的Gini指标为:
CART算法的优缺点:
优点:
CART算法可以处理数值型和分类型数据,不需要进行数据预处理;
CART算法生成的决策树可以直观的解释和可视化,易于理解;
CART算法可以处理大规模数据集;
CART算法可以处理高维数据;
CART算法的分类和回归能力都很强。
缺点:
CART算法是一种贪心算法,可能会导致局部最优解,不能保证全局最优解;
CART算法对于噪声和异常值敏感;
CART算法容易过拟合,需要采用剪枝等措施来避免过拟合;
CART算法只能生成二叉树,无法处理多分类问题。
【机器学习入门】决策树算法(四):CART算法(Classification and Regression Tree)相关推荐
- 机器学习实战(八)分类回归树CART(Classification And Regression Tree)
目录 0. 前言 1. 回归树 2. 模型树 3. 剪枝(pruning) 3.1. 预剪枝 3.2. 后剪枝 4. 实战案例 4.1. 回归树 4.2. 模型树 学习完机器学习实战的分类回归树,简单 ...
- 机器学习入门-决策树算法
决策树:从根节点开始一步步到叶子节点,所有的数据最后都落到叶子节点里面,既可以用来做分类也可以用来做回归 树的组成: 1.根节点(第一个参数) 2.非子叶节点与分支: 中间过程 3. 子叶节点,最终的 ...
- 机器学习:决策树算法(ID3算法)的理解与实现
机器学习:决策树算法(ID3算法)的理解与实现 文章目录 机器学习:决策树算法(ID3算法)的理解与实现 1.对决策树算法的理解 1.概述 2.算法难点 选择最优划分属性 1.信息熵 2.信息增益 2 ...
- 机器学习基础 决策树算法
文章目录 一.决策树算法简介 二.决策树分类原理 1. 熵 1.1 概念 1.2 案例 2. 决策树的划分依据一----信息增益 2.1 概念 2.2 案例 3. 决策树的划分依据二----信息增益率 ...
- 机器学习之决策树算法
导读 通常决策树一共有三种实现方法,分别是ID3.C4.5和CART(Classification And Regression Tree,即分类回归树),回顾决策树的基本知识,其构建过程主要有下述三 ...
- 机器学习系列(2)——CART算法
本文主要介绍CART算法,包括CART分类树/回归树的详细步骤和在sklearn中的参数等. 0x01.CART算法简介 CART(Classification and Regression Tree ...
- 机器学习-有监督学习-分类算法:决策树算法【CART树:分类树(基于信息熵;分类依据:信息增益、信息增益率、基尼系数)、回归树(基于均方误差)】【损失函数:叶节点信息熵和】【对特征具有很好的分析能力】
一.决策树概述 注:生产实践中,不使用决策树,太简单,而是使用决策树的升级版:集成学习算法. 集成学习算法有: Random Forest(随机森林) Extremely Randomized For ...
- 【机器学习】决策树算法
在前一期介绍搭建结合机器学习的CI/CD管道时,无意中提到了算法分类.在受监督学习的分类中,有一个既适用于回归又适用于分类的算法,即我们今天要介绍的决策树算法(CART, Classification ...
- 机器学习3决策树算法模型
决策树算法模型 1.什么是决策树? 2.决策树的归纳 2.1 (选择分裂特征)特征的选择 2.2 决策树的生成 2.2.1 ID3 算法 2.2.2 C4.5 算法 2.2.3 Card算法 2.2 ...
最新文章
- 在数组中找出3个数使得它们和为0
- 《极速切水果游戏》有Python版了,曾风靡一时的手游能否富过“二代”?
- 关于系统异常设计的再思考
- ”System.Configuration.ConfigurationSettings.AppSettings“ 已过时----解决方案
- WIN10下gnuplot 的安装
- 原字体_在包装上玩转字体
- 如何在Kubernetes里创建一个Nginx应用
- Windows Terminal 完全配置教程(主题以及启动设置)
- 【渗透测试】kali使用教程(一):常用命令和基本工具使用
- c语言求栈长度程序,数据结构C语言实现之顺序栈
- 疟疾识别图像数据集(27000张图像,2类图像)
- 淘宝在线客服为什么回复那么慢
- unbuntu配置scrcpy
- chrome插件开发总结
- 达观数据智能财务审核机器人,助力央企财务共享中心智能转型
- php fpdf生成个人简历,php生成PDF文件(FPDF)
- 全球多地爆发!传染性极强!鄂尔多斯人近期外出一定要注意…
- Poco访问mysql
- 什么是GMS、CDMA、GPRS、EDGE、WCDMA、TD-CDMA、HSPA+、LTE?
- ThinkPHP导入Excel文件到数据库的简单实现
热门文章
- 2021赤峰二中高考成绩查询,2021年赤峰高考状元名单公布,赤峰文理科状元是谁多少分...
- 在线 xml转java对象_XML转Java实体对象
- 2019最新Web前端经典面试试题及答案,持续更新
- EFS与NTFS联合应用解析
- eclipse安装c语言开发linux,在linux下安装eclipse 开发c语言程序
- 目标检测入门知识以思考(写于2021.11)
- 2007年大连软件出口全国第三 荣获中国软件出口(外包)政府推进奖
- 数据降维的几种方法(转)
- Ubuntu 新建用户并赋予权限
- 2.16([Usaco2005 Nov]Ant Counting)