机器学习 | 决策树之回归树

上文提到决策树不仅可用于分类,还可进行回归,本文将继续记录回归决策树。

文章目录

  • 机器学习 | 决策树之回归树
  • 前言
  • 一、回归树的构建方法
  • 二、递归二分法
  • 三、回归树的剪枝
  • 总结

前言

上一文提到决策树不仅可以进行分类,也可以进行回归!

与线性回归不同,回归树是将“空间”进行划分,每个空间则对应一个统一的预测值。


一、回归树的构建方法

当面对一个回归问题时,如特征向量为:X=[x1x2x3x4...xj]X =\begin{bmatrix} x_1\\ x_2 \\x_3 \\x_4 \\...\\x_j\end{bmatrix}X=⎣⎢⎢⎢⎢⎢⎢⎡​x1​x2​x3​x4​...xj​​⎦⎥⎥⎥⎥⎥⎥⎤​,即对应数据的多个维度,回归树所做的内容是:

  • 将空间X划分为多个不重叠的领域R1,R2,...,RJR_1,R_2,...,R_JR1​,R2​,...,RJ​
  • 其中,每一个划分出来的空间对应一个标签值yyy(即预测结果),标签值是根据该区域内的总样本数平均化得出的。即yRj=1n∑j∈Rjyjy_{R_j}=\frac{1}{n}\sum_{j∈R_j}y_jyRj​​=n1​∑j∈Rj​​yj​

与线性回归类似,需要一个损失函数对回归的效果进行评估,采用平方残差和RSS进行评估:

内层∑\sum∑就是将该区域内所有的样本预测值和真实值的差值平方进行加和;
    外层∑\sum∑就是遍历所有划分出来的区域。

但我们仔细想一下,如果采用这种方法来回归,这个计算量是惊人的,因为空间划分有太多的情况,为了处理这种问题,我们常使用一种方法对划分空间提出了简化要求!

这种方法称作“递归二分法”!

二、递归二分法

什么是递归二分?顾名思义,树的每次分裂都以二叉树的形式分裂。当我们初步根据特征及其最佳划分点分裂出了2个子结点(即空间)RJR_JRJ​后,不断从当前位置,继续将该空间的样本再次划分成2份!

划分方案:

  • 自顶向下:从所有样本开始,不断从当前位置,把样本切分到2个分支里
  • 贪婪:每一次的划分,只考虑当下划分的最优,不回头考虑先前的划分

优化原则:

  • 选择切分的维度xjx_jxj​(即将数据的每一个特征)以及切分点s,使得再次划分后的回归树RSS结果最小

通俗来说,当我们初步划分出了两个空间后RjR_jRj​,接下来,将继续根据损失函数RSS开始选择维度,以及该维度下的切分点t再次将RjR_jRj​空间进行二分。

如下图所示,假如回归树的特征向量是2个维度{X1,X2}\{X_1,X_2\}{X1​,X2​},若第一次分裂时,通过计算得知,当选取属性X1X_1X1​,最佳切分点为t1t_1t1​时得到的损失函数RSS最小,那么本次分裂则可根据X1X_1X1​及其t1t_1t1​划分出两片区域{R1,R2}\{R_1,R_2\}{R1​,R2​}。

  • X1≤t1X_1\le t_1X1​≤t1​,yi=yR1y_i = y_{R1}yi​=yR1​
  • X1>t1X_1> t_1X1​>t1​,yi=yR2y_i = y_{R2}yi​=yR2​


    划分出R1,R2R_1,R_2R1​,R2​后,继续进行树的第二次分裂,若本次分裂根据特征X2X_2X2​找到最佳切分点t2t_2t2​,则可将上图中原R1R_1R1​中的区域再次进行二分。类似的,原样本空间则可根据每一次属性及切分点的选择,以二分裂的形式每次更新2片空间,直到符合某个停止准则,如我们在分类决策树中讨论到的前剪枝中的停止准则。

三、回归树的剪枝

同样的,回归优化的过程同线性回归一样,在通过降低损失函数来优化模型的过程中,模型容易陷入“过拟合”的状态。同样需要引入“正则化项”作为惩罚。

与线性回归区别的是,由于回归树并不是数值模型,所以正则化项不可以引入如L2正则化项这种数值项,因此回归树里的正则化项与叶子结点相关:

    这里的∣T∣|T|∣T∣表示树T的结点数,当超参数α>1\alpha>1α>1时,树的叶子结点越多,代表模型越复杂,终端叶子结点数多的树将为它的复杂性付出代价,所以使上式取到最小值的子树会变得更小。

总结

回归决策树算法
————————————————
1.利用递归二叉分裂在训练集中生成一额大树,只有当终端结点包含的观测值个数低于某个最小值时才停止。
2.对大树进行代价复杂性剪枝,得到一系列最优子树,子树是α \alphaα的函数。
3.利用K折交叉验诞选择α。具体做法是将训练集分为K折。对所有k = 1 , 2 , 3 , ⋯ K; 对训练集上所有不属于第k折的数据重复第(1)步~第(2)步得到与α对应的子树,并求出上述子树在第k折上的均方预测误差。
4.每个α会有相应的K个均方预测误差,对这K个值求平均,选出使平均误差最小的α。
5.找出选定的α在第(2)步中对应的子树。

机器学习 | 决策树之回归树相关推荐

  1. 机器学习-决策树之回归树python实战(预测泰坦尼克号幸存情况)(三)

    本文用通俗易懂的方式来讲解分类树中的回归树,并以"一维回归的图像绘制"和"泰坦尼克号幸存者预测"两个例子来说明该算法原理. 以下是本文大纲: 1 Decisio ...

  2. id3决策树 鸢尾花 python_机器学习之分类回归树(python实现CART)

    机器学习之分类回归树(python实现CART) 之前有文章介绍过决策树(ID3).简单回顾一下:ID3每次选取最佳特征来分割数据,这个最佳特征的判断原则是通过信息增益来实现的.按照某种特征切分数据后 ...

  3. CART分类决策树、回归树和模型树算法详解及Python实现

    机器学习经典算法详解及Python实现–CART分类决策树.回归树和模型树 摘要: Classification And Regression Tree(CART)是一种很重要的机器学习算法,既可以用 ...

  4. 机器学习十大算法之-CART分类决策树、回归树和模型树

    转载(http://blog.163.com/zhoulili1987619@126/blog/static/35308201201542731455261/) Classification And ...

  5. 机器学习笔记——决策树之回归树

    (参考资料:菜菜的sklearn) 重要参数,属性及接口 criterion 1)输入"mse"使用均方误差mean squared error(MSE),父节点和叶子节点之间的均 ...

  6. 机器学习(8)sklearn画决策树(回归树)

    目录 一.DecisionTreeRegressor 1.criterion 2.接口 3.交叉验证 二.用sklearn画回归树(基于波士顿房价训练模型) 1.导入库 2.训练模型 3.用Graph ...

  7. 机器学习之分类回归树(CART)

    前言 写这一章本来是想来介绍GBDT-LR这一个推荐模型的.但是这里面就涉及到了很多机器学习的基础树形算法,思前想后还是决定分成几篇文章来写,这里先介绍一下CART数,因为在GBDT中用来分类回归的树 ...

  8. 传统机器学习笔记6——回归树模型

    目录 前言 一.决策树回归 1.1.核心思想 二.启发式切分与最优属性选择 2.1.回归模型示例 2.2.回归树的构建方法 递归二分 过拟合与正则化 3.1.过拟合问题 3.2.过拟合问题的解决方法 ...

  9. 经典算法详解--CART分类决策树、回归树和模型树

    Classification And Regression Tree(CART)是一种很重要的机器学习算法,既可以用于创建分类树(Classification Tree),也可以用于创建回归树(Reg ...

最新文章

  1. R语言因子分析FA(factor analysis)实战案例
  2. ios 设置属性的center_ios-坐标系统(详解UIView的frame、bounds跟center属性[图])
  3. FUN ALV TOOLBAR 增加自定义按钮
  4. oracle u4e00 u9fa5,oracle中文与数字正则实例代码
  5. 发送临时文件被服务器拒绝,临时会话说服务器拒绝了您发送离线文件的请求 - 卡饭网...
  6. go 接口 构造器_Go 中接口值的复制
  7. 亚洲人跑进百米决赛,到底有多难?
  8. 离合器预减振超载造成变速箱怠速异响matlab与python仿真分析
  9. ubuntu 16.04 R语言安装 rJava package失败解决方案
  10. 刷爆了!Java蝉联5次第一,网友:最强王者!附70k架构师Java学习路线
  11. 三维视觉基础之世界坐标系、相机坐标系、图像坐标系和像素坐标系之间的转换关系
  12. java年龄不能超过120,systemd 代码行数超过 120 万,创始人贡献的 commits 最多
  13. JavaScript学习-函数
  14. iOS商城demo、音乐播放器、视频通话、自定义搜索、转场动画等源码
  15. checking for spandsp >= 3.0... configure: error: no usable spandsp; please install spandsp3 devel pa
  16. 【BZOJ5316】[JSOI2018]绝地反击(网络流,计算几何,二分)
  17. The “fxp/composer-asset-plugin“ plugin was skipped because it requires a Plugin API version (“^1.0“)
  18. 从“半部电台”到“云监工” 天翼云助力红色电信启航新征程
  19. 6.1 手机时钟系统简介
  20. 从零开始学 Web 之 移动Web(九)微金所案例

热门文章

  1. 一份从0到1的Java项目实践清单,看这篇就对了!
  2. 天翼云新一代V5云主机,Kvm之生,Xen之死
  3. Ubuntu 五笔输入法安装
  4. THUPC2019/CTS2019/APIO2019游记
  5. 从浏览器键入url后分析网络请求过程
  6. 字符串的基本操作(数据结构)
  7. 05-CSS溢出属性文本溢出省略号
  8. DB2 修改表字段长度
  9. 苹果手机软件闪退怎么解决_苹果iOS13.3系统频现软件闪退解决办法
  10. UG NX 8.5-12.0安装说明