0 前言

xgboost本身是集成树模型,在了解其原理之前,先对树模型的机器学习基础知识做一定介绍。

监督学习元素

(1)学习模型(即已知x,求出y的模型表达式)
比如:线性模型;
逻辑回归模型;

(2)参数
从数据当中学习得到模型参数。

(3)目标函数
包含两部分:损失函数+正则项

损失函数是衡量模型拟合训练数据的能力。
在训练数据上的损失函数,有多种形式:比如平方损失、逻辑回归损失;

正则项是衡量模型复杂度,有L1正则项,L2正则项;

目标函数包含两部分的原因就是:保证至少在训练数据上,该模型能较好地接近训练数据的分布,即拟合准确率高;同时,更简单的模型在测试集上预测会具有更小的方差,可以让模型更具稳定性。

集成学习方法

像GBM、随机森林等广泛被应用的,许多比赛中取得优异成绩的通常都是利用树的集成方法。
可以不用特征归一化,可以学习特征之间高阶关联,

在单个变量上学习一棵树


可以看到,最好的学习效果就是在损失函数和正则项之间达到一个很好的平衡。即树本身模型的损失函数和树的复杂度,通常咱们描述树的学习(以决策树为例),会提到如下几点,对应在模型中的提现见箭头后面:
(1)通过信息增益分裂 —> 损失函数
(2)剪枝 —> 通过定义的节点进行正则化项
(3)最大深度 —>在函数空间的约束
(4)使叶子结点的值变光滑 —>对叶子结点的L2正则化。

回归树不仅仅用来做回归

回归树集成定义了你可以怎样定义预测得分,可用来做分类、回归、排序…,取决于你怎样定义你的目标函数,目前我们了解到的目标函数:
平方损失函数:会导致梯度提升;
逻辑回归损失函数:会导致梯度对数提升

对于集成树模型,怎样学习模型?

我们不能用随机梯度下降的方法,去寻找下一个迭代值;因为我们的元素是一颗树,而不是数值向量。

解决办法就是:让模型从常数预测函数项开始,每次加入新的函数,新加入的函数就是我们需要决定的,通过加入这个新函数,让总体(目标函数+正则)达到最小;

1、XGBOOST原理

Xgboost是Boosting算法的其中一种,Boosting算法的思想是将许多弱分类器集成在一起,形成一个强分类器。因为Xgboost是一种提升树模型,所以它是将许多树模型集成在一起,形成一个很强的分类器。而所用到的树模型则是CART回归树模型。

Xgboost是在GBDT的基础上进行改进,使之更强大,适用于更大范围。

Xgboost一般和sklearn一起使用,但是由于sklearn中没有集成Xgboost,所以才需要单独下载安装。

2、XGBOOST的优点

正则化

实际上,Xgboost是以“正则化提升(regularized boosting)” 技术而闻名。Xgboost在代价函数里加入了正则项,用于控制模型的复杂度。正则项里包含了树的叶子节点个数,每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来讲,正则项降低了模型的variance,使学习出来的模型更加简单,防止过拟合,这也是Xgboost优于传统GBDT的一个特征

并行处理

Xgboost工具支持并行。众所周知,Boosting算法是顺序处理的,也是说Boosting不是一种串行的结构吗?怎么并行的?注意Xgboost的并行不是tree粒度的并行。Xgboost也是一次迭代完才能进行下一次迭代的(第t次迭代的代价函数里包含)。Xgboost的并行式在特征粒度上的,也就是说每一颗树的构造都依赖于前一颗树。

我们知道,决策树的学习最耗时的一个步骤就是对特征的值进行排序(因为要确定最佳分割点),Xgboost在训练之前,预先对数据进行了排序,然后保存为block结构,后面的迭代中重复使用这个结构,大大减小计算量。这个block结构也使得并行成为了可能,在进行节点的分类时,需要计算每个特征的增益,大大减少计算量。这个block结构也使得并行成为了可能,在进行节点的分裂的时候,需要计算每个特征的增益,最终选增益最大的那个特征去做分裂,那么各个特征的增益计算就可以开多线程进行。

灵活性

Xgboost支持用户自定义目标函数和评估函数,只要目标函数二阶可导就行。它对模型增加了一个全新的维度,所以我们的处理不会受到任何限制。

缺失值处理

对于特征的值有缺失的样本,Xgboost可以自动学习出他的分裂方向。Xgboost内置处理缺失值的规则。用户需要提供一个和其他样本不同的值,然后把它作为一个参数穿进去,以此来作为缺失值的取值。Xgboost在不同节点遇到缺失值时采用不同的处理方法,并且会学习未来遇到缺失值时的处理方法。

剪枝

Xgboost先从顶到底建立所有可以建立的子树,再从底到顶反向机芯剪枝,比起GBM,这样不容易陷入局部最优解

内置交叉验证

Xgboost允许在每一轮Boosting迭代中使用交叉验证。因此可以方便的获得最优Boosting迭代次数,而GBM使用网格搜索,只能检测有限个值。

参考

https://www.cnblogs.com/wj-1314/p/9402324.html
https://zdkswd.github.io/2019/03/04/XGBoost%20%E4%B8%AA%E4%BA%BA%E6%80%BB%E7%BB%93/(内含陈天琦关于xgboost的高清PPT)

XGBOOST集成树模型的原理梳理相关推荐

  1. 集成树模型系列之一——随机森林

    集成树模型系列之一--随机森林 随机森林一般会被认为集成树模型的开端,虽然现在工业或者比赛中都很少会被应用,但是我们学习集成树模型都绕不过它,它的一些思想被广泛地应用到后面的集成树模型中. 随机森林这 ...

  2. 集成树模型(Ensemble)

    介绍下rf,adaboost,gbdt,xgboost的算法原理?(注意adaboost,gbdt,xgboost的区别) RF的算法原理: 随机森林是有很多随机得决策树构成,它们之间没有关联.得到R ...

  3. 树模型系列之集成树(Random Forest、Adaboost、GBDT)

    文章目录 树模型系列之集成树(Random Forest.Adaboost.GBDT) Random Forest 基本思想 优缺点 Adaboost 基本思想 细节 损失函数 正则化 优缺点 GBD ...

  4. 逻辑回归原理梳理_以python为工具 【Python机器学习系列(九)】

    逻辑回归原理梳理_以python为工具 [Python机器学习系列(九)] 文章目录 1.传统线性回归 2.引入sigmoid函数并复合 3. 代价函数 4.似然函数也可以 5. python梯度下降 ...

  5. 主流图嵌入模型的原理和应用

    作者:蒋铭和全聪,腾讯 PCG 应用研究员 本文梳理了近几年主流的图嵌入(Graph Embedding)模型,并辅以相应的工业界应用,旨在通过算法原理+业务应用的方式更好地帮助大家了解这一领域的发展 ...

  6. python 靶心_手把手教你使用Python实战反欺诈模型|原理+代码

    原标题:手把手教你使用Python实战反欺诈模型|原理+代码 作者 | 萝卜 来源 | 早起Python(ID: zaoqi-python) 本文将基于不平衡数据,使用Python进行 反欺诈模型数据 ...

  7. 什么是非集计模型_集计与非集计模型的关系

    集计与非集计模型的关系 Wardrop 第一 . 第二平衡原理 集计模型 在 传统的交通规划或交通需求预测中,通常首先将对象地区或群体划分为若干个小区或群体等特 定的集合体,然后 以这些小区或群体为基 ...

  8. 原理 msc_计算机网络原理梳理丨无线与移动网络

    目录 无线网络 移动网络 IEEE802.11 蜂窝网络 移动IP网络 其它典型无线网络介绍 无线网络 无线网络的基本结构 无线主机 无线链路 基站 网络基础设施 自组织网络(Ad Hoc网络) 无线 ...

  9. 数字通信原理_计算机网络原理梳理丨物理层

    目录 数据通信基础 物理介质 信道与信道容量 基带传输 频带传输 物理层接口规程 数据通信基础 关键词概念解析 消息:人类能够感知的描述 信息:对事物的存在状态或存在方式的不确定性表述,可度量 通信: ...

最新文章

  1. win10 UWP 应用设置
  2. 独家 | 数据科学家的必备读物:从零开始用 Python 构建循环神经网络(附代码)...
  3. Tenka1 Programmer Contest C - Align
  4. 移动APP开发使用什么样的原型设计工具比较合适?
  5. 2016/12summary
  6. David Silver强化学习公开课】-2:MDP
  7. 回滚master代码_Git之master主干代码回滚
  8. Codeforce1311B. WeirdSort (冒泡排序)
  9. poj3713 Transferring Sylla 枚举+tarjan判割点
  10. python多线程基本操作
  11. linux 虚拟机大量udp请求失败_利用PXE远程装机服务批量部署Linux
  12. 2021亳州高考成绩查询,2021年亳州高考状元名单公布,亳州文理科状元是谁多少分...
  13. paip.提升用户体验---网站程序HTML,JS需要注意的地方
  14. 快逸报表常见问题整理-java报表
  15. CSS Reset Modern CSS Reset
  16. JWT-JSON WEB TOKEN使用详解及注意事项
  17. 通过分析双色球历史中奖数据-增加机选号码中奖概率
  18. 好看的原创弹窗公告代码分享
  19. AtCoder Grand Contest 058 B Adjacent Chmax
  20. 我看朴灵评注阮一峰的《JavaScript 运行机制详解:再谈Event Loop》

热门文章

  1. 全国大学生数字建模竞赛、中国研究生数学建模竞赛(数学建模与计算实验)前言
  2. 读取grib文件,批量转为nc
  3. Java零钱兑换leetcode
  4. JavaScript算法 — 零钱兑换问题
  5. ng:无法加载文件 因为在此系统上禁止运行脚本
  6. BI-LSTM,BILSTM-CRF,Lattice-LSTM基本原理以及在NER中的应用
  7. Centos下升级git版本
  8. 商用WiFi模式有哪些?
  9. 2022年仿制药行业研究报告
  10. 千万别把自己当回事,千万要把自己当回事