<XGBoost: A Scalable Tree Boosting System>
论文结构如下:
1.介绍。
2.回顾boosting Tree以及作者做的一系列修改
3.寻找最佳分割点的算法
4.加速设计
5.相关工作
6.评价

可以看出,论文的重点是第3部分,其他都是在优化和加速上面的工作。

原始论文式(1)
yi^=ϕ(xi)=∑k=1Kfk(xi),f∈F\hat{y_i}=\phi(x_i)=\sum_{k=1}^Kf_k(x_i),f\in Fyi​^​=ϕ(xi​)=k=1∑K​fk​(xi​),f∈F
K:K个弱分类器

where F={f(x)=wq(x)}F=\{f(x)=w_{q(x)}\}F={f(x)=wq(x)​}
原文提到:
“here q represents the structure of each tree that maps an example to the correspoding leaf index”
意思就是:
q(x)表示x这条测试数据到达了哪一个叶子节点

原始论文式(3)
L~(t)=∑i=1n[gift(xi)+12hift2(xi)]+Ω(ft)\tilde{L}^{(t)}=\sum_{i=1}^n[g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+Ω(f_t)L~(t)=i=1∑n​[gi​ft​(xi​)+21​hi​ft2​(xi​)]+Ω(ft​)

原始论文:
expanding Ω(ftf_tft​) as follows:
\--------------------------
原始论文式(2)
L(ϕ)=∑il(yi^,yi)+∑kΩ(fk)L(\phi)=\sum_{i}l(\hat{y_i},y_i)+\sum_{k}Ω(f_k)L(ϕ)=i∑​l(yi​^​,yi​)+k∑​Ω(fk​)
where Ω(f)=γT+12λ∣∣w∣∣2Ω(f)=\gamma T+\frac{1}{2}\lambda||w||^2Ω(f)=γT+21​λ∣∣w∣∣2
引用:
Here lll a differentiable convex loss function that measures
the difference between the prediction y^i\hat{y}_iy^​i​and the target yiy_iyi​.
The second term Ω penalizes the complexity of the model
(i.e., the regression tree functions). The additional regular-
ization term helps to smooth the final learnt weights to avoid
over-fitting.
也就是说:这是一个可以微分的凸函数,是可以求得最小值的。

\--------------------------
原始论文式(3)
泰勒公式展开到二阶近似:
L(t)≈∑i=1n[l(yi,y^(t−1))+gift(xi)+12hift2(xi)]+Ω(fk)L^{(t)}\approx\sum_{i=1}^n[l(y_i,\hat{y}^{(t-1)})+g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+Ω(f_k)L(t)≈i=1∑n​[l(yi​,y^​(t−1))+gi​ft​(xi​)+21​hi​ft2​(xi​)]+Ω(fk​)
这里的n表示的n条数据
引文:
Formally,let yi^t\hat{y_i}^{t}yi​^​t be the prediction of the i-th instance at the t-th iteration,we will need to add ftf_tft​ to minimize the following objecte.
gi=∂y^(t−1)l(yi,y^(t−1))g_i=∂_{\hat{y}^{(t-1)}}l(y_i,\hat{y}^{(t-1)})gi​=∂y^​(t−1)​l(yi​,y^​(t−1))
hi=∂y^(t−1)2l(yi,y^(t−1))h_i=∂_{\hat{y}^{(t-1)}}^2l(y_i,\hat{y}^{(t-1)})hi​=∂y^​(t−1)2​l(yi​,y^​(t−1))
\--------------------------
原始论文式(4)
L~(t)=∑i=1n[gift(xi)+12hift2(xi)]+γT+12λ∑j=1Twj2\tilde{L}^{(t)}=\sum_{i=1}^n[g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+\gamma T+\frac{1}{2}\lambda\sum_{j=1}^T{w_j^2}L~(t)=i=1∑n​[gi​ft​(xi​)+21​hi​ft2​(xi​)]+γT+21​λj=1∑T​wj2​

这个式子继续往下推需要这么几个关系式(论文中没有提到):

12∑j=1T∑i∈Ijhiwj2=12∑i=1nhift2(xi)\frac{1}{2}\sum_{j=1}^T\sum_{i\in I_j}h_iw_j^2=\frac{1}{2}\sum_{i=1}^n h_if_t^2(x_i)21​j=1∑T​i∈Ij​∑​hi​wj2​=21​i=1∑n​hi​ft2​(xi​)

∑j=1T(∑i∈Ijgi)wj=∑i=1ngift(xi)\sum_{j=1}^T(\sum_{i\in I_j}g_i)w_j=\sum_{i=1}^ng_if_t(x_i)j=1∑T​(i∈Ij​∑​gi​)wj​=i=1∑n​gi​ft​(xi​)

wj=ft(xi)w_j=f_t(x_i)wj​=ft​(xi​)

T:叶子数量

IjI_jIj​:到达第j个叶子的数据集
wjw_jwj​:第j个叶子的权重,原文是:
“we use wiw_iwi​ to represent score on i-th leaf”

=∑j=1T[(∑i∈Ijgj)wj+12(∑i∈Ijhi+λ)wj2]+γT=\sum_{j=1}^T[(\sum_{i\in I_j}g_j)w_j+\frac{1}{2}(\sum_{i\in{I_j}}h_i+\lambda)w_j^2]+\gamma T=j=1∑T​[(i∈Ij​∑​gj​)wj​+21​(i∈Ij​∑​hi​+λ)wj2​]+γT

\--------------------------
原始论文式(5)
wj∗=−∑i∈Ijgi∑i∈Ijhi+λw_j^{*}=-\frac{\sum_{i\in I_j}g_i}{\sum_{i \in I_j}h_i+\lambda}wj∗​=−∑i∈Ij​​hi​+λ∑i∈Ij​​gi​​

\--------------------------
把式(5)带入(4)得到原始论文式(6):
L~(t)(q)=−12∑j=1T(∑i∈Ijgi)2∑i∈Ijhj+λ+γT\tilde{L}^{(t)}(q)=-\frac{1}{2}\sum_{j=1}^T\frac{(\sum_{i\in I_j}g_i)^2}{\sum_{i \in{I_j}}h_j+\lambda}+\gamma TL~(t)(q)=−21​j=1∑T​∑i∈Ij​​hj​+λ(∑i∈Ij​​gi​)2​+γT

\--------------------------
然后是式(7),评价指标为:
Lsplit=12[(∑i∈ILgi)2∑i∈ILhi+λ+(∑i∈IRgi)2∑i∈IRhi+λ−(∑i∈Igi)2∑i∈Ihi+λ]−γL_{split}=\frac{1}{2}[\frac{(\sum_{i\in{I_L}}g_i)^2}{\sum_{i \in I_L}h_i+\lambda}+\frac{(\sum_{i\in{I_R}}g_i)^2}{\sum_{i \in I_R}h_i+\lambda}- \frac{(\sum_{i\in{I}}g_i)^2}{\sum_{i \in I}h_i+\lambda} ]-\gammaLsplit​=21​[∑i∈IL​​hi​+λ(∑i∈IL​​gi​)2​+∑i∈IR​​hi​+λ(∑i∈IR​​gi​)2​−∑i∈I​hi​+λ(∑i∈I​gi​)2​]−γ

\--------------------------
这里还采用了"Column Subsampling"技术,
也就是每棵树采用其中几个特征进行独自生成cart树,最后把每个cart树的预测值相加,就是整个XGBOOST集成模型的最终预测值

xgboost论文公式解析相关推荐

  1. XGBoost论文阅毕

    花了两天读了陈天奇大神的XGBoost论文,了解了大概原理,水平有限,如有错误,烦请指正,记录如下. 一.简要介绍 1.模型 提升树(Boosted tree )最基本的组成部分叫做回归树(regre ...

  2. Spads 公式解析系统 - Java

    2019独角兽企业重金招聘Python工程师标准>>> 很多网络应用中,涉及到一些内部运算的具体求值逻辑并不能够在开发阶段就定下来.这些逻辑需要随着使用,探测用户反应,不断修正.符合 ...

  3. 如何看懂论文公式:LaTex数学公式分析

    说到如何看懂论文公式,部分原因是有些公式符号与平时手写体还是有写差别的,博主常常一下子反应不过来, 当然最基本的,还是对于专业知识的不熟悉,这个直接温习公式就好 下面是关于LaTex数学公式以及书写代 ...

  4. 计算机研究生论文数学公式,研究生论文公式符号细则.doc

    研究生论文公式符号细则 PAGE PAGE 6 研究生学位论文 符号及单位规范补充要求 石油大学(北京)化工学院学位分委员会2003年2月学位论文的规范要求申请博士.硕士学位论文的校订规范以石油大学研 ...

  5. WPS中配置MathType及mathtype实现论文公式一键改大小

    目录 0 概述 1 WPS中配置MathType 1.1 步骤1: 1.2 步骤2: 1.3 步骤3: 1.4 步骤4: 1.5 步骤5: 2 mathtype实现论文公式一键改大小 2.1 步骤1: ...

  6. 论文公式与特殊内容会被查重吗?

    如今绝大部分的高校都会对论文进行查重检测,那么大部分的毕业生第一次接触查重不是很熟悉了解,就会问到论文公式会不会进行查重,因为论文内容中不可避免的都会遇到许多的公式,许多公式都很相似相同,如果真的把公 ...

  7. java根据Stack栈实现公式解析和自定义函数(一)

    我是看到了大佬的博客还能这样解析,我们来解析一下思路并扩展一下,传送门:java实现公式解析 1. Stack的介绍 栈(stack)在计算机科学中是限定仅在表尾进行插入或删除操作的线性表.栈是一种数 ...

  8. 一个简单的公式解析器

    为了理解算法中的文法分析,用一个简单的公式解析器来说明. 公式计算是电子表格中的常用功能.主要是实现了些简单的公式计算:    比如:=Sum(A1,A2) 假设我们要实现简单的公式解析,我们从头开始 ...

  9. 论文公式中的arg是什么意思?

    论文公式中的arg是什么意思? argargarg是argument的缩写,意为变元.自变量 argminarg\ minarg min 表示式表达式达到最小值的时候该自变量的取值 argmaxarg ...

最新文章

  1. Spark SQL之DataFrame概述
  2. 在浏览器地址栏按回车、F5、Ctrl+F5刷新网页的区别
  3. 赋予用户最高权限的一点“挫折”
  4. 企业版mysql怎么装_RedHat企业版5.5下Mysql的安装与配置
  5. Spring-core-ClassUtils类
  6. 7-6 掉入陷阱的数字 (15 分)
  7. 10、Android--技巧
  8. 搭建自己的聊天室平台、公司内部聊天平台,Rocket.Chat搭建及使用
  9. freeradius安装
  10. 用C++计算圆周长和面积
  11. VBA中的MsgBox函数使用
  12. goto加密php,PHP文件解密求大神思路,PHP加密后有大量goto语句
  13. 什么是 SDN?SDN 和 NFV 有什么区别?
  14. 关于springboot+simbot+mriai实现QQ群智能回复机器人
  15. 读书 | 每天演好一个情绪稳定的成年人
  16. 隐写术----LSB隐写
  17. 2021年网络规划设计师论文真题
  18. AD7656前端和电源设计
  19. Window10-一键睡眠
  20. 快速给微信公众号涨粉的的推广引流方法,超实用

热门文章

  1. MAC地址如何在windows与unix下查看?
  2. 按键中断异步通知实现
  3. error C2018: unknown character '0xa1'解决方法
  4. fread读结构体返回值是0无错误_嵌入式C编程之错误处理(附代码例子)!
  5. mysql 最小配置_如何配置全世界最小的 MySQL 服务器
  6. CSS3动画---移动端上下固定高度,中间自适应
  7. 动态添加内容到百度搜索框里
  8. 前端那些年--npm
  9. Caffe: Caffe的Python接口
  10. CSS3实现侧边栏快速定位的隐藏和消失