GBDT、XGBoost、LightGBM比较

1.GBDT

GBDT (Gradient Boosting Decision Tree) 梯度提升决策树。DT－Decision Tree决策树，GB是Gradient Boosting，是一种学习策略，GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型

在前几年深度学习还没有大行其道之前，GBDT在各种竞赛是大放异彩。一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。

Boosting共有的缺点为训练是按顺序的，难以并行，这样在大规模数据上可能导致速度过慢，所幸近年来XGBoost和LightGBM的出现都极大缓解了这个问题。XGBoost和LightGBM是GBDT的升级版。

支持以下应用:
1）回归，目标函数为 L2 loss
2）二分类，目标函数为 logloss（对数损失）
3）多分类
4）ambdarank, 目标函数为基于 NDCG 的 lambdarank

GBDT学习总结（Boosting、决策树）
https://blog.csdn.net/zephyr_wang/article/details/106409307

XGBoost	LightGBM
默认基于 pre-sorted 的算法	基于 histogram 的算法
	Leaf-wise (Best-first) 的决策树生长策略
	连续的值替换为 discrete bins
	直方图差加速

2.XGBoost

1）设计和建立了一个可扩展的端到端的树提升系统。特点是可以快速的处理大数据。2015-2017年。
2）引入了一个新颖的稀疏感知算法，可以并行的树训练；
3）提出了一个理论上公平的权重分位数略图方法，方便近似学习查找最佳分割点。
4）对于硬盘上的大数据的树学习，我们提出了一个有效的缓存感知块结构，以及数据压缩、分片。

XGBoost论文笔记(https://blog.csdn.net/zephyr_wang/article/details/109211849)

3.LightGBM

2017年。LightGBM在准确率不影响的情况下，比XGBoost更快。

采用GOSS和EFB的GBDT算法，我们叫做LightGBM。Gradient-based One-Side Sampling (GOSS) and Exclusive Feature Bundling (EFB，排除在外特征的捆绑打包)。

采用GOSS，我们可以排除相当比例的小梯度信息的数据实例，仅使用剩下的数据实例评估信息增益。拥有大梯度的数据实例在信息增益计算中扮演重要的角色。
即GOSS用来减少训练数据量。

采用EFB，我们可以把互斥的特征（他们很少同时拥有非零值）打包在一起，来减少特征的数量。寻找互斥特征的最优打包是NP-hard（NP是指多项式复杂程度的非确定性问题non-deterministic polynomial，缩写NP）的，但一个贪婪的算法可以完成很好的近似比率。
即EFB用来减少特征维度。

《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》论文笔记
https://blog.csdn.net/zephyr_wang/article/details/109244085