详解LightGBM两大降维利器：基于梯度的单边采样（GOSS）和互斥特征捆绑（EFB）

之前比赛和实习用了很多LightGBM（lgb）模型，该模型比XGBoost（xgb）快不少，而且精度也不差。因此，理解清楚lgb模型为何速度快的原理是必要的，对此做个总结，巩固一下基础~

首先，可以想到的是我们用lgb模型都是处理结构化数据，而且基本是二维结构化数据，可以理解为类似数据库的库表形式。二维指的就是样本维度 + 特征维度。因此，lgb速度优化的两大算法就是从如何减少这两个维度开始的。

即，通过基于梯度的单边采样算法（GOSS）来减少样本维度，通过互斥特征捆绑算法（EFB）来减少特征维度。其实，lgb还有一个重大速度优化是直方图算法（histogram），不过现在xgb也引入了直方图算法，本文暂不介绍该算法，有兴趣的读者自行学习。

可阅读原文进一步加深理解：LightGBM

1. 基于梯度的单边采样（GOSS）

Gradient-based One-Side Sampling，基于梯度的单边采样。单从名字上大概就能猜出该算法主要用来干啥，三个关键词：梯度、单边、采样。简单来说，就是根据样本梯度来对梯度小的这边样本进行采样，而对梯度大的这边样本保留。

比如，我有训练数据1000w，设置梯度大的样本的保留10%，而梯度小的样本保留20%。算法上就是先按样本梯度对样本降序排序，保留梯度处于前10%的样本（100w），再从剩下的900w梯度较小样本随机挑选200w（1000w*20%）样本。这样的话样本量就从1000w减小到了300w，加快训练速度。

如果样本的梯度很小，则该样本的训练误差也很小（gbdt拟合的就是负梯度），表明其是很好训练的，考虑性能的情况下可以对其丢弃。但为什么不全部丢弃而用采样的方法呢？主要还是因为会改变样本的分布情况，伤害模型的准确度。这里尽管会对梯度小的样本进行采样，但是会对采样的样本梯度乘以一个常数因子，将样本分布尽可能拉回来。例如对大梯度样本保留前 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T0LL5RbU-1647587647901)(https://www.zhihu.com/equation?tex=a%2A100%5C%25)] ，对小梯度样本采样 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WsVHHyLV-1647587647902)(https://www.zhihu.com/equation?tex=b%2A100%5C%25)] ，则我们需要将小梯度样本的梯度放大 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sD5wdWFE-1647587647902)(https://www.zhihu.com/equation?tex=%5Cfrac%7B1-a%7D%7Bb%7D)] 。

这里给出原文中GOSS的伪代码，里面清晰的描述了其算法流程。

GOSS算法伪代码

用中文概述一下GOSS流程，对于每一步迭代（for循环里面的）：

（1）先根据模型进行预测，得到样本预测值preds；
（2）根据preds计算loss，然后进一步计算得到样本梯度，样本权重w初始赋值都等于1；
（3）根据样本梯度的绝对值，降序排序得到sorted，它是样本的索引数组；
（4）大梯度样本数据选取topN= [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-djkaY1qz-1647587647904)(https://www.zhihu.com/equation?tex=a%2Alen%28I%29)] 个，得到topSet，也是索引数组；
（5）小梯度样本数据，从剩余的样本里随机挑选randN= [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yapR7LXy-1647587647904)(https://www.zhihu.com/equation?tex=b%2Alen%28I%29)] 个，得到randSet；
（6）将topSet和randSet进行合并，得到usedSet，大小等于 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dGS0JEin-1647587647904)(https://www.zhihu.com/equation?tex=%28a%2Bb%29%5Ctimes+len%28I%29)] ;
（7）将小样本的样本权重乘上权重系数因子 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7FETUQzM-1647587647905)(https://www.zhihu.com/equation?tex=%281-a%29%2Fb)] ，得到新的样本权重w；
（8）根据usedSet索引上的样本 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FCOtcUJr-1647587647906)(https://www.zhihu.com/equation?tex=I)] , 梯度 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9TZxs2Fn-1647587647906)(https://www.zhihu.com/equation?tex=g)] , 权重 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0AvEAf3S-1647587647907)(https://www.zhihu.com/equation?tex=w)] ，得到一个新的弱学习器newModel。
（9）将新弱学习器newModel，加入总模型（lgb是加法模型）。

实验表明，该做法并没有降低模型性能，反而还有一定提升。究其原因，应该是采样也会增加弱学习器的多样性，从而潜在地提升了模型的泛化能力，稍微有点像深度学习的dropout。

2. 互斥特征捆绑（EFB）

Exclusive Feature Bundling，互斥特征捆绑。前面GOSS可以通过减少样本加速模型训练，而EFB可以通过减少特征个数使数据规模进一步变小。

比如在推荐系统里可能特征非常多，达到几万维甚至更多，但其中很多特征是互斥的，互斥指的是一些特征很少同时出现非0值，类似one-hot特征。lgb的思想就是把这些特征捆绑在一起形成一个新的特征，以减少特征数量，提高训练速度。

接下来，两个问题：lgb如何判定哪些特征应该捆绑在一起？lgb又是如何进行捆绑（合并）的呢？

1）首先介绍如何判定哪些特征应该捆绑在一起？

EFB算法采用**构图（build graph）**的思想，将特征作为节点，不互斥的特征之间进行连边，然后从图中找出所有的捆绑特征集合。其实学过数据结构里的图算法就了解过，这个问题基本就是图着色问题。但是图着色问题是一个NP-hard问题，不可能在多项式时间里找到最优解。

因此EFB采用了一种近似的贪心策略解决办法。它允许特征之间存在少数的样本点并不互斥（比如某些对应的样本点之间并不同时为非0），并设置一个最大冲突阈值 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xcANAUfy-1647587647908)(https://www.zhihu.com/equation?tex=K)] 。我们选择合适的 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NfL48eWc-1647587647908)(https://www.zhihu.com/equation?tex=K)] 值，可以在准确度和训练效率上获得很好的trade-off（均衡）。

下面给出EFB的特征捆绑的贪心策略流程：

（1）将特征作为图的顶点，对于不互斥的特征进行相连（存在同时不为0的样本），特征同时不为0的样本个数作为边的权重；
（2）根据顶点的度对特征进行降序排序，度越大表明特征与其他特征的冲突越大（越不太可能与其他特征进行捆绑）；
（3）设置最大冲突阈值K，外层循环先对每一个上述排序好的特征，遍历已有的特征捆绑簇，如果发现该特征加入到该特征簇中的冲突数不会超过最大阈值K，则将该特征加入到该簇中。否则新建一个特征簇，将该特征加入到新建的簇中。

伪码如下：

贪心捆绑算法流程

上面时间的复杂度为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HPluW3JE-1647587647910)(https://www.zhihu.com/equation?tex=O%28n%5E2%29)] ，n为特征的数量，时间其实主要花费在建图上面，两两特征计算互斥程度的时间较长（2层for循环）。对于百万级别的特征数量来说，该复杂度仍是不可行的。为了提高效率，可以不再构建图，将特征直接按照非零值个数排序，将特征非零值个数类比为节点的度（即冲突程度），因为更多的非零值更容易引起冲突。只是改进了排序策略，不再构建图，下面的for循环是一样的。

2）如何将特征捆绑簇里面的所有特征捆绑（合并）为一个特征？

如何进行合并，最关键的是如何能将原始特征从合并好的特征进行分离出来。EFB采用的是加入一个偏移常量（offset）来解决。

举个例子，我们绑定两个特征A和B，A取值范围为[0, 10)，B取值范围为[0, 20)。则我们可以加入一个偏移常量10，即将B的取值范围变为[10,30），然后合并后的特征范围就是[0, 30)，并且能很好的分离出原始特征~

下面给出原文的算法伪码：

合并互斥特征流程

因为lgb中直方图算法对特征值进行了分桶（bin）操作，导致合并互斥特征变得更为简单。从上面伪码看到偏移常量offset直接对每个特征桶的数量累加就行，然后放入偏移常数数组（binRanges）中。上述伪码较为简单，在此就不细说了~

以上介绍的就是GOSS和EFB算法的全部东西啦，有帮助可点赞支持一下！

欢迎学习《python金融风控评分卡模型和数据分析(加强版)》
转载：https://zhuanlan.zhihu.com/p/366234433

论文涉及机器学习建模解决方案