原文地址:https://blog.csdn.net/huacha__/article/details/81057150

前言

LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升框架。可用于排序,分类,回归以及很多其他的机器学习任务中。

在竞赛题中,我们知道XGBoost算法非常热门,它是一种优秀的拉动框架,但是在使用过程中,其训练耗时很长,内存占用比较大。在2017年年1月微软在GitHub的上开源了一个新的升压工具--LightGBM。在不降低准确率的前提下,速度提升了10倍左右,占用内存下降了3倍左右。因为他是基于决策树算法的,它采用最优的叶明智策略分裂叶子节点,然而其它的提升算法分裂树一般采用的是深度方向或者水平明智而不是叶,明智的。因此,在LightGBM算法中,当增长到相同的叶子节点,叶明智算法比水平-wise算法减少更多的损失。因此导致更高的精度,而其他的任何已存在的提升算法都不能够达。与此同时,它的速度也让人感到震惊,这就是该算法名字   的原因。

  • 2014年3月,XGBOOST最早作为研究项目,由陈天奇提出

(XGBOOST的部分在我的另一篇博客里:https://blog.csdn.net/huacha__/article/details/81029680

  • 2017年1月,微软发布首个稳定版LightGBM

在微软亚洲研究院AI头条分享中的「LightGBM简介」中,机器学习组的主管研究员王太峰提到:微软DMTK团队在github上开源了性能超越其它推动决策树工具LightGBM后,三天之内星了1000+次,叉了超过200次。知乎上有近千人关注“如何看待微软开源的LightGBM?”问题,被评价为“速度惊人”,“非常有启发”,“支持分布式” “代码清晰易懂”,“占用内存小”等。以下是微软官方提到的LightGBM的各种优点,以及该项目的开源地址。

科普链接:如何玩转LightGBM https://v.qq.com/x/page/k0362z6lqix.html

目录

前言

一、"What We Do in LightGBM?"

二、在不同数据集上的对比

三、LightGBM的细节技术

1、直方图优化

2、存储记忆优化

3、深度限制的节点展开方法

4、直方图做差优化

5、顺序访问梯度

6、支持类别特征

7、支持并行学习

四、MacOS安装LightGBM

五、用python实现LightGBM算法


一、"What We Do in LightGBM?"

下面这个表格给出了XGBoost和LightGBM之间更加细致的性能对比,包括了树的生长方式,LightGBM是直接去选择获得最大收益的结点来展开,而XGBoost是通过按层增长的方式来做,这样呢LightGBM能够在更小的计算代价上建立我们需要的决策树。当然在这样的算法中我们也需要控制树的深度和每个叶子结点的最小数据量,从而减少过拟合。

小小翻译一下,有问题还望指出

  XGBoost LightGBM
树木生长算法

按层生长的方式

        <p>有利于工程优化,但对学习模型效率不高</p></td><td style="width:306px;"><p>直接<strong>选择最大收益的节点</strong>来展开,在更小的计算代价上去选择我们需要的决策树</p><p>控制树的深度和每个叶子节点的数据量,能减少过拟合</p></td></tr><tr><td style="width:115px;">划分点搜索算 法</td><td style="width:207px;">对特征预排序的方法</td><td style="width:306px;">直方图算法:将特征值分成许多小筒,进而在筒上搜索分裂点,减少了计算代价和存储代价,得到更好的性能。另外数据结构的变化使得在细节处的变化理上效率会不同</td></tr><tr><td style="width:115px;">内存开销</td><td style="width:207px;">8个字节</td><td style="width:306px;">1个字节</td></tr><tr><td style="width:115px;">划分的计算增益</td><td style="width:207px;">数据特征</td><td style="width:306px;">容器特征</td></tr><tr><td style="width:115px;">高速缓存优化</td><td style="width:207px;">无</td><td style="width:306px;">在Higgs数据集上加速40%</td></tr><tr><td style="width:115px;">类别特征处理</td><td style="width:207px;">无</td><td style="width:306px;">在Expo数据集上速度快了8倍</td></tr></tbody></table></div><h1 id="%E5%9C%A8%E4%B8%8D%E5%90%8C%E6%95%B0%E6%8D%AE%E9%9B%86%E4%B8%8A%E7%9A%84%E5%AF%B9%E6%AF%94"><a name="t2"></a>二、在不同数据集上的对比</h1>

higgs和expo都是分类数据,yahoo ltr和msltr都是排序数据,在这些数据中,LightGBM都有更好的准确率和更强的内存使用量。

准确率  

内存使用情况

计算速度的对比,完成相同的训练量XGBoost通常耗费的时间是LightGBM的数倍之上,在higgs数据集上,它们的差距更是达到了15倍以上。

三、LightGBM的细节技术

1、直方图优化

XGBoost中采用预排序的方法,计算过程当中是按照value的排序,逐个数据样本来计算划分收益,这样的算法能够精确的找到最佳划分值,但是代价比较大同时也没有较好的推广性。

在LightGBM中没有使用传统的预排序的思路,而是将这些精确的连续的每一个value划分到一系列离散的域中,也就是筒子里。以浮点型数据来举例,一个区间的值会被作为一个筒,然后以这些筒为精度单位的直方图来做。这样一来,数据的表达变得更加简化,减少了内存的使用,而且直方图带来了一定的正则化的效果,能够使我们做出来的模型避免过拟合且具有更好的推广性。

看下直方图优化的细节处理

可以看到,这是按照bin来索引“直方图”,所以不用按照每个“特征”来排序,也不用一一去对比不同“特征”的值,大大的减少了运算量。

2、存储记忆优化

当我们用数据的bin描述数据特征的时候带来的变化:首先是不需要像预排序算法那样去存储每一个排序后数据的序列,也就是下图灰色的表,在LightGBM中,这部分的计算代价是0;第二个,一般bin会控制在一个比较小的范围,所以我们可以用更小的内存来存储

3、深度限制的节点展开方法

LightGBM使用了带有深度限制的节点展开方法(Leaf-wise)来提高模型精度,这是比XGBoost中Level-wise更高效的方法。它可以降低训练误差得到更好的精度。但是单纯的使用Leaf-wise可能会生长出比较深的树,在小数据集上可能会造成过拟合,因此在Leaf-wise之上多加一个深度限制

4、直方图做差优化

直方图做差优化可以达到两倍的加速,可以观察到一个叶子节点上的直方图,可以由它的父亲节点直方图减去它兄弟节点的直方图来得到。根据这一点我们可以构造出来数据量比较小的叶子节点上的直方图,然后用直方图做差来得到数据量比较大的叶子节点上的直方图,从而达到加速的效果。

5、顺序访问梯度

预排序算法中有两个频繁的操作会导致cache-miss,也就是缓存消失(对速度的影响很大,特别是数据量很大的时候,顺序访问比随机访问的速度快4倍以上  )。

  • 对梯度的访问:在计算增益的时候需要利用梯度,对于不同的特征,访问梯度的顺序是不一样的,并且是随机的
  • 对于索引表的访问:预排序算法使用了行号和叶子节点号的索引表,防止数据切分的时候对所有的特征进行切分。同访问梯度一样,所有的特征都要通过访问这个索引表来索引。

这两个操作都是随机的访问,会给系统性能带来非常大的下降。

LightGBM使用的直方图算法能很好的解决这类问题。首先。对梯度的访问,因为不用对特征进行排序,同时,所有的特征都用同样的方式来访问,所以只需要对梯度访问的顺序进行重新排序,所有的特征都能连续的访问梯度。并且直方图算法不需要把数据id到叶子节点号上(不需要这个索引表,没有这个缓存消失问题)

6、支持类别特征

传统的机器学习一般不能支持直接输入类别特征,需要先转化成多维的0-1特征,这样无论在空间上还是时间上效率都不高。LightGBM通过更改决策树算法的决策规则,直接原生支持类别特征,不需要转化,提高了近8倍的速度

7、支持并行学习

LightGBM原生支持并行学习,目前支持特征并行(Featrue Parallelization)数据并行(Data Parallelization)两种,还有一种是基于投票的数据并行(Voting Parallelization)

  • 特征并行的主要思想是在不同机器、在不同的特征集合上分别寻找最优的分割点,然后在机器间同步最优的分割点。
  • 数据并行则是让不同的机器先在本地构造直方图,然后进行全局的合并,最后在合并的直方图上面寻找最优分割点

LightGBM针对这两种并行方法都做了优化。

  • 特征并行算法中,通过在本地保存全部数据避免对数据切分结果的通信。
  • 数据并行中使用分散规约 (Reduce scatter) 把直方图合并的任务分摊到不同的机器,降低通信和计算,并利用直方图做差,进一步减少了一半的通信量。
  • 基于投票的数据并行(Voting Parallelization)则进一步优化数据并行中的通信代价,使通信代价变成常数级别。在数据量很大的时候,使用投票并行可以得到非常好的加速效果。

下图更好的说明了以上这三种并行学习的整体流程:

在直方图合并的时候,通信代价比较大,基于投票的数据并行能够很好的解决这一点。

四、MacOS安装LightGBM

  1. #先安装cmake和gcc,安装过的直接跳过前两步
  2. brew install cmake
  3. brew install gcc
  4. git clone --recursive https://github.com/Microsoft/LightGBM
  5. cd LightGBM
  6. #在cmake之前有一步添加环境变量
  7. export CXX=g++-7 CC=gcc-7
  8. mkdir build ; cd build
  9. cmake ..
  10. make -j4
  11. cd ../python-package
  12. sudo python setup.py install

来测试一下:

大功告成!

值得注意的是:pip list里面没有lightgbm,以后使用lightgbm需要到特定的文件夹中运行。我的地址是:

/Users/ fengxianhe / LightGBM /python-package

五,用python实现LightGBM算法

为了演示LightGBM在蟒蛇中的用法,本代码以sklearn包中自带的鸢尾花数据集为例,用lightgbm算法实现鸢尾花种类的分类任务。

  1. # coding: utf-8
  2. # pylint: disable = invalid-name, C0111
  3. # 函数的更多使用方法参见LightGBM官方文档:http://lightgbm.readthedocs.io/en/latest/Python-Intro.html
  4. import json
  5. import lightgbm as lgb
  6. import pandas as pd
  7. from sklearn.metrics import mean_squared_error
  8. from sklearn.datasets import load_iris
  9. from sklearn.model_selection import train_test_split
  10. from sklearn.datasets import make_classification
  11. iris = load_iris() # 载入鸢尾花数据集
  12. data=iris.data
  13. target = iris.target
  14. X_train,X_test,y_train,y_test =train_test_split(data,target,test_size=0.2)
  15. # 加载你的数据
  16. # print('Load data...')
  17. # df_train = pd.read_csv('../regression/regression.train', header=None, sep='\t')
  18. # df_test = pd.read_csv('../regression/regression.test', header=None, sep='\t')
  19. #
  20. # y_train = df_train[0].values
  21. # y_test = df_test[0].values
  22. # X_train = df_train.drop(0, axis=1).values
  23. # X_test = df_test.drop(0, axis=1).values
  24. # 创建成lgb特征的数据集格式
  25. lgb_train = lgb.Dataset(X_train, y_train) # 将数据保存到LightGBM二进制文件将使加载更快
  26. lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train) # 创建验证数据
  27. # 将参数写成字典下形式
  28. params = {
  29. 'task': 'train',
  30. 'boosting_type': 'gbdt', # 设置提升类型
  31. 'objective': 'regression', # 目标函数
  32. 'metric': {'l2', 'auc'}, # 评估函数
  33. 'num_leaves': 31, # 叶子节点数
  34. 'learning_rate': 0.05, # 学习速率
  35. 'feature_fraction': 0.9, # 建树的特征选择比例
  36. 'bagging_fraction': 0.8, # 建树的样本采样比例
  37. 'bagging_freq': 5, # k 意味着每 k 次迭代执行bagging
  38. 'verbose': 1 # <0 显示致命的, =0 显示错误 (警告), >0 显示信息
  39. }
  40. print('Start training...')
  41. # 训练 cv and train
  42. gbm = lgb.train(params,lgb_train,num_boost_round=20,valid_sets=lgb_eval,early_stopping_rounds=5) # 训练数据需要参数列表和数据集
  43. print('Save model...')
  44. gbm.save_model('model.txt') # 训练后保存模型到文件
  45. print('Start predicting...')
  46. # 预测数据集
  47. y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration) #如果在训练期间启用了早期停止,可以通过best_iteration方式从最佳迭代中获得预测
  48. # 评估模型
  49. print('The rmse of prediction is:', mean_squared_error(y_test, y_pred) ** 0.5) # 计算真实值和预测值之间的均方根误差

输出结果:

可以看到预测值和真实值之间的均方根误差为0.722972。

LightGBM——提升机器算法(图解+理论+安装方法+python代码)相关推荐

  1. python 分类 投票_LightGBM——提升机器算法(图解+理论+安装方法+python代码)

    前言 LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升框架.可用于排序,分类,回归以及很多其他的机器学习任务中. 在竞赛题中,我们知道XGBoost算法非常热门,它是一种优秀的拉 ...

  2. 提升机器算法LightGBM(图解+理论+增量训练python代码+lightGBM调参方法)

    LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升框架.可用于排序,分类,回归以及很多其他的机器学习任务中. 在竞赛题中,我们知道XGBoost算法非常热门,它是一种优秀的拉动框架 ...

  3. LightGBM图解理论+视频+安装方法+python代码

    向AI转型的程序员都关注了这个号

  4. 北极熊优化算法PBO的理论知识以及python代码实现

    北极熊优化算法PBO的理论知识以及python代码实现 北极熊优化算法 1.条件假设 2.浮冰漂移 (全局搜索)策略 3.海豹捕捉 (局部搜索)策略 算法步骤 Python代码实现 参数设定 寻优函数 ...

  5. 灰狼优化算法GWO的理论知识以及python代码实现

    灰狼优化算法GWO的理论知识以及python代码实现 GWO 算法的等级结构 GWO 算法的数学模型 灰狼算法的python实现 寻优结果 下载链接 GWO 算法的等级结构 灰狼优化算法是模拟食物链顶 ...

  6. 【负荷预测】基于灰色预测算法的负荷预测(Python代码实现)

    目录 1 概述 2 流程图 3 入门算例  4 基于灰色预测算法的负荷预测(Python代码实现) 1 概述 "由于数据列的离散性,信息时区内将出现空集(不包含信息的定时区),因此只能按近似 ...

  7. IHS图像融合方法+Python代码

    IHS图像融合方法+Python代码 1.方法原理 HIS为:亮度(I ).色调(H).饱和度(S): 强度表示光谱的整体亮度大小,对应于图像的空间分辨率: 传统的IHS图像融合方法基本思想是将IHS ...

  8. 联邦学习算法介绍-FedAvg详细案例-Python代码获取

    联邦学习算法介绍-FedAvg详细案例-Python代码获取 一.联邦学习系统框架 二.联邦平均算法(FedAvg) 三.联邦随梯度下降算法 (FedSGD) 四.差分隐私随联邦梯度下降算法 (DP- ...

  9. python求解平方根的方法_Python分享解平方根的方法 python代码改错,关于逐次逼近和分享平方根...

    Python如何使用平方根?所谓喜欢,不过是不清醒时的一种错觉.小编喜欢这种错觉.有那么一瞬间,小编想和你在一起,一辈子. 用Python分享一个数的平方根. At each iteration (l ...

最新文章

  1. 成为优秀Java程序员的10大技巧
  2. 关于struts2的开始学习
  3. 深度学习(二)theano学习笔记(1)环境搭建
  4. ONVIFclient搜索设备获取rtsp地址开发笔记(精华篇)
  5. TFS Server 2017 自动化部署步骤
  6. Linux 主要目录速查表
  7. 使用nssm注册系统服务的详细方法
  8. Android仿人人客户端(v5.7.1)——人人授权访问界面
  9. 喝酒神器摇骰子小程序源码分享以及搭建效果图
  10. GPU并行计算版函数图像生成器
  11. centos linux怎么关闭锁屏时间,【Centos】Centos7.5取消自动锁屏功能
  12. golang数据结构初探之管道chan
  13. 注册Git时遇到问题 - Unable to verify your captcha response.
  14. HMM隐马尔可夫模型进行中文文本分词
  15. Linux命令 - userdel命令
  16. 使用H5中的video标签时,页面中间显示“暂停”图标;点击播放,图标消失;点击暂停,图标出现(play、pause、ended)
  17. kinetics-skeleton格式行为数据提取方法
  18. keras与h5py版本不兼容
  19. 在 Mac 上如何使用叠放功能
  20. Java面试题及答案2019版(上)

热门文章

  1. 怎么用VC编程实现把用户名,密码提交到网页上并且实现登录?
  2. 时间同步绝对是一个大问题
  3. 有用的Copy-On-write,写时复制
  4. harmonyos手机开发者beta,HarmonyOS 手机应用开发者 Beta 版到来,对开发者意味着什么...
  5. SecureCRT护眼设置
  6. C小项目——电子词典
  7. NILMTK在Windows下的安装教程
  8. Oracle常见用法总结
  9. nts包如何下周 php_windows下PHP7安装方法(ts版和nts版)
  10. 三、Java 面向对象高级——数据结构、List、Set、Collection