LightGBM

1.LightGBM是微软2017年新提出的,比Xgboost更强大、速度更快的模型,性能上有很大的提升,与传统算法相比具有的优点:

  • *更快的训练效率
  • *低内存使用
  • *更高的准确率
  • *支持并行化学习
  • *可处理大规模数据
  • *原生支持类别特征,不需要对类别特征再进行0-1编码这类的

2.LightGBM一大的特点是在传统的GBDT基础上引入了两个 新技术和一个改进:

  • (1)Gradient-based One-Side Sampling(GOSS)技术是去掉了很大一部分梯度很小的数据,只使用剩下的去估计信息增益,避免低梯度长尾部分的影响。由于梯度大的数据在计算信息增益的时候更重要,所以GOSS在小很多的数据上仍然可以取得相当准确的估计值。
  • (2)Exclusive Feature Bundling(EFB)技术是指捆绑互斥的特征(i.e.,他们经常同时取值为0),以减少特征的数量。但对互斥特征寻找最佳的捆绑方式是一个NP难问题,当时贪婪算法可以取得相当好的近似率(因此可以在不显著影响分裂点选择的准确性的情况下,显著地减少特征数量)。
  • (3)在传统GBDT算法中,最耗时的步骤是找到最优划分点,传统方法是Pre-Sorted方式,其会在排好序的特征值上枚举所有可能的特征点,而LightGBM中会使用histogram算法替换了传统的Pre-Sorted。基本思想是先把连续的浮点特征值离散化成k个整数,同时构造出图8所示的一个宽度为k的直方图。最开始时将离散化后的值作为索引在直方图中累积统计量,当遍历完一次数据后,直方图累积了离散化需要的统计量,之后进行节点分裂时,可以根据直方图上的离散值,从这k个桶中找到最佳的划分点,从而能更快的找到最优的分割点,而且因为直方图算法无需像Pre-Sorted那样存储预排序的结果,而只是保存特征离散过得数值,所以使用直方图的方式可以减少对内存的消耗。

Pre-sorted 算法需要 O(data) 次的计算
Histogram 算法只需要计算 O(bins) 次, 并且 bins 远少于data(直方图仍然需要 O(#data) 次来构建直方图, 而这仅仅包含总结操作,只是第一次做data此即可)

相比XGboost优势:

  • (1)histogram算法替换了传统的Pre-Sorted,某种意义上是牺牲了精度换取速度,直方图作差构建叶子直方图更有创造力(直方图算法的基本思想:先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。遍历数据时,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点[利于计算分割打分]。)。
  • (2)带有深度限制的按叶子生长 (leaf-wise) 算法代替了传统的(level-wise) 决策树生长策略,提升精度,同时避免过拟合危险(不太深了)。
  • (3)内存做了优化,内存中仅仅需要保存直方图数值,而不是之前的所有数据,另外如果直方图比较小的时候,我们还可以使用保存uint8的形式保存来训练数据。
  • (4)额外的优化还有Cache命中率优化、多线程优化。 lightGBM优越性:速度快,代码清晰,占用内存小。lightGBM可以在更小的代价下控制分裂树。有更好的缓存利用,是带有深度限制的按叶子生长的策略,使用了leaf-wise策略,每次从当前所有叶子中,找到分裂增益最大的一个叶子,然后进行分裂,不断的进行循环下去,而lead-wise(智能)算法的缺点是可能生长出比较深的决策树,导致过拟合问题,为了解决过拟合问题,我们会在LightGBM中会对leaf-wise之上增加一个最大深度的限制,在保持高效率的同时防止过拟合。

这篇位大佬https://blog.csdn.net/weixin_39807102/article/details/81912566

https://blog.csdn.net/maqunfi/article/details/82219999

LightGBM,LGB相关推荐

  1. LightGBM(LGB)

    转载自littlemichelle LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度.更低的 ...

  2. 并肩XGBoost、LightGBM,一文理解CatBoost!

    本文主要内容概览: 1. CatBoost简介 CatBoost是俄罗斯的搜索巨头Yandex在2017年开源的机器学习库,是Boosting族算法的一种.CatBoost和XGBoost.Light ...

  3. LightGBM(lgb)详解

    1. LightGBM简介 GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模 ...

  4. 集成学习(XGBoost,LightGBM,CatBoost)

    决策树 由根节点跟许多决策节点和叶子节点组成的树形结构 eg. 分类树 1.信息熵 信息熵是用来衡量休息不确定性的指数,不确定性是一个事件出现不同结果的可能性.计算方法如图所示: H(X)=−∑i=1 ...

  5. ubuntu离线安装lightgbm,报错OSError: /home/feng/anaconda3/envs/py36/bin/../lib/libgomp.so.1: version `GOMP_

    Window下用 Anaconda 安装lightgbm很简单,直接用conda install lightgbm就可以了 实验室的Linux服务器不能联网,这可就废劲了 /home/feng/ana ...

  6. vs最好的版本_Win10 环境下,LightGBM GPU 版本的安装

    由于知乎的编辑器不能完全支持 MarkDown 语法, 所以部分文字可能无法正常排版, 如果你想追求更好的阅读体验, 请移步至该博客的简书的链接. Win10 平台下, LightGBM GPU 版本 ...

  7. LightGBM最强解析,从算法原理到代码实现~

    1 LightGBM简介 GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型 ...

  8. LightGBM大战XGBoost,谁将夺得桂冠?

    引 言 如果你是一个机器学习社区的活跃成员,你一定知道 提升机器(Boosting Machine)以及它们的能力.提升机器从AdaBoost发展到目前最流行的XGBoost.XGBoost实际上已经 ...

  9. GBDT、Xgboost、LightGBM对比,异同点,并行策略

    阐述GBDT.xgboost.lightGBM的异同,xgb的优势,lgb的优势,二者的并行如何实现. 1 XGBoost 与 GBDT 异同 传统 GBDT 以 CART 作为基分类器,XGboos ...

最新文章

  1. 常见的冒泡排序、顺序查找和对半查找
  2. response.redirect 正在中止线程
  3. 科学家揭示灵长类早期胚胎发育多能性的变化模式
  4. springmvc+log4j操作日志记录,详细配置
  5. Interview:算法岗位面试—10.10下午—上海某银行算法岗位(偏数据分析,四大行之一)的技术面—关于项目的考察
  6. 【完整代码】Scala akka入门示例
  7. 面向对象程序设计课程进度条
  8. 中兴f650 2.0.3 固件降级_手机资讯:如何升级iOS12.1.4正式版iOS12.1.4正式版升降级教程...
  9. 浅议gRPC的数据传输机制和回调机制
  10. 667. Beautiful Arrangement II
  11. request.getAttribute()和request.getParameter()区别
  12. 矩池云上复现论文 Neural Graph Collaborative Filtering 环境复现
  13. 浏览器访问局域网共享文件服务器,局域网文件共享:Filezilla-IE 轻松解决(图)...
  14. 遗传算法拟合函数(原理及Python实现)
  15. 数学模型--预测模型、BP神经网络预测
  16. 未来电子服务领域信用系统的架构和发展趋势预测
  17. 回车、换行、空格的ASCII码值(不同OS平台下文件换行定义)
  18. 研发思维08----嵌入式智能产品数据服务后端分析
  19. studiolibrary安装_初学者daz studio中文基础安装布局教程
  20. 天然肠衣数学建模matlab代码,数学建模天然肠衣搭配问题.doc

热门文章

  1. 服务器最多带多少硬盘,一般服务器的硬盘空间有多大?怎么能给那么多 – 手机爱问...
  2. 微信不显示王者荣耀连接服务器,王者荣耀省级不显示,王者荣耀不用微信怎么登录...
  3. 网盘搜索引擎(原创: 涔歌 涔歌 2018-03-25 特别说明,不同网盘搜索引擎搜录内容、搜索算法、提供的功能不同造成搜索结果差异较大,找不到时可以多尝试几个)...
  4. 量子计算机、康威扭结、奥数AI,这是2020年计算机、数学的重大突破
  5. 1093:计算多项式的值
  6. Android实现自适应正方形GridView(陌陌引导页面效果)
  7. Cesium|xt3d卫星正摄动画
  8. 【BZOJ】4668 冷战
  9. 微信提现免费额度领取,快来领取!我领取了738元
  10. vue二级路由和重定向问题