作者 | 梁云1991

来源 | Python与算法之美(ID:Python_Ai_Road)

【导读】LightGBM可以看成是XGBoost的升级加强版本,2017年经微软推出后,便成为各种数据竞赛中刷分夺冠的神兵利器。

一,LightGBM和XGBoost对比

正如其名字中的Light所蕴含的那样,和XGBoost相比,LightGBM在大规模数据集上跑起来更加轻盈。

模型精度:XGBoost和LightGBM相当。

训练速度:LightGBM远快于XGBoost。

内存消耗:LightGBM远小于XGBoost。

缺失值特征:XGBoost和LightGBM都可以自动处理特征缺失值。

分类特征:XGBoost不支持类别特征,需要OneHot编码预处理。

LightGBM直接支持类别特征。

二,LightGBM性能优化原理概述

LightGBM在XGBoost上主要有3方面的优化。

1,Histogram算法:直方图算法。

2,GOSS算法:基于梯度的单边采样算法。

3,EFB算法:互斥特征捆绑算法。

可以用如下一个简单公式来说明LightGBM和XGBoost的关系:

LightGBM = XGBoost + Histogram + GOSS + EFB。

那么,Histogram算法,GOSS算法,和EFB算法分别从什么角度对XGBoost进行性能优化呢?我们先概括性地从全局进行分析,然后再逐个加以介绍。

XGBoost模型训练的总体的复杂度可以粗略估计为:

训练复杂度 = 树的棵数✖️每棵树上叶子的数量✖️生成每片叶子的复杂度。

由于XGBoost采用的基模型是二叉树,因此生成每片叶子需要分裂一次。而每次分裂,需要遍历所有特征上所有候选分裂点位,计算按照这些候选分裂点位分裂后的全部样本的目标函数增益,找到最大的那个增益对应的特征和候选分裂点位,从而生成一片新叶子。

生成一片叶子的复杂度可以粗略估计为:

生成一片叶子的复杂度 = 特征数量✖️候选分裂点数量✖️样本的数量。

而Hitogram算法的主要作用是减少候选分裂点数量,GOSS算法的作用是减少样本的数量,EFB算法的作用是减少特征的数量。

通过这3个算法的引入,LightGBM生成一片叶子需要的复杂度大大降低了,从而极大节约了计算时间。

同时Histogram算法还将特征由浮点数转换成0~255位的整数进行存储,从而极大节约了内存存储。

三,Histogram算法

直方图算法是替代XGBoost的预排序(pre-sorted)算法的。

预排序算法首先将样本按照特征取值排序,然后从全部特征取值中找到最优的分裂点位,该算法的候选分裂点数量与样本数量成正比。

而直方图算法通过将连续特征值离散化到固定数量(如255个)的bins上,使得候选分为点位为常数个(num_bins -1).

此外,直方图算法还能够作直方图差加速。当节点分裂成两个时,右边叶子节点的直方图等于其父节点的直方图减去左边叶子节点的直方图。从而大大减少构建直方图的计算量。

四,GOSS算法

GOSS算法全称为Gradient-based One-Side Sampling,即基于梯度的单边采样算法。

其主要思想是通过对样本采样的方法来减少计算目标函数增益时候的复杂度。

但如果对全部样本进行随机采样,势必会对目标函数增益的计算精度造成较大的影响。

GOSS算法的创新之处在于它只对梯度绝对值较小的样本按照一定比例进行采样,而保留了梯度绝对值较大的样本。

这就是所谓的单边采样。由于目标函数增益主要来自于梯度绝对值较大的样本,因此这种方法在计算性能和计算精度之间取得了很好的平衡。

五,EFB算法

EFB算法全称是Exclusive Feature Bundling,即互斥特征绑定算法。

EFB算法可以有效减少用于构建直方图的特征数量,从而降低计算复杂度,尤其是特征中包含大量稀疏特征的时候。

在许多应用场景下,数据集中会有大量的稀疏特征,这些稀疏特征大部分样本都取值为0,只有少数样本取值非0。

通常可以认为这些稀疏特征是互斥的,即它们几乎不会同时取非零值。

利用这种特性,可以通过对某些特征的取值重新编码,将多个这样互斥的特征捆绑成为一个新的特征。

有趣的是,对于类别特征,如果转换成onehot编码,则这些onehot编码后的多个特征相互之间是互斥的,从而可以被捆绑成为一个特征。

因此,对于指定为类别特征的特征,LightGBM可以直接将每个类别取值和一个bin关联,从而自动地处理它们,而无需预处理成onehot编码多此一举。

六,LightGBM使用范例

使用pip安装lightgbm时候如果报错,可以尝试使用conda安装。

conda install lightgbm

以下为lightgbm的使用范例,可以参照修改使用。

import datetimeimport numpy as npimport pandas as pdimport lightgbm as lgbfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scoredef printlog(info):    nowtime = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')    print("\n"+"=========="*8 + "%s"%nowtime)    print(info+'...\n\n')#================================================================================# 一,读取数据#================================================================================printlog("step1: reading data...")# 读取dftrain,dftestbreast = datasets.load_breast_cancer()df = pd.DataFrame(breast.data,columns = [x.replace(' ','_') for x in breast.feature_names])df['label'] = breast.targetdf['mean_radius'] = df['mean_radius'].apply(lambda x:int(x))df['mean_texture'] = df['mean_texture'].apply(lambda x:int(x))dftrain,dftest = train_test_split(df)categorical_features = ['mean_radius','mean_texture']lgb_train = lgb.Dataset(dftrain.drop(['label'],axis = 1),label=dftrain['label'],                        categorical_feature = categorical_features)lgb_valid = lgb.Dataset(dftest.drop(['label'],axis = 1),label=dftest['label'],                        categorical_feature = categorical_features,                        reference=lgb_train)#================================================================================# 二,设置参数#================================================================================printlog("step2: setting parameters...")                               boost_round = 50                   early_stop_rounds = 10params = {    'boosting_type': 'gbdt',    'objective':'binary',    'metric': ['auc'],    'num_leaves': 31,       'learning_rate': 0.05,    'feature_fraction': 0.9,    'bagging_fraction': 0.8,    'bagging_freq': 5,    'verbose': 0}#================================================================================# 三,训练模型#================================================================================printlog("step3: training model...")results = {}gbm = lgb.train(params,                lgb_train,                num_boost_round= boost_round,                valid_sets=(lgb_valid, lgb_train),                valid_names=('validate','train'),                early_stopping_rounds = early_stop_rounds,                evals_result= results)#================================================================================# 四,评估模型#================================================================================printlog("step4: evaluating model ...")y_pred_train = gbm.predict(dftrain.drop('label',axis = 1), num_iteration=gbm.best_iteration)y_pred_test = gbm.predict(dftest.drop('label',axis = 1), num_iteration=gbm.best_iteration)print('train accuracy: {:.5} '.format(accuracy_score(dftrain['label'],y_pred_train>0.5)))print('valid accuracy: {:.5} \n'.format(accuracy_score(dftest['label'],y_pred_test>0.5)))lgb.plot_metric(results)lgb.plot_importance(gbm,importance_type = "gain")#================================================================================# 五,保存模型#================================================================================printlog("step5: saving model ...")model_dir = "data/gbm.model"print("model_dir: %s"%model_dir)gbm.save_model("data/gbm.model")printlog("task end...")######

公众号后台回复关键字:"源码",获取本文全部代码和对应插图PPT。

(*本文为AI科技大本营转载文章,转载联系原作者


精彩推荐

开幕倒计时10天|2019 中国大数据技术大会(BDTC)即将震撼来袭!豪华主席阵容及百位技术专家齐聚,十余场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读。6.6 折票限时特惠(立减1400元),学生票仅 599 元!


推荐阅读

30分钟搞定数据竞赛刷分夺冠神器LightGBM!相关推荐

  1. JS组件系列——又一款MVVM组件:Vue(一:30分钟搞定前端增删改查)

    前言:关于Vue框架,好几个月之前就听说过,了解一项新技术之后,总是处于观望状态,一直在犹豫要不要系统学习下.正好最近有点空,就去官网了解了下,看上去还不错的一个组件,就抽空研究了下.最近园子里vue ...

  2. 转载-30分钟搞定后台登录界面(103个后台PSD源文件、素材网站)

    原文:30分钟搞定后台登录界面(103个后台PSD源文件.素材网站) 目录 一.界面预览 二.PSD源文件预览 三.工具分享 四.资源说明 五.素材下载网站 六.下载 去年八月时要做一个OA系统为了后 ...

  3. 30分钟搞定ES6常用基础知识

    ES6基础智商划重点 在实际开发中,ES6已经非常普及了.掌握ES6的知识变成了一种必须.尽管我们在使用时仍然需要经过babel编译. ES6彻底改变了前端的编码风格,可以说对于前端的影响非常巨大.值 ...

  4. nginx之30分钟搞定nginx反向代理和负载均衡

    1. 什么是代理服务器 1.1. 代理服务器的好处 代理服务器架构 1)提高访问速度 由于目标主机返回的数据会存放在代理服务器的硬盘中,因此下一次客户再访问相同的站点数据时,会直接从代理服务器的硬盘中 ...

  5. PMCAFF | 知识梳理:30分钟搞定用户需求

    需求是什么? 用户需求概括起来就是:「谁」在「什么环境下」想要「解决什么问题」.详解如下: 目标用户:目标用户是在使用人群细分的基础上得到的,它也在一定程度上影响了使用场景和用户目标.拆解用户的时候考 ...

  6. 30分钟搞定后台登录界面(103个后台PSD源文件、素材网站)(转)

    出处:http://www.cnblogs.com/best/p/6582294.html 目录 一.界面预览 二.PSD源文件预览 三.工具分享 四.资源说明 五.素材下载网站 六.下载 去年八月时 ...

  7. 30分钟搞定后台登录界面(103个后台PSD源文件、素材网站)

    去年八月时要做一个OA系统为了后台界面而烦恼,后来写了一篇博客(<后台管理UI的选择>)介绍了选择过程与常用后台UI,令我想不到的时竟然有许多开发者与我一样都为这个事情而花费不少时间,最后 ...

  8. 30分钟搞定 后台登陆页面 (转)

    目录 一.界面预览 二.PSD源文件预览 三.工具分享 四.资源说明 五.素材下载网站 六.下载 去年八月时要做一个OA系统为了后台界面而烦恼,后来写了一篇博客(<后台管理UI的选择>)介 ...

  9. sonos 显示媒体服务器,30分钟搞定 手把手教你安装Sonos 5.1声道客厅影院

    今天要教大家以最简单的方式为自家的电视添置5.1声道家庭影院. 以往在家中布置5.1声道家庭影院需要大动干戈不说,线材也是无比杂乱,比如这样: 这样: 以及这样: 但如今凭借Sonos的无线技术,5. ...

最新文章

  1. OpenSource的开发模式探讨
  2. 从输入字段读取属性时,HTML编码丢失
  3. C语言作业关于高空坠球,浙大版《C语言程序设计(第3版)》题目集 习题4-8 高空坠球...
  4. Consul 服务注册与发现01——简介|| 安装并运行Consul
  5. 移动端H5页面高清多屏适配方案
  6. mysql主从同步错误记录。
  7. Type 1120: Access of undefined property JSON 无法明确解析多名称引用 JSON
  8. 力扣-414 第三大的数
  9. H3C IPV6实验
  10. 工具-cloc代码行数统计工具
  11. 网站建设和搜索引擎优化(SEO)
  12. 闲置手机不要换锅换盆,你会后悔的
  13. 用PS怎样把一张图片切割成几张小图片?
  14. 关于Ubuntu的16.04对应版本的ros安装和turtlebot安装
  15. layui实现管理后台页面效果
  16. Socket网络编程精讲
  17. 计算机课教学常规要求,职业学校计算机专业常规课堂教学模式探究
  18. 英伟达黄仁勋发布全球最大GPU,超300斤,汽车后备箱大小
  19. 天梯选拔:先序序列创建二叉树,输出先序序列、中序序列、后序序列并输出叶子结点数
  20. mybatis高级映射多对多查询(二)

热门文章

  1. 绿色信托任重道远 应建立补偿机制?
  2. 图表君聊docker-仓库
  3. Linux指令--文件和目录属性
  4. Linux学习笔记之文件管理和目录管理类命令
  5. cto denalil
  6. 计算点、线、面等元素之间的交点、交线、封闭区域面积和闭合集(续1)
  7. mysql的调用有哪三种方式_MySQL数据库之mysql命令行中执行sql的几种方式总结
  8. 智能算法中终止条件: “最大评估次数” or “最大迭代次数”
  9. 2021全国高校计算机能力挑战赛(初赛)Java试题一
  10. GM Tech 2 works with Hummer Yes or No