通俗理解LightGBM并图解举例
算法原文是:
LightGBM:A Highly Efficient Gradient Boosting Decision Tree
一句话:
LightGBM是GBDT的运行速度上的升级版
文章结构如下:
LightGBM={Goss(Gradient−basedOne−SideSampling)EFB(ExclusiveFeatureBundling)LightGBM=\left\{ \begin{aligned} Goss(Gradient-based\ One-Side Sampling)\\ EFB(Exclusive\ Feature\ Bundling) \\ \end{aligned} \right.LightGBM={Goss(Gradient−based One−SideSampling)EFB(Exclusive Feature Bundling)
Goss
先根据梯度对样本进行排序,选取 a * 100% 的top样本,再从剩余数据中随机选取 b * 100% 的样本,并乘以 的系数放大。
同学们 ,到底什么是"根据梯度"对样本进行排序?
假设我们现在的数据集只有一个特征,那么我们怎么筛选数据集呢?
根据上面的图我们可以知道,图中处于黑色区段的特征取值的那一部分数据集就是我们需要的数据集.
也就是说,论文的意思是:
GOSS则通过保存大梯度样本,随机选取小梯度样本,并为其弥补上一个常数权重。这样,GOSS更关注训练不足的样本,同时也不会改变原始数据太多。
##################################################
然后我们来看看EFB是啥意思?
根据论文原文中的一段话:
Specially,in a sparse feature space,many features are mutually exclusive,i.e.they never take nonzero values simultaneously.
什么意思呢?
特征A | 特征B | 类别 |
---|---|---|
1 | - | get cancer |
- | big | healthy |
3 | - | get cancer |
_ | large | healthy |
把特征A和特征B融合为一个特征.
所以这里相当于是在lightGBM的分类器内部进行了"数据预处理"
通俗理解LightGBM并图解举例相关推荐
- 通俗理解tf.nn.conv2d() tf.nn.conv3d( )参数的含义 pytorhc 卷积
20210609 例如(3,3,(3,7,7))表示的是输入图像的通道数是3,输出图像的通道数是3,(3,7,7)表示过滤器每次处理3帧图像,卷积核的大小是3 x 7 x 7. https://blo ...
- 通俗理解tf.name_scope()、tf.variable_scope()
前言:最近做一个实验,遇到TensorFlow变量作用域问题,对tf.name_scope().tf.variable_scope()等进行了较为深刻的比较,记录相关笔记: tf.name_scope ...
- 拉格朗日乘子法的通俗理解
拉格朗日乘子法的通俗理解 1. 举例 2. 求偏导 3. 拉格朗日乘子法 4. 乘子 1. 举例 这里举个简单的例子吧 在家里做蛋糕,假如只计算鸡蛋和牛奶的价格 其中鸡蛋的价格为4.5¥/斤,牛奶为1 ...
- 线性最小二乘法的通俗理解
线性最小二乘法的通俗理解 1. 最小二乘法 2. 通俗理解 2.1. 举例 2.2. 线性方程组 2.3. 最优猜测 2.4. 求偏导 1. 最小二乘法 最小二乘法(又称最小平方法)是一种数学优化技术 ...
- 通俗理解卡尔曼滤波(无人驾驶感知融合的经典算法)
前言 我个人有近10年AI教育经验了,中间获得过一些名号,比如北理工校外导师,微软MVP兼CSDN技术专家,本博客也有1700多万PV了,在AI圈内有极高知名度.后2015年和团队一块创业创办AI职教 ...
- 通俗理解极大似然估计
维基百科:在统计学中,最大似然估计(英语:Maximum Likelihood Estimation,简作MLE),也称极大似然估计,是用来估计一个概率模型的参数的一种方法 极大似然估计,通俗理解来说 ...
- Oracle存储过程入门教程(通俗理解存储过程)
Oracle存储过程入门通俗介绍 一.存储过程通俗理解 二.创建存储过程基本语法(汇总) 三.执行存储过程的方式(5种) 四.网上现有的创建存储过程的两种方式解释(看注释) 五.一些存储过程示例(仅供 ...
- 通俗理解卷积神经网络(cs231n与5月dl班课程笔记)
1 前言 2012年我在北京组织过8期machine learning读书会,那时"机器学习"非常火,很多人都对其抱有巨大的热情.当我2013年再次来到北京时,有一个词似乎比&qu ...
- 【转】通俗理解卷积神经网络(cs231n与5月dl班课程笔记)
转载源地址:https://blog.csdn.net/v_JULY_v/article/details/51812459 通俗理解卷积神经网络(cs231n与5月dl班课程笔记) 1 前言 2012 ...
最新文章
- C语言的 32个关键之和9个控制语言之关键字
- oracle pl sql注意问题,Oracle PL/SQL编写PL/SQL代码的注意事项
- THINKPHP3.2+PHP5.3 配置MEMCACHE
- 热血致敬!曾影响几代科学巨匠的传奇经典,至今仍无人能超越!
- 数据结构---判断一棵树是否是二叉搜索树
- mysql having的用法
- J2ME程序员容易遇到的问题!不断更新中_2008.05.17
- 宝马发布三款新车,2019年将开启最大规模产品攻势...
- python教师管理系统,Python面向对象实战:学生教师信息管理(3)
- GFlags使用总结
- 你用过Foxpro吗?
- 深度xp系统插入光盘显示上一张光盘资料解决方法
- 计算机未检测到任何网络硬件,win10系统连不上网提示“检测不到任何网络硬件”怎么办...
- Vscode 与服务器建立远程连接(ssh)
- 刷题打卡一刷完成 总结
- 三星android5 root包,三星 S5360的安卓 2.3.5系统 root成功
- 【教程】区块链是数据库?那么区块链的数据存储在哪里?如何查看数据?FISCO-BCOS如何更换区块链的数据存储,由RocksDB更换为MySQL、MariaDB,联盟链区块链数据库,区块链数据库应用
- 618战局天猫聚焦“商家体验”,创造确定性增长是核心目标
- php抓取百度风云榜,php正则获取百度音乐排行榜top500
- SpringBoot - SpringBoot配置说明
热门文章
- beego数据库orm操作数据表返回数组
- 组装电脑的五大注意点
- JS----JavaScript中函数
- vant自定义二级菜单
- 中国网建SMS短信接口调用(java发送短信)
- java设计模式之设计原则②依赖倒置原则
- OpenCv:椭圆上点的计算方程
- EKF优化:协方差coff公式、意义、SLAM中的Code优化
- Vs2010无法打开文件“Kernel32.lib”、无法打开“libcpmt.lib”msvcprt.lib
- python3.0与2.0,python3.0与python2.0有哪些不同