上一篇文章讲了GBDT的回归篇,其实这一篇文章的原理的思想基本与回归相同,不同之处在于分类任务需用的损失函数一般为logloss、指数损失函数。

回顾下logistic regression有助于我们进一步的了解GBDT是如何进行分类的,线性模型是我们使用最简单的模型,但却蕴涵着机器学习中一些重要的基本思想,我们把线性回归模型简写为:

                                         

          考虑二分类任务,其输出标记为,而线性回归模型产生的预测值是实值,于是,我们需要将实值转换成的值,单位阶跃函数不连续,因此我们希望找到能在一定程度上近似单位阶跃函数的“替代函数”,并希望它是单调可微的。对数几率函数(logistic function)正是这样一个常用的替代函数:

                                          

         对数几率函数是一种“Sigmoid”函数,它将值转化为一个接近0或1的y值,我们将带入上式得:

                                          

        进行如下变换:

                                           (线性的)

        若将视为样本作为正例的可能性,则是其反例的可能性,两者的比值:

                                           

称为“几率(odds)”,反映了作为正例的相对可能性。对几率取对数则得到“对数几率”(log odds):

                                            

若将上式中的视为类后验概率估计,则上式可重写为:

                                           

       算出:

                                           

                                                                                      

对于给定的样本集,,可以应用极大似然估计法估计模型参数,从而得到logistic模型

     设:                                ;                   

似然函数为:

                                        

     对数似然函数为:

                                       

      对上式求极限找到的即我们所求的模型(下面我们讲损失函数)                     

这里要求的极大值,那么加个负号就是等价于求其最小值,所以上式加上负号我们可以认为是一种损失函数,就是我们说的对数损失函数

                                     

其中;对上式化简:

                                                                  

 而

        参考如下:只不过下面的推导是对求偏导,方法一模一样:

      

机器学习爬大树之(GBDT原理)--二分类篇相关推荐

  1. 机器学习爬大树之(GBDT原理)--回归篇

     集成学习(ensemble learning)想必应该是最为火爆的机器学习算法了,它通过构建并结合多个学习器来完成学习任务:类似于我们长说的"采百家之长",目前的集成学习方法大致 ...

  2. 【火炉炼AI】机器学习008-简单线性分类器解决二分类问题

    [火炉炼AI]机器学习008-简单线性分类器解决二分类问题 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplot ...

  3. 机器学习Sklearn实战——梯度提升树二分类原理

    一.算法使用 (一)创建 (二)参数调整 cross_val_score:求单一参数最合适的值(KNN) GridSearchCV网格搜索:多参数组合最优的值 标准:准确率,精确率,召回率,F1 (三 ...

  4. 机器学习中的数学原理——二分类问题

    今天是2022年的最后一天,提前祝大家新年快乐!这个专栏主要是用来分享一下我在机器学习中的学习笔记及一些感悟,也希望对你的学习有帮助哦!感兴趣的小伙伴欢迎私信或者评论区留言!这一篇就更新一下<白 ...

  5. 机器学习爬大树之决策树(ID3,C4.5)

    自己自学机器学习的相关知识,过了一遍西瓜书后准备再刷一遍,后来在看别人打比赛的代码时多次用到XGBoost,lightGBM,遂痛下决心认真学习机器学习关于树的知识,自己学习的初步流程图为: 决策树( ...

  6. 机器学习:理解逻辑回归及二分类、多分类代码实践

    作者 | caiyongji   责编 | 张红月 来源 | 转载自 caiyongji(ID:cai-yong-ji) 本文的概念相对简单,主要侧重于代码实践.现实生活中不止有预测的问题还有分类的问 ...

  7. 机器学习爬大树之决策树(CART与剪枝)

    分类与回归树(classification and regression tree,CART)是应用广泛的决策树学习方法,同样由特征选择,树的生成以及剪枝组成,既可以用于分类也可以用于回归.CART假 ...

  8. 【机器学习】特征工程步骤——以二分类问题为例

    1.数据的探索分析EDA 数据的探索分析EDA,是对数据进行初步的统计分析,统计数据的分布.异常.相互关系,目标是让我们了解这些数据能告诉我们什么.可以用来指导我们进行模型的选择,比如说帮助我们初步的 ...

  9. 深入理解GBDT二分类算法

    我的个人微信公众号: Microstrong 微信公众号ID: MicrostrongAI 微信公众号介绍: Microstrong(小强)同学主要研究机器学习.深度学习.计算机视觉.智能对话系统相关 ...

最新文章

  1. Python 把列表转成元组
  2. AttributeError: module ‘seaborn‘ has no attribute ‘tsplot‘
  3. mysql 字符集 校验规则_MySQL字符集及校验规则
  4. “数”说系列洞察报告:30+女性专题——浪姐无价,又A又飒
  5. 万字长文剖析清楚 Go 语言 defer 原理
  6. js调用ajax案例2,使用ok
  7. cocos2d 嵌入网页_在 cocos2d-x 中嵌入浏览器
  8. 简单python脚本实例-python下10个简单实例代码
  9. 24模块-push【管理推送消息功能】
  10. 一个完整答题卡识别系统
  11. Day10 空时编码理论之无线信道、分集和复用
  12. 查看phpinfo方法
  13. 计算机网络学习笔记(一)应用层、传输层和网络层数据平面
  14. 推荐+1置顶+1(分享、讨论、实现) 通用软件注册功能之建立有效的软件保护机制
  15. Android性能优化之解密ZAKER,网易云阅读等新闻应用的内容缓存加载方式
  16. U盘版的DOS启动盘制作
  17. 智能制造业也开始进军元宇宙?
  18. 交通灯的PLC控制设计
  19. redis过期策略与淘汰策略
  20. 简答题软件测试的过程是什么,软件测试简答题库

热门文章

  1. CCF 201403-2 窗口
  2. 【Python】pyinstaller安装失败的解决办法
  3. nodejs的一些玩法
  4. python中二进制表示_Python中的二进制搜索:直观介绍
  5. 消除拖延的方法_如何消灭拖延症,并彻底消除想法
  6. Redux中的功能式React式编程简介
  7. springMVC导入excel案例poi
  8. 做骨龄检测_小柚熊:骨龄测试最佳年龄
  9. 一个成绩表 该关系模式的外键_MySQL表之间的关系
  10. Python实现红黑树的删除操作