AdaBoost中样本权重对弱分类器的影响与作用

最近在尝试用集成学习中的AdaBoost对项目进行改进,对AdaBoost做了一些学习,之前也了解过这个算法,大概懂得是个什么思想,个人理解就是,对每个训练样本设置权重,根据弱学习器的学习结果,对样本的权重进行修改更新,那些分类错误的样本(即不容易正确分类)的权重会逐渐增大,这样在下一次的弱学习器训练时会根据这个权重对不容易分类的样本重点学习,从而提升对该样本的分类能力。最终综合多个弱分类器得到最终的分类模型。
但我一直有个问题,就是样本的权重在弱分类器训练时的影响和作用到底是什么,因为这决定我是否需要修改我的弱分类器算法的原始代码。
我百度了很多,众说纷纭,没有怎么看懂,于是找了李航老师编著的《统计学习方法 第2版》的第8.1节《提升方法AdaBoost算法》学习了一下,跟大家分享我的一些理解。

1.样本权重用于计算弱学习器的分类误差率从而计算在集成强分类器的投票中所占的权重


上面的公式中,wkiw_{ki}wki​表示第k轮训练中第i个样本的权重,可以看到,在计算弱分类器的整体误差率时用到了样本权重,然后用于计算当前的弱分类器在最终整合的强分类器中所占的权重系数αk\alpha_{k}αk​。

其中sign()函数是符号函数,返回参数的正负符号。

2. 样本权重在弱分类器的训练中用于计算分类误差时的加权

弱分类器训练的过程实际上是在找一个更好的超参数(比如分类阈值)使得当前所有训练样本的分类误差最小,那么如何体现AdaBoost中的样本权重所代表的重要性呢,就是通过在搜索更好的超参数时计算误差率的操作中体现。如果某个样本的权重比较大,那么在计算这个样本的分类误差时就加上了一个较大的权重系数,他要是分类错了,会很大的影响当前弱分类器的误差率,所以这个样本就比较重要。为了降低整体的分类误差率,在接下来的搜索中会更加重视对这个样本的学习。

3. 每一轮的弱分类器训练中的训练数据有何变化,每一轮的弱分类器有何区别

对于每一轮的弱分类器的训练,其训练数据没有变化都是原始数据。变化的是训练样本的权重,而这个权重只是用来计算误差率。因为样本的权重不同,所以对于同样的超参数,模型的误差率会不同,对于每一轮的弱学习器,为了使得整体误差率最低,会学习到不同的超参数。因此,不同代的弱分类器的区别就是学习到的超参数不同。

4. 若使用不同的弱学习器算法,需要修改什么

不同的AdaBoost算法模型的区别就是弱分类器算法的不同。我们需要修改的是弱学习器算法中在搜索超参数时的对误差率的计算,需要加上样本权重的影响。

以上内容均为个人理解,如有问题,敬请指出。
参考资料:

  1. https://zhuanlan.zhihu.com/p/38507561
  2. 《统计学习方法 第2版》李航著

AdaBoost中样本权重对弱分类器的影响与作用相关推荐

  1. adaboost训练 之 弱分类器训练原理

    二叉决策树介绍 二叉决策树由LeoBreiman和他的同事提出.他们称之为"分类和回归树(CART)".OpenCV实现的就是"分类回归树".简单地说,二叉决策 ...

  2. 【机器学习算法实践】AdaBoost是典型的Boosting算法,加法模型多个弱分类器流水线式的提升精度,更关注那些难处理的数据

    现实生活中,大家都知道"人多力量大","3 个臭皮匠顶个诸葛亮".而集成学习的核心思路就是"人多力量大",它并没有创造出新的算法,而是把已有 ...

  3. haar分类器详解(Haar特征,积分图,adaboost算法,筛选式级联分类器),DCG介绍 --文献阅读报告《基于素描对视频的人脸识别研究》

    基于素描对视频的人脸识别--haar分类器详解,haar特征,adaboost,级联强分类器,积分图,DCG 背景 算法总体流程 1.预处理--识别出人脸并将人脸图像标准化 haar特征 积分图--加 ...

  4. 机器学习算法——利用AdaBoost元算法提高分类性能(基于单层决策树构建的弱分类器)

    当做出重要决定时,我们往往会听取多个专家而不只是一个人的意见.元算法正是采用这种思路,元算法是对其他算法进行组合的一种方式,本篇博文主要介绍AdaBoost元算法,该算法是机器学习工具箱中最强有力的工 ...

  5. 《推荐系统笔记(三)》Adaboost算法 —— 弱分类器组合成强分类器的方法

    前言 我们将介绍将弱分类器组合成强分类器的算法,Adaboost算法,以及该算法有效的证明. 对于这种提升方法,我们有 每次迭代加大误分类点的权重,这样下次生成的弱分类器能够更可能将该误分类点分类正确 ...

  6. 基于BP弱分类器用Adaboost的强分类器

    1.模型的建立 详细代码: <span style="font-size:18px;">%% 该代码为基于BP_Adaboost的强预测器预测%% 清空环境变量 clc ...

  7. 关于Adaboos选择最优弱分类器过程的理解

    特征的设计在此不做解释,随着研究的深入,很多学者丰富和改善了以前的那些特征,最原始的矩形特征为例: 所谓的弱分类器其实是由特征f.阈值theta和一个决定不等号方向的p所决定的在此先不考虑p,简单谈谈 ...

  8. 【干货】机器学习中样本比例不平衡的处理方法

    推荐阅读时间:5min~12min 主要内容:机器学习中样本比例不平衡的处理方法 在机器学习中,常常会遇到样本比例不平衡的问题,如对于一个二分类问题,正负样本的比例是 10:1. 这种现象往往是由于本 ...

  9. 基于树型弱分类器的adaboot演示(含Matlab代码)

    Adaboost是一种非常有用的分类框架[1]. 本质上,它将众多的弱分类器进行线性组合,最终形成一个可以与所谓的强分类器如SVM比拟的分类器.它的优点在于速度快,过拟合不严重等,缺点是需解带权重的离 ...

最新文章

  1. numpy 中的 random.rand() 函数
  2. 华为stfal00是什么手机_opporeno5pro和华为p40pro有什么区别 哪款手机更好
  3. python批量分析表格_示例python 批量操作excel统计销售榜品牌及销售额
  4. Metasploit Framework 简介与使用
  5. Ubuntu下安装nfs服务
  6. wamp环境搭建到mysql就不成功_Wamp环境搭建常见错误问题解决
  7. 应广单片机adc_应广PMC232系列单片机 12位ADC PWM LCD 双核心8位MCU
  8. 【专栏精选】实战:使用LeanCloud实现玩家注册
  9. Oracle join
  10. 算法笔记_101:蓝桥杯练习 算法提高 身份证号码升级(Java)
  11. UCOS II怎么查找当前就绪表中,优先级最高的任务
  12. TOGAF架构学习总结
  13. 量子计算机物理原理,量子信息物理原理
  14. MarkDown + Typora + PicGo 实验报告模板附赠
  15. hyperf获取客户端真实ip
  16. 0基础学SQL(二)
  17. 生产力工具:功能强大又好用的浏览器网页截屏工具FireShot
  18. 【论文笔记】Radatron: Accurate Detection Using Multi-Resolution Cascaded MIMO Radar
  19. 计算机桌面可装在其它盘吗,教大家如何把桌面保存到C盘以外的其他盘里,让电脑飞速转起来...
  20. macbook上好用的解压软件_全能解压 Mac下最好用的解压缩软件

热门文章

  1. 什么是OSI参考模型?
  2. 磁盘寻址方式--CHS和LBA寻址方式
  3. 二元牛顿迭代法matlab,Matlab编写二分法及牛顿迭代法
  4. Margin属性详解(WPF)
  5. 如果收到程序员的爱情表白书……
  6. setTimeout()方法的使用
  7. 保护云安全的7个安全锦囊
  8. UDP协议报文分析和主动发送UDP简单实现
  9. Radeon Software:Host Application,CPU占用率过高
  10. 算法岗面经总结(同程艺龙)