文章目录

  • 集成学习(ensemble learning)
  • 1.bagging(装袋法)
  • 2.boosting(提升法)
  • 3.stacking(堆叠法)

集成学习(ensemble learning)

  • 集成学习是集合多个弱监督模型,通过一定的结合策略,得到一个更好更全面的强监督模型的过程

  • 潜在的思想是即使某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来

  • 弱学习器:常指泛化性能略优于随机猜测的学习器,例如在二分类问题中精度略高于50%的分类器

  • 强学习器:通过一定的方式集成一些弱学习器,达到了超过所有弱学习器的准确度的分类器

  • 构建集成学习模型时需要先明确两个问题:

    • 1.如何得到若干个个体学习器
    • 2.如何选择结合策略
问题1:如何得到若干个个体学习器
若学习器是同质的,一个类型的---bagging,boosting
继续划分,看学习器之间是否存在依赖关系
- 不在依赖关系:bagging
- 存在:boosting
学习器异质---Stacking

1.bagging(装袋法)

  • 方法的关键是自主采样法(Bootstrap sampling),方法原理是,从N个样本的训练集中,取N次样本,每取一次,放回,也就是说取到的N个样本中,可能有重复的,也会有相当一部分样本没有被取到过

  • 这样做的话,初始数据集中约有63.2%的样本出现在采样数据集中,36.8%的样本不出现

  • 概率计算:

  • 从数据集中取N次样本,每次都放回,样本A不被取到的概率为 ( 1 − 1 N ) N (1-\frac 1 N)^N (1−N1​)N,当 N → ∞ N\to\infty N→∞,上式 = 1 e =\frac 1 e =e1​

  • 该方法可分类,可回归

  • 分类任务,投票表决,回归任务,平均法

  • 代表:随机森林

2.boosting(提升法)

  • 原理:先基于数据集,对每个样本附一个初始权重(相等),构建一个基模型,根据基模型的表现,对训练样本的权重进行调整,对分错的训练样本予以更大权重,在后续模型中重点关注、学习这些难分的样本,如此重复直到构建好K个模型
  • 再将这K个模型进行加权整合
  • 学到这里,我有几个疑问需要后续解决:
    • 1.初始权重是否都是一样的值
    • 2.对难分的训练样本权重调整多少?有什么规则?怎样选择调整量?
    • 3.最后对这K个模型进行加权整合时,每个模型的权重是如何确定的?
    • 4.在加大对难分的样本的权重后,模型是否会有效果的提升?
    • 5.就算加大了这个训练样本的权重,在训练时怎么运用这个权重?
  • 代表模型:AdaBoost, Xgboost,GBDT

3.stacking(堆叠法)

集成学习(bagging/boosting/stacking)BERT,Adaboost相关推荐

  1. 机器学习--集成学习--Bagging,Boosting,Stacking

    在一些数据挖掘竞赛中,后期我们需要对多个模型进行融合以提高效果时,常常会用到Bagging,Boosting,Stacking等这几个框架算法.下面就来分别详细讲述这三个框架算法.这里我们只做原理上的 ...

  2. 集成学习bagging, boosting, stacking

    集成学习能够通过训练数据集产生多个学习模型,然后通过一定的结合策略生成强学习模型. bagging 可以并行执行 每一棵树权重是一样的 随机森林 Bagging是bootstrap aggregati ...

  3. 大白话5分钟带你走进人工智能-第30节集成学习之Boosting方式和Adaboost

    目录 1.前述: 2.Bosting方式介绍: 3.Adaboost例子: 4.adaboost整体流程: 5.待解决问题: 6.解决第一个问题:如何获得不同的g(x): 6.1 我们看下权重与函数的 ...

  4. 集成学习-Bagging和Boosting算法

    文章目录 集成学习 Bagging 随机森林 Bosting Adaboost GBDT XGBoost 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网 ...

  5. 集成学习——Bagging、Boosting、Stacking

    目录 偏差与方差 投票法 集成学习 Bagging Bootstraps Bagging Boosting 基本概念 Adaboost 前向分步算法 梯度提升树(GBDT) XGBoost Light ...

  6. 树模型系列之集成学习(Bagging、Boosting、Stacking)

    文章目录 树模型系列之集成学习(Bagging.Boosting.Stacking) bagging Boosting Stacking 偏差与方差 集成学习的偏差与方差 Bagging 的偏差与方差 ...

  7. 集成学习——BAGGING和随机森林

    集成学习--BAGGING和随机森林 集成学习--BAGGING和随机森林 1.什么是集成学习 2.怎样进行集成学习 3.Bagging方法 4.Bagging方法训练.预测过程 5.Bagging方 ...

  8. 集成学习之Boosting

    集成学习之Boosting 1.boosting集成原理 1.1 什么是boosting 随着学习的积累从弱到强 简而言之:每新加入一个弱学习器,整体能力就会得到提升 代表算法:Adaboost,GB ...

  9. 集成学习【二】:Adaboost结合神经网络及代码实现

    Adaboost结合神经网络(纯算法实现多分类) 背景介绍 Adaboost.M1实现步骤 一.导入包 二.定义函数 三.构建一个简易的CNN 四.模型的训练与测试(Boosting算法实现) SAM ...

  10. R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型、并评估模型在测试集和训练集上的分类效果(accuray、F1、偏差Deviance):Bagging算法与随机森林对比

    R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型.并评估模型在测试集和训练集上的分类效果(accuray.F1.偏差Deviance):Bagging算法与随机森林对比 ...

最新文章

  1. python【蓝桥杯vip练习题库】ADV-69质因数(数论)
  2. oracle11gr2 active data guard,Oracle11gR2 Aactive DataGuard(手动)装配部署及维护文档(三)之升级及rman...
  3. FortiAnalyzer-VM 安装使用
  4. mysql的存储过程正负数的变化_《转》mysql存储过程语法及范例
  5. Android WebView 在内部打开链接,捕获错误
  6. CSS3 实用技巧:制作三角形
  7. kali linux中文乱码解决,kali-google-chrome中文乱码问题解决方法
  8. 阿里云OSS对象存储STS鉴权配置
  9. bandizip专业版
  10. java项目中包的命名规范
  11. C# SendMessage 全集
  12. oracle安装蓝屏_Windows下安装ORACLE RAC蓝屏无限重启
  13. 如何把图纸转换为t3格式_天正cad转t3格式
  14. 做了多年开发的你发现自己的水平一直上不去,一篇文章教你如何提高开发水平的方法
  15. coverity java_coverityamp;fortify1--Poor Error Handling: Overly Broad Catch
  16. 解决vscode打开txt文件乱码
  17. Axure 安装教程
  18. [HAOI2006]旅行comf(枚举+最小生成树)
  19. 触及办事质量黑白、是否跟商家承诺的一致
  20. ubuntu 文件恢复

热门文章

  1. TwinCAT 3 PLC 读写SDO
  2. hbase出现org.apache.hadoop.hbase.PleaseHoldException: Master is initializing错误解决
  3. FSMC驱动TFTLCD原理,时序和寄存器介绍
  4. arduino结合74hc192实现计数显示
  5. PBFT算法实现过程
  6. 【数据可视化】基于scattertext的“十二五和十三五规划”文本分析
  7. 如何收藏第四套人民币大全套
  8. cut最后几位 shell_详解Shell cut用法
  9. python中unstack_python – AssertionError:当unstack()数据帧时,blk ref_locs中的间隙
  10. 转:超级干货 :手把手教数据可视化工具Tableau