快速了解Bagging算法

  • Boostrap sampling 自助采样
  • Bagging算法
  • Bagging性能

Boostrap sampling 自助采样

 之前已经讲过模型的评估方法中有留一法(将数据集划分为两个互不相交的集合,一个做测试集,一个做训练集)和交叉验证方法(将数据分成k个大小相似互不相交的子集,每次使用k-1个子集做训练集,剩下的一个子集做测试集,以此循环进行k次的训练和测试,最后返回k次测试结果的均值。)。但是上述两种方法中都保留了一部分样本用于测试,所以实际模型所使用的训练集比源数据都要小,因此就会引入一些因训练样本规模不同而导致的估计偏差。另外一方面留一法受训练样本影响较小,但是计算复杂度又太高。因此为了解决减少训练样本规模不同造成的影响,同时还能比较高效地进行测试集的评估。自助法就是很好的解决方案。
 boostrap抽样:
 在样本集D(样本数为m)内有放回的抽样,抽取数为m,每次抽取的概率为1/m,一个样本可能被重复抽取.我们做一个简单的估计,样本m此采样中始终不被采样的概率为:

 m趋近于正无穷时求极限,得到原数据集D中36.8%的样本没有出现在采用数据集D1中,我们可以使用D1作为训练集,D-D1作为测试集.这样实际评估的模型与期望的模型都使用m个训练样本,而我们仍有数据总量的1/3没有在训练集中出现.将其用于测试集.术语”包外估计”可以解释上述过程.

Bagging算法


 Bagging基本流程:通过上述自助采样,采出T个含m个训练样本的采样集,然后基于每个采样集训练出一个基学习器(默认决策树,且是并行),在将这些基学习器进行组合。
 在对预测输出进行结合的时候,Bagging通常对分类任务使用简单投票法,对回归任务进行简单的平均法。但是如果投票个数一致,则最简单的做法是随机选择一个类别,当然也可以进一步考察学习器投票的置信度来确定最终的分类。

Bagging性能

 1.Bagging是一个很高效的集成学习算法
 2.Bagging与下面讲的AdaBoost只适用于二分类不同,它能不经修改地用于多分类、回归任务。
 3.自助bootstrap采样过程还给Bagging带来了另一个优点:由于每个基学习器只使用了初始训练集中约63.2%的样本,剩下的约36.8%样本可用作验证集来泛化性能进行“包外样本评估(即:不同于训练数据的样本)”。
 4.从偏差-方差分解角度看,Bagging主要关注降低方差,因此他在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更为明显。

快速了解Bagging算法相关推荐

  1. R语言构建随机森林模型randomForest分类模型并评估模型在测试集和训练集上的效果(accuray、F1、偏差Deviance):随机森林在Bagging算法的基础上加入了列采样(分枝特征随机)

    R语言构建随机森林模型randomForest分类模型并评估模型在测试集和训练集上的效果(accuray.F1.偏差Deviance):随机森林在Bagging算法的基础上加入了列采样(分枝特征随机) ...

  2. R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型、并评估模型在测试集和训练集上的分类效果(accuray、F1、偏差Deviance):Bagging算法与随机森林对比

    R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型.并评估模型在测试集和训练集上的分类效果(accuray.F1.偏差Deviance):Bagging算法与随机森林对比 ...

  3. 集成学习、Bagging算法、Bagging+Pasting、随机森林、极端随机树集成(Extra-trees)、特征重要度、包外评估

    集成学习.Bagging算法.Bagging+Pasting.随机森林.极端随机树集成(Extra-trees).特征重要度.包外评估 目录

  4. Intel发布神经网络压缩库Distiller:快速利用前沿算法压缩PyTorch模型

    Intel发布神经网络压缩库Distiller:快速利用前沿算法压缩PyTorch模型 原文:https://blog.csdn.net/u011808673/article/details/8079 ...

  5. 图像和视频的快速去雾算法研究

    王昕, 孙莹莹, 李影昉. 图像和视频的快速去雾算法研究[J]. 影像科学与光化学, 2016, 34(1): 82-87.   WANG Xin, SUN Yingying, LI Yingfang ...

  6. 一种改进的快速人脸检测算法

    人脸检测是计算机视觉及相关领域的关键技术,在智能人机交互.视频会议.安全监控等方面都有着广阔的应用前景.目前人脸检测方法主要有基于知识的方法和基于统计学习的方法[1].其中,基于知识的检测算法首先抽取 ...

  7. MATLAB可视化实战系列(二十八)-贪心算法求快速平方根倒数算法中的“魔术数字”【含matlab源代码】

    前言 快速平方根倒数算法(Fast InvSqrt)是一种快速计算平方根的倒数的算法,常用于向量标准化运算,在光照渲染中有重要应用.此算法最早可能是于90年代前期由SGI所发明,后来于1999年在&l ...

  8. EL之Bagging:利用Bagging算法实现回归预测(实数值评分预测)问题

    EL之Bagging:利用Bagging算法实现回归预测(实数值评分预测)问题 目录 输出结果 设计思路 核心思路 输出结果 设计思路 核心思路 #4.1.当treeDepth=1,对图进行可视化 # ...

  9. EL之Bagging(DTR):利用DIY数据集(预留30%数据+两种树深)训练Bagging算法(DTR)

    EL之Bagging(DTR):利用DIY数据集(预留30%数据+两种树深)训练Bagging算法(DTR) 目录 输出结果 设计思路 核心代码 输出结果 1.treeDepth=1 2.treeDe ...

最新文章

  1. 宏基因组合种树第292期—侧柏、樟子松,为祖国绿化做贡献
  2. 可视化神经网络的网络结构并保存
  3. 【LeetCode】0830.较大分组的位置
  4. CentOS下升级python2.7.10过程记录
  5. 图文详解如何搭建Windows的Android C++开发环境
  6. 如何删除选择框的所有选项,然后添加一个选项并使用jQuery选择它?
  7. java 调用 r, Can't find dependent libraries
  8. libxml2 知:介绍
  9. 蜂鸟数据Trochil:论述制定策略的两种主要方法:市场假设和瑞士法郎案例研究-构建更好的策略1
  10. 从pdf复制文字到word中的问题
  11. 美女直播这么火,那你知道怎么测试直播软件吗?
  12. Ofiice 2016 Excel 表中某一列按照另一列的数值进行排序
  13. 天翼云从业认证(4.4)异构双活云灾备实例
  14. Flutter提示之Navigator operation requested with a context that does not include a Navigator.
  15. 常用dos命令(4)
  16. MC9S12G128 led点亮 key按键
  17. 7-17 找最贵的书和最便宜的书
  18. NDK开发错误 use of invalid jobject 0x7fb147b460
  19. Mac下使用XLD转换无损音乐Ape
  20. 想开始早起,你可以这么干

热门文章

  1. url模糊匹配优化_详情页怎么做SEO优化?
  2. 全程图解交换机和路由器的应用
  3. Android 实现多个输入框的对话框
  4. java计算器监听_计算器及事件监听
  5. visual studio 设计器不显示_面向国际市场的装置开发运维软件设计与实现
  6. petapoco mysql_PetaPocoEfCoreMvc[持续更新]欢迎在github上star
  7. 山西计算机等级考试科目一模拟试题,2011山西省计算机等级考试试题 二级ACCESS一点通科目一...
  8. 湖南大学计算机系统原理实验,湖南大学-计算机组成原理实验-实验3-bomblab_图文.pdf...
  9. linux离线安装pyhs2,Python 下载及安装详细步骤
  10. python读取文件夹下所有图像 预处理_Tensorflow之tif图像文件预处理