bagging method 和random forests 一般都是应用在决策树中。这篇文章只讨论bagging method 和random forests 的区别。

bagging method 的思想: 假设一个数据集L,通过Boostrap(自助抽样)有放回的抽样n次,那么产生了n个样本数据集,记为n个train集。

第一步:我们将这n个train集进行训练,因此产生了n个基分类器,也可以说是n个决策树

第二步:利用这n个基分类器对测试集进行预测,因此会得到n个结果。

第三步:采取多数投票(majorty vote):将n个预测的结果出现频率最高的类作为总体预测。

仔细思考下会出现一些新的问题,如果一个数据集有一个很强的预测变量和一些中等强度的预测变量,那么可以想到,大多数(甚至所有)的树都会将最强的预测变量用于顶部分裂点,这会造成所有的装袋法树看起来都很相似。与不相关的量求平均相比,对许多高度相关的量求平均带来的方差减小程度是无法与前者相提并论的。在这种情况下,装袋法与单棵树相比不会带来方差的重大降低。这个问题是装袋法一个很致命的问题。那么下面我们来看看random forests method.

random forests 我们称为随机森林,其实随机森林是对装袋法的一种改进,随机森林也需要对自助抽样训练集建立一系列的决策树,这和决策树类似。不过,随机森林在建立树的时候,不和装袋法一样,装袋法建树的时候是将所有预测变量都考虑进去,而随机森林则是考虑每一个分裂点时,都是从所有的预测变量p中随机选取m个预测变量,分裂点所用的预测变量只能从这m个变量中选择。在每个分裂点处都重新进行抽样,选出m个预测变量,通常m≈√p,对每一个分裂点来说,这个算法将大部分可用预测变量排除在外,虽然听起来crazy,但是这个原理是很巧妙的。

其实当随机森林中的m=p时,随机森林和装袋法是一样的。随机森林考虑每个分裂点的子集相对来说比装袋法少很多。这样得到的树的平均值有更小的方差,因而树的可信度相对来说比较高。

装袋法(bagging)和随机森林(random forests)的区别相关推荐

  1. 统计学中的Bootstrap方法(Bootstrap抽样)用来训练bagging算法,如果随机森林Random Forests

    统计学中的Bootstrap方法(Bootstrap抽样)用来训练bagging算法,如果随机森林Random Forests 提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学 ...

  2. 随机森林 (Random Forests) 简单介绍与应用

    1 集成方法(Ensemble methods) 1.1 什么是集成方法 简单来说,集成方法 就是组合多个模型,以获得更好效果. 1.2 两种集成方法 平均法(averaging methods):也 ...

  3. 决策树、装袋、提升和随机森林

    决策树是一种简单.常用的基础模型.之所以说它简单,不仅因为它的思想原理简单具体.贴近实际,它并不需要像线性回归模型一样用一个数学公式来表征,而是由规则来抽象.说它基础,是因为它是一系列复杂强大的模型的 ...

  4. 机器学习方法(六):随机森林Random Forest,bagging

    欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 前面机器学习方法(四)决策树讲了经典 ...

  5. 随机森林Random Forest,bagging

    欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld.  技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 前面机器学习方法(四)决策树讲了经 ...

  6. Bagging与随机森林算法原理小结

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boos ...

  7. (转载)机器学习知识点(十七)Bagging与随机森林算法原理小结

    集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系.另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合.本文就对集成学习中Bagging ...

  8. 监督学习 | 集成学习 之Bagging、随机森林及Sklearn实现

    文章目录 集成学习 1. 投票分类器 1.1 硬投票法 1.2 软投票法 2. Bagging & Pasting 2.1 包外评估 2.2 Random Patches 和 随机子空间 3. ...

  9. 【机器学习-西瓜书】八、Bagging;随机森林(RF)

    8.3 Bagging 与 随机森林 关键词: Bagging : 随机森林: 8.3.1 Bagging 上上一节已经提到,集成学习首要任务就是要解决个体学习器 "好而不同",要 ...

  10. 集成学习——BAGGING和随机森林

    集成学习--BAGGING和随机森林 集成学习--BAGGING和随机森林 1.什么是集成学习 2.怎样进行集成学习 3.Bagging方法 4.Bagging方法训练.预测过程 5.Bagging方 ...

最新文章

  1. 【青少年编程】【答疑】控制Scratch异步代码的执行顺序
  2. Office 365 成微软 AI 落地载体, 53 项 AI 功能你用过多少?
  3. matlab preloadfcn,simulink中打不开SysytemGenerator?返回错误Error evaluating ...
  4. PAT1004 成绩排名【vector sort排序、string的使用】
  5. PHP函数库06:PHP统计字符串里单词出现次数
  6. 语句拼接_第2课:一个周末学会R语言数据处理:表拆分和拼接
  7. 卖票案例 多线程 java 1615387415
  8. Java垂直镜像,Java OpenCV实现图像镜像翻转效果
  9. python3写文件_python3 写文件问题
  10. 范型编程系列二(非原创)
  11. xml引用xsd文件规则
  12. mysql 唯一约束和唯一索引_谈谈唯一约束和唯一索引
  13. Tensorrt7踩坑记录
  14. Office2016软件安装教程
  15. oracle 按时间每五分钟分割,Oracle 5分钟或30分钟分割方法
  16. 推荐:碎碎念情境记忆法——最适合程序员的背单词方法
  17. vue实现预览pdf组件(vue-pdf插件使用)
  18. 新手教程篇-阿里云账号如何注册?
  19. 数字图像处理与Python实现-图像信号处理-图像坏点修复
  20. latex参考文献中输入

热门文章

  1. 大佬打造的400集Python视频合集免费学起来,学完万物皆可爬
  2. 安装Oracle11g服务端,客户端,监听,自定义设置教程(傻瓜式安装文档)
  3. 100行代码教你教务系统自动抢课!
  4. Android布局——Linearlayout线性布局
  5. 带宽大小及各频段对系统的影响
  6. https内网穿透-使用“飞鸽”-微信小程序
  7. OBCA专员考试备考知识点(一) 已考过,不继续更新
  8. 【网络IO】(二)多路复用器——内核级介绍
  9. 如何成为一名合格的CRUD工程师?(文末送书)
  10. 应急响应---应急响应、应急响应事件、网络应急响应