一个大小为N的数据集D.

1.有一个问题是, 对于随机森林的每一棵CART树是怎么训练的, 如何划分训练集测试集?

Bootstrap, 对数据集随机有放回抽样N次作为一棵CART树的训练集.

根据概率论,可知数据集中有大约1/3的数据是没有被选取的(称为Out of bag),所以就是这没被选取的部分作为小树的测试集.

2. 接下来的问题是, 怎么测试随机森林的性能, 测试集是什么?

这里其实理解的有偏差: 随机森林有一个重要的优点就是,没有必要对它进行交叉验证或者用一个独立的测试集来获得误差的一个无偏估计。它可以在内部进行评估,也就是说在生成的过程中就可以对误差建立一个无偏估计。

实际上, 数据集D中的每一个样本都可以拿来做测试数据, 对于一个样本d, 森林中大约有1/e树是OOB的, 那么这1/e的树就构成了预测样本d的森林,用简单投票法计算分类结果. 从而得到总的error.

(Put each case left out in the construction of the kth tree down the kth tree to get a classification. In this way, a test set classification is obtained for each case in about one-third of the trees. At the end of the run, take j to be the class that got most of the votes every time case n was oob. The proportion of times that j is not equal to the true class of n averaged over all cases is the oob error estimate. This has proven to be unbiased in many tests.)原文

随机森林 OOB理解相关推荐

  1. 随机森林参数理解与调优

    首先理解随机森林模型各参数的含义: class sklearn.ensemble.RandomForestRegressor(n_estimators=10, criterion='mse', max ...

  2. 随机森林OOB score作用

    https://blog.csdn.net/MingRachel/article/details/115038730

  3. 集成学习—随机森林原理(理解与论文研读)

    如果只想大致理解下随机森林的原理请看第一部分,第二部分是对原论文的研读(灰色引用标记的为证明或自己的理解),这部分可能需要花的时间比较长,不需要的可以忽略. 此外,文末列出来的参考视频,如果读论文还是 ...

  4. 关于随机森林的一些理解

    目录 随机森林简介 优缺点 优点 缺点 sklearn中随机森林参数 简单实现 小节 随机森林简介 随机森林是一种只关注决策树的集成学习方法,由Leo Breiman和 Adele Cutler提出, ...

  5. Bagging与随机森林算法原理小结

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boos ...

  6. 使用随机森林(Random Forest)进行特征筛选并可视化

    使用随机森林(Random Forest)进行特征筛选并可视化 随机森林可以理解为Cart树森林,它是由多个Cart树分类器构成的集成学习模式.其中每个Cart树可以理解为一个议员,它从样本集里面随机 ...

  7. RF(随机森林)算法原理及其派生算法

    1.前言 集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系.另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合.本文就对集成学习中Ba ...

  8. python机器学习案例系列教程——集成学习(Bagging、Boosting、随机森林RF、AdaBoost、GBDT、xgboost)

    全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 可以通过聚集多个分类器的预测结果提高分类器的分类准确率,这一方法称为集成(Ensemble)学习或分类器组合(Classifier C ...

  9. 随机森林实例:利用基于CART算法的随机森林(Random Forest)树分类方法对于红酒质量进行预测

    随机森林实例:利用基于CART算法的随机森林(Random Forest)树分类方法对于红酒质量进行预测 1.引言 2.理论基础 2.1 什么是决策树 2.2 特征选择的算法 2.2.1 ID3:基于 ...

  10. 机器学习实验——使用决策树和随机森林对数据分类

    实验要求: 使用决策树算法和随机森林算法对income_classification.csv的收入水平进行分类.训练集和测试集的比例是7:3,选取适当的特征列,使得针对测试样本的分类准确率在80%以上 ...

最新文章

  1. C#一种最简单实用安全的单例模式,也是线程安全的
  2. 将用bootstrap框架的html文件转为eclipse中jsp文件
  3. php post验证输入,$.post()登录验证功能
  4. mac 下基于firebreath 开发多浏览器支持的浏览器插件
  5. android 表情,软键盘冲突解决方案(仿微博等SNS应用)
  6. 百度万人协同规模下的代码管理架构演进
  7. WPF--常用布局介绍
  8. redis内存数据的持久化方式
  9. 推荐几个rpm包下载网站
  10. 关于vscode打感叹号无法输出html模板的解决方法
  11. 安卓逆向学习 之 KGB Messenger的writeup(1)
  12. mysql计算连续天数_mysql 统计连续天数
  13. 基于嵌入式技术的智能灌溉系统设计与实现
  14. 【条形码识别】条形码中数字的识别的matlab仿真
  15. HUAWEI Mate bookD 加装固态
  16. 蓝桥杯试题 基础练习 Fibonacci数列
  17. kingcms php 漏洞,kingcms任意php文件删除(可截断时升级为任意文件删除 )
  18. 批量创建带密码的7z和rar压缩包工具
  19. 移动小人Python程序
  20. 2021年起重机司机(限桥式起重机)考试题及起重机司机(限桥式起重机)考试试卷

热门文章

  1. linux磁盘满了删除docker文件夹,Docker磁盘空间使用分析与清理的方法
  2. 计算机所有以太网适配的ip,以太网没有有效的ip配置怎么办
  3. MFC编辑框控件绑定变量出现神奇bug
  4. jquery为dom元素追加样式,使用addClass不生效
  5. 实现点击图标使界面回到顶部
  6. [渝粤教育] 西北农林科技大学 国际贸易实务 参考 资料
  7. 零基础元宇宙AR Avatar制作教程
  8. 计算机工程中级职称怎么考,以前中级职称是要考什么计算机-计算机软考中级职称哪个好考...
  9. 茶道形式、用具及要素
  10. FFmpeg超低延迟视频推流笔记