Random Forest随机森林
随机:随机从数据集中采样以训练模型中的每颗决策树。
森林:模型中包含很多决策树。
在集成学习中,主要分为bagging算法和boosting算法。
Bagging的基本思想为对训练集有放回地抽取训练样例,从而为每一个基本分类器都构造出一个跟训练集大小相等但各不相同的训练集,从而训练出不同的基分类器,最后将各个基分类器进行融合,得到最终分类器。
Boosting的基本思想是一个顺序执行的过程,每个后续模型都会尝试纠正之前模型的错误。后续的模型都依赖于之前的模型。
随机森林(RandomForest,RF)属于集成学习中的Bagging类型算法(Bootstrap Aggregation)即引导聚合类算法。由于这类算法不专注于解决困难样本,所以模型的Performance往往会受限。在集成学习中的另一类算法Boosting即可解决这种缺点。RF相对于Bagging只是对其中一些细节做了自己的规定和设计。
【弱分类器】首先,RF使用了CART决策树作为弱学习器。换句话说,其实我们只是将使用CART决策树作为弱分类器的Bagging方法称为随机森林。
【随机性】同时,在生成每棵树的时候,每个树选取的特征都仅仅是随机选出的少数特征,一般默认取特征总数m的开方。而一般的CART树则会是选择全部的特征进行建模。因此RF的随机选取行、列使得RF不易出现过拟合。
【样本量】相对于一般的Bagging算法,RF会采集和训练集样本数N一样个数的样本。
【特点】由于随机性,对于降低模型的方差很有作用,故随机森林一般不需要额外做剪枝,即可以取得较好的泛化能力和抗过拟合能力。
大致流程:
1.预设模型的超参数
几个树?分几层?
2.随机采样,训练每个决策树
DATASET[N*D] => data subse[n*d]
N,n表示样本数量N>>n
D,d表示特征数量D>>d
3.输入待测样本到每个树中,再将每个树的结果整合
Regression:求均值
Classification:求众数MODE
PROS:
1.模型随机性强,不易overfit
抗噪性强,表示对异常点outlier不敏感
2.处理高维数据相对更快
3.树状结构,模型可解释度高
可以告诉你每个特征的重要性
CONS:
模型往往过于General,不具备正确处理过于困难的样本的能力。
模型起点高,但天花板低。
【所以应该更加关注那些难以预测正确的问题,从而使模型整体性能提高】
Random Forest随机森林相关推荐
- [Machine Learning] Random Forest 随机森林
阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率(oob error) 6 随机森林工作原理解释的一个简单例子 7 随机森林的Pyth ...
- Random Forest随机森林算法
Random Forest是加州大学伯克利分校的Breiman Leo和Adele Cutler于2001年发表的论文中提到的新的机器学习算法,可以用来做分类,聚类,回归,这里只简单介绍该算法在分类上 ...
- random forest(随机森林)
转载自:http://lincccc.com/?p=47 Random Forest(s),随机森林,又叫Random Trees[2][3],是一种由多棵决策树组合而成的联合预测模型,天然可以作为快 ...
- Random Forest随机森林概述
引言 在机器学习中,随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,因此也叫做随机决策树.随机森林中的树之间是没有关联的.当测试数据进入随机森林时,其实就是让每一颗决策树进行分类,最 ...
- 随机森林(Random Forest)为什么是森林?到底随机在哪里?行采样和列采样又是什么东西?
ensemble.RandomForestClassifier([-]) A random forest classifier. ensemble.RandomForestRegressor([-]) ...
- 机器学习-集成学习:随机森林(Random Forest)
内容参考:https://github.com/NLP-LOVE/ML-NLP/tree/master/Machine%20Learning/3.1%20Random%20Forest 略做 ...
- 随机森林 – Random forest
随机森林 – Random forest 随机森林是一种由决策树构成的集成算法,他在很多情况下都能有不错的表现. 本文将介绍随机森林的基本概念.4 个构造步骤.4 种方式的对比评测.10 个优缺点和 ...
- 机器学习中的算法(1)-决策树模型组合之随机森林与GBDT
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...
- 统计学习方法——CART, Bagging, Random Forest, Boosting
本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest B ...
最新文章
- redistemplate文档用法_Jedis 使用及 StringRedisTemplate 常用方法
- html如何添加关闭按钮,大神你好,请问怎么在以下代码的div中添加一个关闭按钮?...
- 大智慧数据文件python_马克的Python学习笔记#模块和包 3
- 第36-37 Tomcat SVN
- Servlet的快速入门以及执行原理
- 训练日志 2019.7.27
- 《Python程序设计》实验指导书(30个实验)
- unity 运行时间问题
- 对MRPⅡ/ERP的认知
- 推荐 | 给好奇者的一些优秀个人博客
- 前端职业规划 - 写给年轻的前端韭菜们
- 正则表达式 压缩 HTML 字符串
- Office系列办公软件中的一款-Microsoft Excel提供下载
- 喧喧发布 2.5.1 版本,支持移动版和桌面端同时登录
- app pour android,Comment configurer Dell Mobile Connect pour Android
- 【网络安全】Metasploit工具
- java写入word文件_使用JAVA写入word文件
- 基于微信小程序的乐团团购系统设计与实现-计算机毕业设计源码+LW文档
- 微信公众号开发中,获取用户资料的两种方式
- 制作抖音超火的罗盘时钟(HTML+CSS+JS)