文章目录

  • 一、随机森林是什么?
    • 1. 随机森林是一种集成学习算法
    • 2. 随机森林的基学习器是决策树
  • 二、随机森林 – Random Forest | RF
  • 三、构造随机森林的 4 个步骤
  • 四、随机森林的优缺点
    • 1. 优点
    • 2. 缺点
  • 五、随机森林 4 种实现方法对比测试
  • 六、随机森林的 4 个应用方向
  • 参考链接

一、随机森林是什么?

随机森林是一种由 决策树 构成的 集成算法 ,他在很多情况下都能有不错的表现。

要深入理解上面这句话,请阅读我的另外两篇文章:

  1. 【机器学习】决策树 – Decision Tree
  2. 【机器学习】集成学习 - Ensemble Learning

1. 随机森林是一种集成学习算法

随机森林属于 集成学习 中的 Bagging(Bootstrap AGgregation 的简称) 方法。用图来表示他们之间的关系如下:

2. 随机森林的基学习器是决策树

决策树:

决策树是一种很简单的基于 if-then-else 规则的有监督学习算法,上面的图片可以直观的表达决策树的逻辑。


二、随机森林 – Random Forest | RF

随机森林:

随机森林是由很多决策树构成的,不同决策树之间没有关联。

当我们进行分类任务时,新的输入样本进入,就让森林中的每一棵决策树分别进行判断和分类,每个决策树会得到一个自己的分类结果,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。


三、构造随机森林的 4 个步骤

  1. 抽取 N 个样本:一个样本容量为 N 的样本,有放回的抽取 N 次,每次抽取 1 个,最终形成了 N 个样本。这选择好了的 N 个样本用来训练一个决策树,作为决策树根节点处的样本。
  2. 选择 m 个属性:当每个样本有 M 个属性时,在决策树的每个节点需要分裂时,随机从这 M 个属性中选取出 m 个属性,满足条件 m << M 。然后从这 m 个属性中采用某种策略(比如说信息增益)来选择 1 个属性作为该节点的分裂属性。
  3. 构造决策树:决策树形成过程中每个节点都要按照步骤 2 来分裂(很容易理解,如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,无须继续分裂了)。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。
  4. 形成森林:按照步骤1~3建立大量的决策树,这样就构成了随机森林了。

四、随机森林的优缺点

1. 优点

  • 它可以处理很高维度(特征很多)的数据,并且不用降维,无需做特征选择
  • 它可以判断特征的重要程度
  • 可以判断出不同特征之间的相互影响
  • 不容易过拟合
  • 训练速度比较快,容易做成并行方法
  • 实现起来比较简单
  • 对于不平衡的数据集来说,它可以平衡误差。
  • 如果有很大一部分的特征遗失,仍可以维持准确度。

2. 缺点

  • 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合。
  • 对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的

五、随机森林 4 种实现方法对比测试

随机森林是常用的机器学习算法,既可以用于分类问题,也可用于回归问题。本文对 scikit-learn、Spark MLlib、DolphinDB、XGBoost 四个平台的随机森林算法实现进行对比测试。评价指标包括内存占用、运行速度和分类准确性。

测试结果如下:


六、随机森林的 4 个应用方向

随机森林可以在很多地方使用:

  1. 对离散值的分类
  2. 对连续值的回归
  3. 无监督学习聚类
  4. 异常点检测

参考链接

  1. 随机森林 – Random forest

【机器学习】随机森林 – Random forest相关推荐

  1. 机器学习 - 随机森林 Random Forest

    先修知识: 决策树.可以看我之前写的文章https://blog.csdn.net/weixin_41332009/article/details/112276531 集成学习.也可以看之前写的文章h ...

  2. 随机森林 – Random forest

    随机森林 – Random forest 随机森林是一种由决策树构成的集成算法,他在很多情况下都能有不错的表现. 本文将介绍随机森林的基本概念.4 个构造步骤.4 种方式的对比评测.10 个优缺点和 ...

  3. 机器学习方法(六):随机森林Random Forest,bagging

    欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 前面机器学习方法(四)决策树讲了经典 ...

  4. 随机森林Random Forest,bagging

    欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld.  技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 前面机器学习方法(四)决策树讲了经 ...

  5. 通俗解读随机森林Random Forest

    通俗解读随机森林Random Forest 写在前面 1. 什么是集成学习 2. 什么是Bagging 3 随机森林 写在前面 声明:本文主要参考的是周志华老师的<机器学习>西瓜书,参杂了 ...

  6. 【ML】随机森林(Random Forest) 从入门到放弃再到掌握

    目录 集成学习 决策树 Boosting Adaboost GBDT 梯度提升决策树是属于boosting集成学习的一种方法,通过构建多颗CART回归树,每一轮利用上一轮学习器的残差进行树的创建.该残 ...

  7. 随机森林(Random Forest)和梯度提升树(GBDT)有什么区别?

    随机森林(Random Forest)和梯度提升树(GBDT)有什么区别? 随机森林属于 集成学习 中的 Bagging(Bootstrap AGgregation 的简称) 方法. 随机森林是由很多 ...

  8. 初勘数据处理之预测算法(随机森林random forest)附matlab源码

    初勘数据处理之预测算法(随机森林random forest)附matlab源码 集成学习方法 集成学习方法,是整合多个分类方法的预测结果,以提高分类准确率.集成学习方法先用训练数据构建一组基分类器,再 ...

  9. 西瓜书+实战+吴恩达机器学习(十三)监督学习之随机森林 Random Forest

    文章目录 0. 前言 1. 随机森林算法 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 Bagging:对数据集进行有放回采样,采mmm次构成一个新的数据集,基 ...

最新文章

  1. [VMware WorkStation]虚拟机网络
  2. Redis原理及拓展
  3. Attribute和Property的区别
  4. hibernate自动建表到数据库及spring下自动建表到数据库
  5. mysql的事务日志_MySQL 事务日志
  6. jar httpclient 少包,此处 区别 common-http包
  7. DOM、Window操作
  8. Linux系统编程 -- 线程私有属性
  9. 揭秘全球第二大基金公司:先锋基金70人投资团队掌管2万亿美元股票资产
  10. 超级好用很少人知道的5款小众软件,建议收藏转发
  11. c 语言ifelse语句的用法,C 语言 if...else 语句
  12. EZStation如何登陆云端账号、密码?
  13. 雷库兹韦尔量子计算机,人物 | 他说,再挺11年,送你长生不老,要不要?
  14. React 入门教程【官网文档中文版】
  15. pythonturtle八卦_太极八卦连环掌——python大法好
  16. 验证手机号的c语言程序,手机号码正则表达式
  17. 摄影构图学83年绝版_点评2张粉丝投稿,有1处共同错误,3个摄影技巧“变废为宝”...
  18. VSCode快捷键配置复制一行
  19. 发生线下地推风波,水滴筹冤吗?
  20. java设计模式之原型模式和建造者模式的写法(二)

热门文章

  1. 两款非常好的Redis 可视化管理工具:Another Redis Desktop Manager、QuickRedis
  2. 教你解包华为U8825D官方固件UPDATE.APP --以B956为例
  3. 【JZOJ 5405】【NOIP2017提高A组模拟10.10】Permutation
  4. 同余定理在计算机科学的应用,同余定理在小学数学竞赛中的应用
  5. ORACLE给指定用户授权表的部分权限
  6. jdbc连接mysql的serverTimeZone参数配置
  7. 我,32岁,小米公司程序员,揭 开北京“码农”的真实收入
  8. 大家不用买无线路由器了也可以让手机上WIFI
  9. 波特率、数据传输速率和带宽的关系(转)
  10. 服务器安装Ubuntu