在 CART 分类回归树的基础之上,我们可以很容易的掌握随机森林算法,它们之间的区别在于,CART 决策树较容易过拟合,而随机森林可以在一定程度上解决该问题。

随机森林的主要思想是:使用随机性产生出一系列简单的决策树,并组合它们的预测结果为最终的结果,可谓三个臭皮匠赛过一个诸葛亮,下面我们就来具体了解一下。

产生随机森林的具体步骤

产生随机森林的步骤大致为三步

  1. 准备样本
  2. 产生决策树
  3. 循环第 1 、2 步,直到产生足够的决策树,一般为上百个

在第 1 步,它是一个可放回抽样,即所产生的样本是允许重复的,这种抽样又被称为 Bootstrap,例如我们有以下 dummy 数据

在做完 Bootstrap 之后,可能的样本数据如下

可见,样本数据中,第 3 条和第 4 条样本是一样的,都对应的是原始数据中的第 4 条。

接下来,就是要使用上面的样本数据来产生决策树了,产生决策树的方法和 CART 基本一致,唯一的不同地方在于,节点的构建不是来自于全部的候选特征,而是先从中随机的选择 n 个特征,在这 n 个特征中找出一个作为最佳节点。

举个例子,假设 n = 2,且我们随机选择了「血液循环正常」和「血管堵塞」这两个特征来产生根节点,如下:

我们将在上述两个特征中选择一个合适的特征作为根节点,假设在计算完 Gini 不纯度之后,「血液循环正常」这个特征胜出,那么我们的根节点便是「血液循环正常」,如下图所示

接下来我们还需要构建根节点下面的节点,下一个节点将会在剩下的「胸口疼痛」、「血管堵塞」和「体重」三个特征中产生,但我们依然不会计算所有这 3 个特征的 Gini 不纯度,而是从中随机选择 2 个特征,取这 2 个特征中的 Gini 不纯度较低者作为节点。

例如我们随机选到了「胸口疼痛」和「体重」这两列,如下:

假设此时「体重」的 Gini 不纯度更低,那么第 2 个节点便是「体重」,如下图:

继续下去,我们便产生了一棵决策树。

随机森林是多棵决策树,在产生完一棵决策树后,接着会循环执行上述过程:Bootstrap 出训练样本,训练决策树,直到树的数量达到设置值——通常为几百棵树。

随机森林的预测

现在我们产生了几百棵树的随机森林,当我们要预测一条数据时,该怎么做呢?我们会聚合这些树的结果,选择预测结果最多的那个分类作为最终的预测结果。

例如我们现在有一条数据:

该条数据被所有树预测的结果如下:

上述结果聚合后为:

取最多的那项为最终的预测结果,即 Yes——该病人被诊断为患有心脏病。

以上,随机森林的两个过程:Bootstrap 和 Aggregate 又被称为 Bagging

总结

本文我们一起学习了随机森林的算法,和 CART 决策树比起来,它主要被用来解决过拟合问题,其主要的思想为 Bagging,即随机性有助于增强模型的泛化(Variance) 能力。

参考:

  • Random Forests (http://1t.click/bh8X)

相关文章:

  • 决策树算法之分类回归树 CART(Classification and Regression Trees)【1】(http://1t.click/bhSm)
  • 决策树算法之分类回归树 CART(Classification and Regression Trees)【2】(http://1t.click/bhSn)

决策树 随机森林 xgboost_决策树算法之随机森林相关推荐

  1. 【数据挖掘】决策树算法简介 ( 决策树模型 | 模型示例 | 决策树算法性能要求 | 递归创建决策树 | 树根属性选择 )

    文章目录 I . 决策树模型 II . 决策树模型 示例 III . 决策树算法列举 IV . 决策树算法 示例 V . 决策树算法性能要求 VI . 决策树模型创建 ( 递归创建决策树 ) VII ...

  2. 决策树算法和CART决策树算法详细介绍及其原理详解

    相关文章 K近邻算法和KD树详细介绍及其原理详解 朴素贝叶斯算法和拉普拉斯平滑详细介绍及其原理详解 决策树算法和CART决策树算法详细介绍及其原理详解 线性回归算法和逻辑斯谛回归算法详细介绍及其原理详 ...

  3. bootstrap算法_决策树算法之随机森林

    在 CART 分类回归树的基础之上,我们可以很容易的掌握随机森林算法,它们之间的区别在于,CART 决策树较容易过拟合,而随机森林可以在一定程度上解决该问题. 随机森林的主要思想是:使用随机性产生出一 ...

  4. python决策树原理_关于决策树算法最通俗的一次Python学习教程,你肯定得看

    一. 概述 前面的一篇 有一点得先说一下,决策树在优化过程中,有3个经典的算法,分别是ID3,C4.5,和CART.后面的算法都是基于前面算法的一些不足进行改进的,我们这次的Python学习教程就先跟 ...

  5. python决策树原理_Python机器学习决策树算法 | kTWO-个人博客

    ps:这篇文章主要来介绍决策树算法的基本原理和概念.具体的Python应用将在下一篇文章中介绍. 1.什么是决策树? 决策树(decision tree)也叫做判定树,类似于流程图的结构,每个内部的结 ...

  6. 【决策树】深入浅出讲解决策树算法(原理、构建)

    本文收录于<深入浅出讲解自然语言处理>专栏,此专栏聚焦于自然语言处理领域的各大经典算法,将持续更新,欢迎大家订阅! ​个人主页:有梦想的程序星空 ​个人介绍:小编是人工智能领域硕士,全栈工 ...

  7. 机器学习算法——决策树算法详细介绍,并使用sklearn实现案例预测,可视化决策树

    目录 一.决策树算法简介 二.决策树分类原理 1.熵 1.1 概念 1.2 案例 2.决策树的划分依据一:信息增益 2.1 概念 2.2 案例: 3.决策树的划分依据二:信息增益率 3.1 概念 3. ...

  8. Python_机器学习_算法_第4章_4.决策树算法

    Python_机器学习_算法_第4章_4.决策树算法 文章目录 Python_机器学习_算法_第4章_4.决策树算法 决策树算法 学习目标 4.1 决策树算法简介 学习目标 小结 4.2 决策树分类原 ...

  9. 决策树算法——选择困难症的“良药”

    "To be , or not to be:that is the question"(生存还是毁灭:这是一个问题),这是著名的莎士比亚悲剧<哈姆雷特>中的主人公一句非 ...

最新文章

  1. python语言百度百科-Python 语言下数据驱动DDT的应用
  2. linux下查看所有用户及所有用户组
  3. 赛程一览 | 2019 上海国际创客大赛
  4. Android之Badge显⽰
  5. 93后阿里P7晒出工资单:原来是狠补了这个~真香
  6. 学习C# - Hello,World!
  7. 18.抽象模板方法———获取程序运行的时间
  8. shell 进入hadoop_Hadoop Shell命令
  9. 暑假集训中期测试 Problem D: 装箱问题2 (并查集)
  10. 用最简单的操作,做最精准的AI模型!
  11. 检查浏览器支持(Checking browser support),这个是很广泛的一个知识!
  12. 威纶触摸屏使用说明书_「西门子1200PLC教程」20.PLC变量表的使用
  13. 后端小白的VUE入门笔记, 前端高能慎入
  14. 如何解除国外听QQ音乐网易音乐地区版权限制解除
  15. js定时器原理的深度剖析
  16. vue实现更换背景图片_Vue实现背景更换颜色操作
  17. 超好用的笔记工具-notion入门指南
  18. Taro项目中设置了设计稿尺寸
  19. Linux操作系统主机名(hostname)简介
  20. Rainmeter音频频谱插件分享

热门文章

  1. GPL协议 与 LGPL协议
  2. 安装 Windows 7 64位系统 相关注意事项
  3. python的_thread模块来实现多线程(python核心编程例子)
  4. Linux:网络基础配置
  5. python os模块的学习
  6. Apache+Tomcat配置方法
  7. HtmlParser 简介
  8. MySQL 深入浅出索引(上)
  9. 96.总线里的异步通信
  10. ST公司STM32F4与STM32F1的区别