当涉及到预测数据(时间序列或其他类型的序列)时,人们会关注基本回归、ARIMA、ARMA、GARCH,甚至Prophet,但不排除使用随机森林来预测数据。

随机森林通常被认为是一种分类技术,但回归问题绝对是随机森林可以处理的。

在本文中,我打算使用在网上找到的一个数据集,叫做温莎市房屋销售价格。出于写作的目的,我将只使用价格(price)和批量(lotsize)列。注:在以后的文章中,我打算摒弃这些数据,并对随机森林进行多元回归。

为了开始,先让我们导入项目开始所需的所有库。和往常一样,你可以在这里使用jupyter笔记本来运行这个分析。

现在来加载数据:

同样,我们只使用数据集中的两列—价格(price)和批量(lotsize)。让我们把这些数据画出来,直观地看一看,用批量(lotsize)来预测价格(price)是否有意义。

从数据来看,使用批量来预测价格似乎是一个不错的猜测。

现在,让我们准备好数据集来训练和测试数据。

在上面,我们把随机森林回归量设置为X和y,然后设置我们的训练和测试数据。对于训练数据,我们将取前400个数据点来进行随机森林训练,然后对最后146个数据点进行测试。

现在,让我们运行随机森林回归模型。首先,我们需要从sklearn中导入Random Forest regression:

现在是时候让我们来运行随机森林回归看看会得到什么。

让我们可视化价格(price)和预测价格(predicted_price)。

对于批量(lotsize)预测价格(price)这个大胆的猜测来说,结果确实差强人意。从视觉上,它看起来相当不错(尽管肯定有错误)。

让我们看看基本级别的错误。首先,快速地画出两者之间的“区别”。

这里的错误相当大。我们来看一些值,比如R的平方(R-Squared )和均方误差(Mean Squared Error)。首先,让我们从sklearn导入适当的函数。

现在,让我们来看看R的平方(R-Squared):

R-Squared是0.6976,也就是0.7。对于随机猜测来说,结果不是很好,但也不是很糟糕。0.7(或70%)是为了告诉你,大约70%的“信号”变化是由用作预测器的变量解释的。从全局来看,这还不错。

我可以继续进行其他错误的计算,但这篇文章的重点不是展示“准确性”,而是展示如何使用随机森林进行预测的“过程”。

英文原文:https://pythondata.com/forecasting-with-random-forests/
译者:任宇は神様

的garch预测_随机森林预测相关推荐

  1. python预测随机数据_随机森林预测

    Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发. 当涉及到预测数据(时间序列或其他类型的序列)时,人们会关注基本回归.ARIMA.ARMA.GARCH,甚至 ...

  2. 大数据预测实战-随机森林预测实战(一)-数据预处理

    数据读取 气温预测的任务目标就是使用一份天气相关数据来预测某一天的最高温度,属于回归任务,首先观察一下数据集∶ # 数据读取 import pandas as pdfeatures = pd.read ...

  3. 大数据预测实战-随机森林预测实战(四)-模型微调

    接下来介绍下一位参赛选手--GridSearchCV(),它要做的事情就跟其名字一样,进行网络搜索,也就是一个一个地遍历,不能放过任何一个可能的参数组合.就像之前说的组合有多少种,就全部走一遍,使用方 ...

  4. 大数据预测实战-随机森林预测实战(四)-模型调参

    之前对比分析的主要是数据和特征层面,还有另一部分非常重要的工作等着大家去做,就是模型调参问题,在实验的最后,看一下对于树模型来说,应当如何进行参数调节. 调参是机器学习必经的一步,很多方法和经验并不是 ...

  5. 大数据预测实战-随机森林预测实战(三)-数据与特征对模型的影响

    数据与特征对随机森林的影响 带着上节提出的问题,重新读取规模更大的数据,任务还是保持不变,需要分别观察数据量和特征的选寸结果的影响. 导入工具包 import pandas as pd 读取数据 fe ...

  6. 大数据预测实战-随机森林预测实战(三)-数据量对结果影响分析

    下面对比一下特征数量对结果的影响,之前两次比较没有加入新的天气特征,这次把降水.风速.积雪 3 项特征加入数据集中,看看效果怎样∶ # 准备加入新的特征 from sklearn.ensemble i ...

  7. python与算法社区_【Python算法】分类与预测——Python随机森林

    [Python算法]分类与预测--Python随机森林 1.随机森林定义 随机森林是一种多功能的机器学习算法,能够执行回归和分类的任务.同时,它也是一种数据降维手段,在处理缺失值.异常值以及其他数据探 ...

  8. 在jupytor中运行随机森林预测泰坦尼克旅客生存情况

    在jupytor中运行随机森林预测泰坦尼克旅客生存情况 数据集链接链接: link. 百度网盘:链接: https://pan.baidu.com/s/1_pQ-3iG4dr0hrvU_5hYUtg ...

  9. RandomForest:随机森林预测生物标记biomarker——回归

    关于随机森林的简介和应用理论,请阅读之前分享的文章: 一文读懂随机森林在微生态中的应用 关于随机森林进行分类的入门实战,请阅读 之前分享的 - <RandomForest:随机森林预测生物标记b ...

最新文章

  1. tomcat项目自动发布脚本.脚本运行效果
  2. OpenGL硬件加速指南
  3. 《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》一1.5 大数据系统应有的属性...
  4. JVM调优:jdk1.8新生代和老年代的比值是1:2
  5. Trees on the level UVA - 122 (二叉树的层次遍历)
  6. [转] 接触C# 反射 2
  7. 大数据分析平台如何选择
  8. 如何查看Ubuntu的内核是AMD、ARM、x86、x86_64
  9. 摄影测量简答题和作图题
  10. mac 文字识别软件ocr_树洞OCR文字识别软件for mac-树洞OCR文字识别mac版v1.2.0 最新版-腾牛苹果网...
  11. 打造健康的程序员-饮食篇
  12. Java毕设项目校园外卖系统Web端计算机(附源码+系统+数据库+LW)
  13. STM32的一个通用定时器理论上可以当做N个来用
  14. String类型转Long类型需要注意的问题
  15. 290页12万字数字乡村项目规划建设方案
  16. 点击应用图标-应用(Activity)的启动流程
  17. 30 岁后,让你走上坡路的 3 种能力
  18. shell卸载 simatic_Siemens Simatic WinCC v7.5 SP1 (x64)ISO 授权安装教程
  19. Sprintboot redis 采用gzip和Snappy compress压缩数据
  20. (二)Cityscapes数据集简介

热门文章

  1. 远程过程调用失败_Java开发大型互联网RPC远程调用服务实现之问题处理方案
  2. java http 302重定向_Java 纯HTTP请求 禁止302自动重定向
  3. mysql migrations_Code First Migrations更新数据库结构(数据迁移)
  4. 关于MapReduce单词统计的例子:
  5. 2015-03-19 create php alternative for myslq_result in mysqli(PHP)--PDO Tutorial for Mysql Developers
  6. 《Java EE 7精粹》—— 第3章 JSF 3.1 Facelets
  7. python操作mysql数据库的常用方法使用详解
  8. 循环语句:For循环
  9. CISICO 路由器和交换机的基本配置命令
  10. java配置文件工具类,java项目加载配置文件的工具类