基本思想
通过Bootstrap抽样(0.632自举法),对样本量为n的样本,做k次有放回重复抽样,得到k个样本容量仍为n的随机样本Si,基于样本Si,建立k棵分类回归树,即k个预测模型。
对于分类问题,采用k个预测模型“投票”和“少数服从多数”的原则。哪个类别“得票”最多,就预测为哪个类别。对于回归问题,以k个预测模型给出的预测值的平均值作为最终的预测值。
若令k个预测模型为所有观测投票预测,总有部分观测参与建模,会导致预测误差的估计偏乐观。一般采用基于袋外(Out Of Bag,OOB)观测的预测误差。即若第i个观测在建模过程中有q(q<k)次作为OOB观测,则对第i个观测进行预测时应有q个预测模型为其投票,并以得票最高的类别作为其预测类别。
对袋装技术而言,袋外观测的比例大约为36.8%。

下面以R语言分类预测–决策树中的例子的基础上,进行模型优化:

library('ipred')
#袋装技术建立树模型
#coob=TRUE:基于袋外观测计算预测误差;nbagg=25即抽样次数k;control同单棵树参数意义相同
tree_bag <- ipred::bagging(pres92~age+educ+degree+sex, data=df,nbagg=25, coob=TRUE, control=rc )
#使用模型对样本所有观测进行预测
ts2 <- predict(tree_bag, df, type='class')
#计算混淆矩阵
tb2 <- table(df$pres92,ts2)
#计算错判率
t2 <- diag(tb2)
rs2 <-vector()
for(j in 1:3){b = 1-t2[j]/sum(tb2[,j])rs2 = c(rs2,b)
};rs2

对角线为预测正确的观测数

则此时第1类错判率为0.3168000即(66+132)/(427+66+132),第2类错判率为0.3687500,第3类错判率为0.2928437

很明显,整体而言,错判率较单棵数降低10%左右

组合预测模型:bagging相关推荐

  1. 组合预测模型 | PSO-ELM、ELM极限学习机数据回归预测对比(Matlab程序)

    组合预测模型 | PSO-ELM.ELM极限学习机数据回归预测对比(Matlab程序) 目录 组合预测模型 | PSO-ELM.ELM极限学习机数据回归预测对比(Matlab程序) 预测结果 基本介绍 ...

  2. 组合预测模型 | ARIMA-LSTM时间序列预测(Python)

    组合预测模型 | ARIMA-LSTM时间序列预测(Python) 目录 组合预测模型 | ARIMA-LSTM时间序列预测(Python) 预测结果 基本介绍 程序设计 参考资料 预测结果 基本介绍 ...

  3. 集成模型-组合预测模型

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 目录 文章目录 前言 一.集成模型概述 二.关联规则算法 1.Bagging 1.建模阶段 2.模型评价阶段 3.预测阶段 ...

  4. 基于CNN-LSTM及深度学习的风电场时空组合预测模型

    摘要: 为了更好地预测风电场的风电功率,提取风电场相邻站点之间时空信息和潜在联系,提出了一种基于卷积神经网络(CNN).互信息(mutual information,MI)法.长短时记忆网络(LSTM ...

  5. Python实现孤立森林(IForest)+SVR的组合预测模型

    只讨论性能,不考虑关联性,降噪数据未填补. 1.引入数据集 from sklearn.ensemble import RandomForestClassifier from sklearn.metri ...

  6. Python实现灰狼优化算法(GWO)+SVR的组合预测模型

    1.导包 import csv import numpy as np from sklearn.preprocessing import StandardScaler from sklearn.mod ...

  7. 决策树 bagging boosting 的区别

    凡是在统计分析或机器学习领域从业的朋友们,对决策树这个名词肯定都不陌生吧. 决策树是一种解决分类问题的绝好方法,顾名思义,它正像一棵大树一样,由根部不断生长出很多枝叶:它的优点实在太多,比如可以避免缺 ...

  8. 数据分析与挖掘:财政收入影响因素分析及预测模型

    财政收入影响因素分析及预测模型 1. 背景与挖掘目标 2. 分析方法与过程 2.1 数据探索 2.2 模型构建 2.3 数据预测 1. 背景与挖掘目标 项目为<Python 数据分析与挖掘实战& ...

  9. 【数据分析与挖掘】财政收入影响因素分析及预测模型(有数据集和代码)

    案例背景 在我国现行的分税制财政管理体制下,地方财政收人不仅是国家财政收入的重要组成部分,而且具有其相对独立的构成内容.如何有效的利用地方财政收入,合理的分配,来促进地方的发展,提高市民的收入和生活质 ...

  10. 10 财政收入影响因素分析及预测模型

    4 10 财政收入影响因素分析及预测模型 10.1背景与挖掘目标 本案例通过研究发现影响目前以及未来地方财源建设的因素,并对其进行深入分析,提出对该市地方财源优化的具体建议,供政府决策参考,同时为其他 ...

最新文章

  1. 线上的java环境_Linux部署JavaWeb线上环境
  2. HDU 1198 Farm Irrigation
  3. 【坑爹微信】总有一款接口能坑你到吐血 --- 微信开发经验录
  4. linux 常用命令集
  5. 共享内存简介及docker容器的shm设置与修改
  6. hosts文件 端口_在Linux系统中使用Vim读写远程文件
  7. 鲨鱼 抓包 oracle,抓包工具wireshark的操作使用
  8. linux下批量下载站点内容初稿
  9. VMware密钥激活
  10. 芝麻授权 java调用_手机浏览器怎么调用支付宝进行用户授权呢?
  11. 免Fan,国内直接访问,Instagram!文末还有…………
  12. H5移动端rem转成rpx
  13. MyBatis-Plus的使用
  14. Hadoop的学习笔记(Hive|pig|zookeeper|hbase)
  15. 基于51单片机的计步器步数检测无线蓝牙APP上传方案原理图设计
  16. buck电路 dac stm32_嵌入式设计-基于STM32F334的BUCK同步降压数字电源设计-电路城论坛 - 电子工程师学习交流园地...
  17. 2022数学建模国赛如何安排进度?川川学长精心讲解
  18. 戴尔 成铭3980台式计算机,戴尔成铭3980商用台式机评测 高颜值高性能
  19. 四种常见的 POST-- content-type数据提交方式
  20. 模拟QQ聊天——采用TCP协议的C/S架构实现

热门文章

  1. 18个最受欢迎的低代码开发平台【开源】
  2. 透明贴图原理--浅显易懂
  3. 小团队管理核心(二)
  4. 飞凌linux ip修改,linux下面建立GPRS无线MODEM拨号的方法
  5. 站桩功(初稿)王芗斋 著
  6. php随机一句话,PHP简单实现一言 / 随机一句功能
  7. 网页中直接跳转相应页面方法
  8. WIN7系统做NTP服务器,大师教您win7系统搭建ntp服务器的图文技巧
  9. TPT中脚本评估的正确打开方式 (上):强大的内置函数库
  10. JAVA系列:获取当天0点0分0秒(00:00:00),23点59分59秒(23:59:59)的方法