1 主要思想

  • 将原始数据分成几个组
  • 训练一组分类器,里面有很多种弱分类器
  • 每个分类器的标签看作一次投票,投票最多的标签为最终标签

其架构如下所示:

2 为什么集成方法可行

假设这里有25个训练的弱分类器,且这些分类器独立工作,不会相互影响。

每一个分类器的出错率

集成分类器的最终做出一个错误预测的概率(超过一半的基础分类器都预测错了)为:

其中:X为做出错误预测的弱分类器的数量

由此可见,集成分类器做出一个错误预测的概率比弱分类器低很多。

下图显示了,弱分类器(有的文档也称base classifier)的错误率(做出错误预测的概率)与集成分类器(ensemble classifier)的错误率之间的关系

由上图可见,当弱分类器的错误率低于0.5时,集成分类器才有效。

集成分类器主要分为两种,一种处理数据的分布,例如bagging,boosting;

另一种处理输入特征,例如 random forests

3 Bagging Algorithm

3.1 Pseudo code

  • 放回抽样(sampling with replacement)

3.2 实例

已知一维原始数据集:

弱分类器是一个单层决策树(desicion stump)

抽样,分类

统计各标签的得票数(正票数+负票数):

上图中最后一行为预估类(或标签)

4 AdaBoosting Algorithm

4.1 Boosting

在bagging中,每一轮sampling,数据被取得概率都是一样的,而Boosting更加关注哪些被误分类的数据。

在Boosting算法中,首先,在第一轮Boosting中,所有的数据都被分配相同的权重(被抽取的概率),

在以后的几轮抽取中,被抽取的权重发生变化,错误分类的数据的被抽取的权重将会提升,

而正确分类的数据被抽取的权重将会降低。

4.2 AdaBoosting

4.2.1 Pseudo code

首先初始化权重w=1/n 并训练弱分类器:C1, C2, …, CT

其次,计算错误率:

计算一个分类器的重要性:

更新权重:

 使所有  之和为1.

如果错误率高于0.5,所有权重再次被分配为1/n

分类公式:

4.2.2 实例

3.2中的一维原始数据集:

基本分类器任然是一个单层决策树(desicion stump)

训练数据过程:

总结:

计算权重:

分类:

预测分类的计算:

集成方法Ensemble Method(bagging, AdaBoost)相关推荐

  1. 【机器学习实战】第7章 集成方法 ensemble method

    第7章 集成方法 ensemble method 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重 ...

  2. 集成方法-随机森林和AdaBoost

    本文转载自:https://github.com/apachecn/MachineLearning 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是 ...

  3. 第七章 集成方法-随机森林和AdaBoost

    集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个 ...

  4. 集成学习(Ensemble Learning),Bagging、Boosting、Stacking

    1 集成学习概述 1.1 概述 在一些数据挖掘竞赛中,后期我们需要对多个模型进行融合以提高效果时,常常会用Bagging,Boosting,Stacking等这几个框架算法,他们不是一种算法,而是一种 ...

  5. 机器学习模型的集成方法总结:Bagging, Boosting, Stacking, Voting, Blending

    机器学习是人工智能的一个分支领域,致力于构建自动学习和自适应的系统,它利用统计模型来可视化.分析和预测数据.一个通用的机器学习模型包括一个数据集(用于训练模型)和一个算法(从数据学习).但是有些模型的 ...

  6. bagging算法_集成学习(Ensemble Learning)——Bagging与Random Forest(1)

    一. 什么是集成学习 集成学习是通过构建并结合多个学习器来完成学习任务的一类算法. 根据个体学习器(基学习器)之间是否存在强依赖关系可将集成学习分为两类: Boosting 个体学习器之间存在强依赖关 ...

  7. 【机器学习实战】第7章 集成方法(随机森林和 AdaBoost)

    第7章 集成方法 ensemble method 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重 ...

  8. 【机器学习实战】第7章 集成方法 随机森林(RandomForest)和 Adaboost

    第7章 集成方法 ensemble method 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重 ...

  9. 第7章 集成方法、随机森林

    欢迎分享本文,转载请保留出处 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重要决定时,大家可能都 ...

最新文章

  1. 脑科学开放日举行,张钹等专家:下一代AI创新要结合脑科学研究
  2. pandas实现众数和众数的频数
  3. PMP-【第5章 项目范围管理】-2021-1-27(116页-135页)
  4. aspx网页背景图片设置代码_python requests,BeautifulSoup批量下载360图片
  5. [网络安全自学篇] 三十六.WinRAR安全缺陷复现(CVE-2018-20250)及软件自启动劫持机理
  6. nginx配置php 9000,Nginx支持php配置
  7. HanLP《自然语言处理入门》笔记--5.感知机模型与序列标注
  8. 网络规划设计师复习笔记
  9. Leetcode 24——Swap Nodes in Pairs
  10. 【开学】下半年简单规划
  11. gini系数 决策树_决策树原理,机器学习系列
  12. 公共云存储服务的可扩展性和性能
  13. Java 类目树形结构查询
  14. 鲁棒控制(棒棒控制原理)
  15. 小计:reducer 到底是什么,白话理解
  16. 根据前序遍历和中序遍历的结果重建二叉树
  17. Highcharts翻译系列三:exporting导出和打印选项
  18. 【BUUCTF】强网杯 2019随便注1 write up
  19. 三问新能源车险:亲自下场卖保险,意欲何为?
  20. [英语]在英语学习的过程中学到的学习方法

热门文章

  1. mysql5.7.17二进制包_mysql5.7二进制包安装方法
  2. 时间序列 - 案例按步骤详解 -(SPSS建模)
  3. php umount强制,php foreach 參數強制類型轉換的問題 | 學步園
  4. @开发者,第二届马栏山杯国际音视频算法大赛高分攻略请查收,心动大奖等你来战!...
  5. Github星标超3k的推荐系统入门资料合集(含教程、论文、代码、数据)
  6. 深度学习在文本领域的应用
  7. Android官方开发文档Training系列课程中文版:电池续航时间优化之检查与监测坞的状态与类型
  8. 【Java】关于Java中的各种流
  9. [ ZJOI 2012 ] 灾难
  10. BZOJ 2124 等差子序列 线段树维护哈希