集成方法Ensemble Method(bagging, AdaBoost)
1 主要思想
- 将原始数据分成几个组
- 训练一组分类器,里面有很多种弱分类器
- 每个分类器的标签看作一次投票,投票最多的标签为最终标签
其架构如下所示:
2 为什么集成方法可行
假设这里有25个训练的弱分类器,且这些分类器独立工作,不会相互影响。
每一个分类器的出错率
集成分类器的最终做出一个错误预测的概率(超过一半的基础分类器都预测错了)为:
其中:X为做出错误预测的弱分类器的数量
由此可见,集成分类器做出一个错误预测的概率比弱分类器低很多。
下图显示了,弱分类器(有的文档也称base classifier)的错误率(做出错误预测的概率)与集成分类器(ensemble classifier)的错误率之间的关系
由上图可见,当弱分类器的错误率低于0.5时,集成分类器才有效。
集成分类器主要分为两种,一种处理数据的分布,例如bagging,boosting;
另一种处理输入特征,例如 random forests
3 Bagging Algorithm
3.1 Pseudo code
- 放回抽样(sampling with replacement)
3.2 实例
已知一维原始数据集:
弱分类器是一个单层决策树(desicion stump)
抽样,分类
统计各标签的得票数(正票数+负票数):
上图中最后一行为预估类(或标签)
4 AdaBoosting Algorithm
4.1 Boosting
在bagging中,每一轮sampling,数据被取得概率都是一样的,而Boosting更加关注哪些被误分类的数据。
在Boosting算法中,首先,在第一轮Boosting中,所有的数据都被分配相同的权重(被抽取的概率),
在以后的几轮抽取中,被抽取的权重发生变化,错误分类的数据的被抽取的权重将会提升,
而正确分类的数据被抽取的权重将会降低。
4.2 AdaBoosting
4.2.1 Pseudo code
首先初始化权重w=1/n 并训练弱分类器:C1, C2, …, CT
其次,计算错误率:
计算一个分类器的重要性:
更新权重:
使所有 之和为1.
如果错误率高于0.5,所有权重再次被分配为1/n
分类公式:
4.2.2 实例
3.2中的一维原始数据集:
基本分类器任然是一个单层决策树(desicion stump)
训练数据过程:
总结:
计算权重:
分类:
预测分类的计算:
集成方法Ensemble Method(bagging, AdaBoost)相关推荐
- 【机器学习实战】第7章 集成方法 ensemble method
第7章 集成方法 ensemble method 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重 ...
- 集成方法-随机森林和AdaBoost
本文转载自:https://github.com/apachecn/MachineLearning 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是 ...
- 第七章 集成方法-随机森林和AdaBoost
集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个 ...
- 集成学习(Ensemble Learning),Bagging、Boosting、Stacking
1 集成学习概述 1.1 概述 在一些数据挖掘竞赛中,后期我们需要对多个模型进行融合以提高效果时,常常会用Bagging,Boosting,Stacking等这几个框架算法,他们不是一种算法,而是一种 ...
- 机器学习模型的集成方法总结:Bagging, Boosting, Stacking, Voting, Blending
机器学习是人工智能的一个分支领域,致力于构建自动学习和自适应的系统,它利用统计模型来可视化.分析和预测数据.一个通用的机器学习模型包括一个数据集(用于训练模型)和一个算法(从数据学习).但是有些模型的 ...
- bagging算法_集成学习(Ensemble Learning)——Bagging与Random Forest(1)
一. 什么是集成学习 集成学习是通过构建并结合多个学习器来完成学习任务的一类算法. 根据个体学习器(基学习器)之间是否存在强依赖关系可将集成学习分为两类: Boosting 个体学习器之间存在强依赖关 ...
- 【机器学习实战】第7章 集成方法(随机森林和 AdaBoost)
第7章 集成方法 ensemble method 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重 ...
- 【机器学习实战】第7章 集成方法 随机森林(RandomForest)和 Adaboost
第7章 集成方法 ensemble method 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重 ...
- 第7章 集成方法、随机森林
欢迎分享本文,转载请保留出处 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重要决定时,大家可能都 ...
最新文章
- 脑科学开放日举行,张钹等专家:下一代AI创新要结合脑科学研究
- pandas实现众数和众数的频数
- PMP-【第5章 项目范围管理】-2021-1-27(116页-135页)
- aspx网页背景图片设置代码_python requests,BeautifulSoup批量下载360图片
- [网络安全自学篇] 三十六.WinRAR安全缺陷复现(CVE-2018-20250)及软件自启动劫持机理
- nginx配置php 9000,Nginx支持php配置
- HanLP《自然语言处理入门》笔记--5.感知机模型与序列标注
- 网络规划设计师复习笔记
- Leetcode 24——Swap Nodes in Pairs
- 【开学】下半年简单规划
- gini系数 决策树_决策树原理,机器学习系列
- 公共云存储服务的可扩展性和性能
- Java 类目树形结构查询
- 鲁棒控制(棒棒控制原理)
- 小计:reducer 到底是什么,白话理解
- 根据前序遍历和中序遍历的结果重建二叉树
- Highcharts翻译系列三:exporting导出和打印选项
- 【BUUCTF】强网杯 2019随便注1 write up
- 三问新能源车险:亲自下场卖保险,意欲何为?
- [英语]在英语学习的过程中学到的学习方法
热门文章
- mysql5.7.17二进制包_mysql5.7二进制包安装方法
- 时间序列 - 案例按步骤详解 -(SPSS建模)
- php umount强制,php foreach 參數強制類型轉換的問題 | 學步園
- @开发者,第二届马栏山杯国际音视频算法大赛高分攻略请查收,心动大奖等你来战!...
- Github星标超3k的推荐系统入门资料合集(含教程、论文、代码、数据)
- 深度学习在文本领域的应用
- Android官方开发文档Training系列课程中文版:电池续航时间优化之检查与监测坞的状态与类型
- 【Java】关于Java中的各种流
- [ ZJOI 2012 ] 灾难
- BZOJ 2124 等差子序列 线段树维护哈希