ONE

集成分类

01

什么是集成分类

集成分类是集成学习的一种,先讲下集成学习是什么。

所谓集成学习,引用一句谚语“三个臭皮匠顶个诸葛亮”最恰当不过。

集成学习就是将多个弱学习器进行组合,最终形成高性能分类器(强学习器)的方法。

将集成学习放在数据分类中,即叫集成分类。

02

集成分类的方法

集成分类有两种集成学习方法:BoostingBagging

Bagging(套袋法)是对多个弱分类器独立学习的方法;

Boosting(提升法)是对多个弱学习器依次进行学习的方法。

二者的区别我们通过下图来对比了解一下:

Bagging

Step1:假设训练集中数据个数为n,每次从训练集中有放回的随机抽取n个数据,并分别生成各自的分类器(弱分类器)。其中,随机抽取数据重新整理样本的过程叫做自助法(又名:Bootstrapping)。

Step2:将得到的弱学习器求平均值,得到强学习器。

Boosting

Step:将训练集中的数据分别生成学习器(多种方法),将初步得到的众多学习器分别匹配一个权值1/b(假设一共有b个学习器),由于训练集已知每个数据的标签,故将分类效果较好的权值进行减小,将分类效果较差的权值进行增大,这样对于原来没有正确分类的样本有了改进,经过多次迭代后,几乎所有的样本都能正确分类了,通过将预测函数加权(另一个权值)求和生成高性能学习器(强学习器)。

注:Boosting中权值涉及到两类,一个是样本的权值,一个是预测函数的权值。

Adaboost:

Boosting中用来进行样本加权的方法即为Adaboost,全称Adaptive Boosting(自适应加强)。

该方法的主要内容为:误差率越小,权重就越小;误差率越大,权重就越大。

集成分类的过程及结果如图示:

主要区别:

1、样本选择

Bagging采用的是Bootstrap随机有放回抽样;而Boosting每一轮的训练集是不变的,改变的只是每一个样本的权重。

2、样本权重

Bagging使用的是均匀取样,每个样本权重相等;Boosting根据错误率调整样本权重,错误率越大的样本权重越大。

3、预测函数

Bagging所有的预测函数的权重相等;Boosting中误差越小的预测函数其权重越大。

4、并行计算

Bagging各个预测函数可以并行生成;Boosting各个预测函数必须按顺序迭代生成。

TWO

弱分类器

01

剪枝分类器与决策树分类器

剪枝分类器是弱分类器的一种,将输入进去n维数据任选其中一维,与之前设定好的阈值进行比较,从而进行分类。

将剪枝分类器进行一层层积累,就得到决策树分类器。

02

弱分类器与集成学习方法结合

下面是将决策树与这些算法框架进行结合所得到的新的算法:

1)Bagging + 决策树 = 随机森林

2)AdaBoost + 决策树 = 提升树

3)Gradient Boosting + 决策树 = GBDT

03

随机森林(RF)

下面部分着重讲一下随机森林,这也在师兄所讲论文《A double decomposition-based modelling approach to forecast weekly solar radiation》中作为预测的最后一个环节。

决策树分类器(弱分类器)+Bagging(集成学习方法)=随机森林

在将得到的多组抽取到的n个数据分别生成弱分类器的时候,应用决策树分类器。应用处在以下加粗部分:

Bagging:

Step1:假设训练集中数据个数为n,每次从训练集中有放回的随机抽取n个数据,并分别生成各自的分类器(弱分类器)。

Step2:将得到的弱学习器求平均值,得到强学习器。

在刚才提到的太阳能辐射预测值相关那篇论文中,首先将时间序列分为训练集和测试集,将训练集用过MEMD进行分解,提取特征值,再通过SVD奇异值分解进行降维,进而保留最相关特征,最后一步通过随机森林将最相关特征输入,建立强学习器(预测模型)。

上面提到的涉及RF的这篇论文近几天将完成精讲的编写。

如有错误请多多指正。

往期精彩回顾适合初学者入门人工智能的路线及资料下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载本站qq群955171419,加入微信群请扫码:

【算法精讲】集成分类与随机森林相关推荐

  1. 算法 6:集成学习与随机森林

  2. 机器学习实践之集成方法(随机森林和AdaBoost元算法提高分类性能)

       本文根据最近学习机器学习书籍网络文章的情况,特将一些学习思路做了归纳整理,详情如下.如有不当之处,请各位大拿多多指点,在此谢过. (未添加文章标签,特此补上,2018.1.14记.) 一.概述 ...

  3. YOLO系列算法精讲:从yolov1至yolov5的进阶之路(2万字超全整理)

    写在前面:大家好!我是[AI 菌],算法工程师一枚,2021年博客之星Top12,公众号[AI 修炼之路]作者.专注于计算机视觉.深度学习.图像处理技术,热衷于分享AI.CV.DL.ML.OpenCV ...

  4. 集成学习和随机森林方法

    集成学习和随机森林方法 介绍 本次实验介绍了集成学习的概念及主要方法,包括 Bootstraping.Bagging.随机森林,随后计算随机森林中各个特征的重要性,找出对模型贡献较大的特征. 知识点 ...

  5. 【机器学习实战】第7章 集成方法(随机森林和 AdaBoost)

    第7章 集成方法 ensemble method 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重 ...

  6. sklearn综合示例7:集成学习与随机森林

    假设你创建了一个包含1000个分类器的集成,每个分类器都只有51%的概率是正确的(几乎不比随机猜测强多少).如果你以大多数投票的类别作为预测结果,可以期待的准确率高达75%.但是,这基于的前提是所有的 ...

  7. 机器学习-集成学习:随机森林(Random Forest)

    内容参考:https://github.com/NLP-LOVE/ML-NLP/tree/master/Machine%20Learning/3.1%20Random%20Forest​​​​​ 略做 ...

  8. 机器学习实战7-sklearn集成学习和随机森林

    集成方法:聚合一组预测器(比如分类器或回归器)的预测,得到的预测结果也比最好的单个预测器要好. 例如,你可以训练一组决策树分类器,每一棵树都基于训练集不同的随机子集进行训练.做出预测时,你只需要获得所 ...

  9. 《Scikit-Learn与TensorFlow机器学习实用指南》第7章 集成学习和随机森林

    第7章 集成学习与随机森林 来源:ApacheCN<Sklearn 与 TensorFlow 机器学习实用指南>翻译项目 译者:@friedhelm739 校对:@飞龙 假设你去随机问很多 ...

最新文章

  1. python动态规划图解_动态规划案例之python实现(一)
  2. 处理ABAP Netweaver gateway service使用过程中遇到的400 error - invalid key predicate type for guid
  3. Android钢琴滑动代码,android 钢琴界面实现
  4. 第一冲刺阶段博客检查
  5. 如何快速搭建自己的独立站?
  6. SAS 9.4 的sid问题解决方案汇总(头疼...)
  7. jieba分词相关、join合并列表元素
  8. 5款免费的WordPress备份解决方案
  9. 本科毕设不通过是什么原因,哪个少年不曾为如何能够顺利优秀毕业而愁眉苦战
  10. linux 重启startup.sh,centos中startup.sh启动服务脚本
  11. 1194_SICP学习笔记_霍夫曼编码树
  12. 大数据技术之Spark(一)Spark Core
  13. 数据库原理第四章测验(标黑的为答案)
  14. 伸展树(二) - C++实现
  15. 攻读计算机应用在职研究生,在职研究生《计算机应用》复习资料.doc
  16. 如何修改电脑密码(在不知道密码的前提下)
  17. 『解决办法』UBUNTU自带拼音输入法无法正常输入
  18. Golang的压测工具 hey
  19. Eclipse配置svn(入门)
  20. 智力测试情商测试小程序源码/带流量主提升智力微信小程序源码

热门文章

  1. Centos之帮助命令
  2. 用Ghostscript API将PDF格式转换为图像格式(C#)
  3. Windows常用软件列表(2012.03 Update)
  4. cisco vPC技术
  5. React 的组件与 this.props对象
  6. 学习MySQL我们应该知道哪些东西?
  7. List遍历删除注意事项
  8. pycharm 修改新建文件时的头部模板
  9. c#抓取別的網頁的內容
  10. python多线程爬虫界面_多线程网页爬虫 python 实现