【算法精讲】集成分类与随机森林

ONE

集成分类

什么是集成分类

集成分类是集成学习的一种，先讲下集成学习是什么。

所谓集成学习，引用一句谚语“三个臭皮匠顶个诸葛亮”最恰当不过。

集成学习就是将多个弱学习器进行组合，最终形成高性能分类器（强学习器）的方法。

将集成学习放在数据分类中，即叫集成分类。

集成分类的方法

集成分类有两种集成学习方法：Boosting和Bagging。

Bagging（套袋法）是对多个弱分类器独立学习的方法；

Boosting（提升法）是对多个弱学习器依次进行学习的方法。

二者的区别我们通过下图来对比了解一下：

Bagging

Step1:假设训练集中数据个数为n，每次从训练集中有放回的随机抽取n个数据，并分别生成各自的分类器（弱分类器）。其中，随机抽取数据重新整理样本的过程叫做自助法（又名：Bootstrapping）。

Step2:将得到的弱学习器求平均值，得到强学习器。

Boosting

Step：将训练集中的数据分别生成学习器（多种方法），将初步得到的众多学习器分别匹配一个权值1/b（假设一共有b个学习器），由于训练集已知每个数据的标签，故将分类效果较好的权值进行减小，将分类效果较差的权值进行增大，这样对于原来没有正确分类的样本有了改进，经过多次迭代后，几乎所有的样本都能正确分类了，通过将预测函数加权（另一个权值）求和生成高性能学习器（强学习器）。

注：Boosting中权值涉及到两类，一个是样本的权值，一个是预测函数的权值。

Adaboost：

Boosting中用来进行样本加权的方法即为Adaboost，全称Adaptive Boosting(自适应加强)。

该方法的主要内容为：误差率越小，权重就越小；误差率越大，权重就越大。

集成分类的过程及结果如图示：

主要区别：

1、样本选择

Bagging采用的是Bootstrap随机有放回抽样；而Boosting每一轮的训练集是不变的，改变的只是每一个样本的权重。

2、样本权重

Bagging使用的是均匀取样，每个样本权重相等；Boosting根据错误率调整样本权重，错误率越大的样本权重越大。

3、预测函数

Bagging所有的预测函数的权重相等；Boosting中误差越小的预测函数其权重越大。

4、并行计算

Bagging各个预测函数可以并行生成；Boosting各个预测函数必须按顺序迭代生成。

TWO

弱分类器

剪枝分类器与决策树分类器

剪枝分类器是弱分类器的一种，将输入进去n维数据任选其中一维，与之前设定好的阈值进行比较，从而进行分类。

将剪枝分类器进行一层层积累，就得到决策树分类器。

弱分类器与集成学习方法结合

下面是将决策树与这些算法框架进行结合所得到的新的算法：

1）Bagging + 决策树 = 随机森林

2）AdaBoost + 决策树 = 提升树

3）Gradient Boosting + 决策树 = GBDT

随机森林（RF）

下面部分着重讲一下随机森林，这也在师兄所讲论文《A double decomposition-based modelling approach to forecast weekly solar radiation》中作为预测的最后一个环节。

决策树分类器（弱分类器）+Bagging（集成学习方法）=随机森林

在将得到的多组抽取到的n个数据分别生成弱分类器的时候，应用决策树分类器。应用处在以下加粗部分：

Bagging:

Step1:假设训练集中数据个数为n，每次从训练集中有放回的随机抽取n个数据，并分别生成各自的分类器（弱分类器）。

Step2:将得到的弱学习器求平均值，得到强学习器。

在刚才提到的太阳能辐射预测值相关那篇论文中，首先将时间序列分为训练集和测试集，将训练集用过MEMD进行分解，提取特征值，再通过SVD奇异值分解进行降维，进而保留最相关特征，最后一步通过随机森林将最相关特征输入，建立强学习器（预测模型）。

上面提到的涉及RF的这篇论文近几天将完成精讲的编写。

如有错误请多多指正。

往期精彩回顾适合初学者入门人工智能的路线及资料下载中国大学慕课《机器学习》（黄海广主讲）机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载本站qq群955171419，加入微信群请扫码：