强学习器------随机森林

2024-06-17 10:32:02

由于单棵决策树会产生过拟合问题，为解决这些问题产生了各种各样的优化算法，随机森林就是其中之一。随机森林是一种多功能的机器学习算法，能够执行回归和分类的任务。同时，它也是一种数据降维手段，用于处理缺失值、异常值以及其他数据探索中的重要步骤，并取得了不错的成效。

1.随机森林拓扑图

由数据集生成多棵决策树，由多棵决策树生成森林，所以我们需要解决一下两个问题：怎么生成一棵棵树，怎么组成一个森林呢？

2.随机森林

随机森林中的每一棵树都会给出自己的分类选择，并由此进行“投票”，森林整体的输出结果将会是票数最多的分类选项；

而在回归问题中，随机森林的输出将会是所有决策树输出的平均值随机森林的随机主要体现在生成树的过程的随机性，针对数据集随机采样，根据采样数据集随机选择属性生成树，最后组合成森林

缺点：

1.随机森林在解决回归问题时并没有像它在分类中表现的那么好，这是因为它并不能给出一个连续型的输出。当进行回归时，随机森林不能够作出超越训练集数据范围的预测，这可能导致在对某些还有特定噪声的数据进行建模时出现过度拟合。

2.对于许多统计建模者来说，随机森林给人的感觉像是一个黑盒子——你几乎无法控制模型内部的运行，只能在不同的参数和随机种子之间进行尝试

3.随机森林python实现

import pandas as pd
from sklearn.ensemble import RandomForestClassifierimport pandas as pd
from sklearn.ensemble import RandomForestClassifierdata=pd.read_excel('sale.xlsx')
select_var = ~data.columns.isin(["prod_name"])
pre_X = data.ix[:, select_var]
pre_Y=data.FLAG.values
model = RandomForestClassifier(n_estimators=50,criterion='gini',max_features="sqrt",min_samples_leaf=1,n_jobs=4,)
model.fit(pre_X, pre_Y)
print (model.feature_importances_)
for each in  zip(pre_X.columns,    model.feature_importances_) :print (each)

通过上述代码可以看到个指标权重

强学习器------随机森林相关推荐

sklearn综合示例7：集成学习与随机森林
假设你创建了一个包含1000个分类器的集成,每个分类器都只有51%的概率是正确的(几乎不比随机猜测强多少).如果你以大多数投票的类别作为预测结果,可以期待的准确率高达75%.但是,这基于的前提是所有的 ...
机器学习实战7-sklearn集成学习和随机森林
集成方法:聚合一组预测器(比如分类器或回归器)的预测,得到的预测结果也比最好的单个预测器要好. 例如,你可以训练一组决策树分类器,每一棵树都基于训练集不同的随机子集进行训练.做出预测时,你只需要获得所 ...
集成学习和随机森林方法
集成学习和随机森林方法介绍本次实验介绍了集成学习的概念及主要方法,包括 Bootstraping.Bagging.随机森林,随后计算随机森林中各个特征的重要性,找出对模型贡献较大的特征. 知识点 ...
机器学习——基于Bagging的集成学习：随机森林（Random Forest）及python实现
基于Bagging的集成学习:随机森林的原理及其实现引入 Bagging装袋随机森林随机森林分类随机森林回归 python实现随机森林分类随机森林回归引入 "三个臭皮匠赛过诸葛 ...
大白话5分钟带你走进人工智能-第二十八节集成学习之随机森林概念介绍(1)
第二十八节集成学习之随机森林概念介绍(1) 从本系列开始,我们讲解一个新的算法系列集成学习. ...
《Scikit-Learn与TensorFlow机器学习实用指南》第7章集成学习和随机森林
第7章集成学习与随机森林来源:ApacheCN<Sklearn 与 TensorFlow 机器学习实用指南>翻译项目译者:@friedhelm739 校对:@飞龙假设你去随机问很多 ...
大白话5分钟带你走进人工智能-第二十九节集成学习之随机森林随机方式，out of bag data及代码(2)
大白话5分钟带你走进人工智能-第二十九节集成学习之随机森林随机方式 ,out of bag data及代码(2) 上一节中我们讲解了随机森林的基本概念,本节的话我们讲解随机森 ...
集成学习-Bagging集成学习算法随机森林（Random Forest）
随机森林算法属性随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的.在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决 ...
机器学习-集成学习：随机森林（Random Forest）
内容参考:https://github.com/NLP-LOVE/ML-NLP/tree/master/Machine%20Learning/3.1%20Random%20Forest 略做 ...
【sklearn学习】随机森林分类、回归
集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合结果,以此来获取比单个模型更好的回归或分类表现. 三类集成算法:装袋法(Bagging).提升法(Boosting).stacking 装袋法: ...

最新文章

热门文章