随机森林采用多数表决的一种,最终表决结果不是树上的类别（class）频率,而是树上的各类别概率的平均值

在分类问题中,RF分类器根据多数投票(例如,投票结果)给出最终答复.是或否.

另一方面,在Python中,我还可以看到带有事件最终概率的向量,例如0,83.如果我有1000个估计量,每棵树有1000个概率的平均值,那么该概率如何计算？

clf = RandomForestClassifier(max_depth = 4, min_samples_split=2, n_estimators = 200, random_state = 1)

clf.fit(train[columns], train["churn"])

predictions = clf.predict(test[columns])

predicted_probs = clf.predict_proba(test[columns])

print(predicted_probs)

test = pd.concat([test, pd.DataFrame(predicted_probs, columns=['Col_0', 'Col_1'])], axis=1)

解决方法:

is the mean of 1000 probabilities, from each tree?

是的.

向量显示所有树中每个选定类别的平均概率. Scikit RF分类中的最终投票将为所有树的给定输入选择具有最高平均概率的类别.

因此,如果对于双类别数据集,对于给定的样本/输入,C1和C2在分别标记为1和2的树上的概率分别为0.3、0.7和0.5、0.5. C1的平均概率为0.4,而C2的平均概率为0.4.的0.6.

C2是该输入的选定类别,因为它在两棵树上的平均概率最高.

您还可以查看ForestClassifiers的predict方法的源代码.从该方法的__doc__：

The predicted class of an input sample is a vote by the trees in

the forest, weighted by their probability estimates. That is,

the predicted class is the one with highest mean probability

estimate across the trees.

概括地说,这是多数表决的一种,表决权重不是树上的class频率,而是树上的平均值.

https://blog.csdn.net/weixin_39622289/article/details/111766934

https://blog.lzys.cc/p/1289523.html

随机森林采用多数表决的一种,最终表决结果不是树上的类别（class）频率,而是树上的各类别概率的平均值相关推荐

【机器学习】P25 随机森林算法（2）实现 “波士顿房价” 预测
随机森林算法 Random Forest Algorithm 随机森林算法随机森林算法实现波士顿房价预测随机森林算法随机森林(Random Forest)算法是一种集成学习(Ensemble ...
决策树随机森林 xgboost_一文看懂随机森林-RandomForest（附4个构造步骤+4种实现方式评测+10个优缺点）...
随机森林是一种由决策树构成的集成算法,他在很多情况下都能有不错的表现.本文将介绍随机森林的基本概念.4 个构造步骤.4 种方式的对比评测.10 个优缺点和 4 个应用方向. 什么是随机森林? 随机森林 ...
随机森林matlab降维,七种降维方法
之前介绍过关于降维和特征选择,这里对几种降维方法进行介绍,与之前的方法大致相同. 1 缺失值比例该方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少.因此,可以将数据列缺失值大于某个阈值 ...
python随机森林筛选变量_一种基于随机森林的改进特征筛选算法
刘云翔陈斌周子宜摘要: 肝癌是一种我国高发的消化系统恶性肿瘤,患者死亡率高,威胁极大.而其预后情况通常只能通过医生的专业知识和经验积累来粗略判断,准确率较差.因此文中在分析随机森林算法的基本 ...
12_信息熵，信息熵公式，信息增益，决策树、常见决策树使用的算法、决策树的流程、决策树API、决策树案例、随机森林、随机森林的构建过程、随机森林API、随机森林的优缺点、随机森林案例
1 信息熵以下来自:https://www.zhihu.com/question/22178202/answer/161732605 1.2 信息熵的公式先抛出信息熵公式如下: 1.2 信息熵信 ...
gbdt 算法比随机森林容易_随机森林与GBDT
Bagging策略 1.总样本数量是n个,从样本中重采样(有放回的)选出n个样本 ,会有约33.2%的样本不会被抽到 2.在所有属性上对这n个样本建立分类器(比如决策树,svm,lr) 3.重复步骤1 ...
决策树（ID3、C4.5、CART、随机森林）
原文地址:http://blog.csdn.net/gumpeng/article/details/51397737 注:本篇文章也是多个博客的综合整理. 1.决策树基本问题 1.1 定义我们应该设 ...
02-分类算法：knn、朴素贝叶斯、决策树和随机森林
目录 sklearn数据集一.数据集划分二. 数据集获取三.sklearn机器学习算法的实现-估计器分类算法-k近邻算法(KNN) 一.定义: 二.公式: 三.语法: 四.模型调优方法: 1. ...
[学习笔记] [机器学习] 7. 集成学习（Bagging、随机森林、Boosting、GBDT）
视频链接数据集下载地址:无需下载 1. 集成学习算法简介学习目标: 了解什么是集成学习知道机器学习中的两个核心任务了解集成学习中的 Boosting 和 Bagging 1.1 什么是集成学习 ...

随机森林采用多数表决的一种,最终表决结果不是树上的类别（class）频率,而是树上的各类别概率的平均值

随机森林采用多数表决的一种,最终表决结果不是树上的类别（class）频率,而是树上的各类别概率的平均值相关推荐

最新文章

热门文章