利用随机森林进行特征重要性排序

第一步就是导包，这里我们主要需要用到的就是sklearn和pandas
我们先对自己的数据集进行一下处理

import numpy as np
import pandas as pd
testset=pd.read_csv("data.csv")
testset.head(5)

数据集导入

dataset=testset
dataset.target=testset['标签']
dataset.target.head(5)

因为数据集比较大就放前几个拿出来给大家看看，提取完标签之后，为了让后面的步骤更加简洁，直接在数据集中删除掉最后的一列target

testset.drop(columns=['currentdepth'],inplace=True)
testset.head(5)

除去target这一列的标签，剩下的都是需要进行排序的特征

dataset.feature_names=testset.columns
dataset.feature_names

特征都被输出来了

dataset.data=testset[['特征1','特征2', '特征3', '特征4'......]]
dataset.data.head(5)

这里我赋给dataset的data值都是根据上面输出的特征属性来的，需要对部分属性排序也可以，为了方便可以多drop掉几个特征然后赋给新的dataset

print("data shape:{}".format(dataset.data.shape))
print("target shape:{}".format(dataset.target.shape))
print("line head 5:\n{}".format(dataset.data[:5]))
print("target head 5:\n{}".format(dataset.target[:5]))

分别输出前五个数据看看有没有缺特征或者data和target有空值的

数据集处理完成后检查一下是不是data、target、feature_names这三个都有赋值，它们在数据集中对应的位置应该是这样的（以西瓜数据集为例）

色泽、根蒂、敲声、纹理、脐部、触感这些是feature_names，好瓜这一列是target，中间的青绿、乌黑这些是data，在数据处理时最好把data以行的形式存储起来，这样一行是一个实例

第二步是处理我们通过处理初始的数据集得到的data、target和feature_names

X=dataset.data
X.shape
Y=dataset.target
names=dataset.feature_names
print(names)

第三步利用sklearn这个包中的随机森林对特征进行排序，前面都是准备工作，如果是网上可下载的那种数据集不需要花那么多功夫在处理数据集上

from sklearn.ensemble import RandomForestClassifier
rf=RandomForestClassifier()
rf.fit(X,Y)
print("Features sorted by their score:")
print(sorted(zip(map(lambda x:round(x,4),rf.feature_importances_),names)))

这里也可以不用随机森林，看到有人用线性回归的，有兴趣的同学也可以实现下，后面会附上相关链接

一般来说维数比较小的数据集得出来的重要性排序都不会有很低的，针对维数比较大的数据集可以利用这个方法剔除掉数据集中影响比较小的特征，在保证准确度的情况下训练速度更快。

线性回归进行重要性排序
使用标准数据集对特征进行重要性排序
两种重要性排序的方法

利用随机森林进行特征重要性排序相关推荐

利用随机森林对特征重要性进行评估方法一
https://hal.archives-ouvertes.fr/file/index/docid/755489/filename/PRLv4.pdf 前言随机森林是以决策树为基学习器的集成学习算法 ...
利用随机森林对特征重要性进行评估
文章目录 1 前言 2 随机森林(RF)简介 3 特征重要性评估 4 举个例子 5 参考文献 1 前言随机森林是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,更令人惊 ...
随机森林的特征重要性排序
OOB计算用未被选择到的学习的数据,做验证集计算.不必另外做validation了 Feature Selection 如果没有做好这部分,也是有缺点的: 其中最致命的就是,可能得到的是错误的答案, ...
随机森林做特征重要性排序和特征选择
随机森林模型介绍: 随机森林模型不仅在预测问题上有着广泛的应用,在特征选择中也有常用. 随机森林是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和 ...
利用随机森林对特征重要性进行评估（公式原理）
本文参考来源于: 杨凯, 侯艳, 李康. 随机森林变量重要性评分及其研究进展[J]. 2015. 码字不易,各位看官大大的赞是我更细的动力! 一.引言随机森林(randomforest,RFrand ...
随机森林对特征重要性排序
two methods: 1.Mean decrease impurity 不纯度降低大概是对于每颗树,按照impurity(gini /entropy /information gain)给特征 ...
python随机森林变量重要性_利用随机森林对特征重要性进行评估
前言随机森林是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能,因此,随机森林也被誉为"代表集成学习技术水 ...
利用随机森林对特征重要性进行评估（含实例+代码讲解）
这部分主要讲解一下如何使用,需要看原理的小伙伴,可以到我之前的博客: https://blog.csdn.net/wzk4869/article/details/126379073?spm=1001. ...
随机森林计算特征重要性_随机森林中计算特征重要性的3种方法
随机森林计算特征重要性 The feature importance describes which features are relevant. It can help with a better ...

利用随机森林进行特征重要性排序

利用随机森林进行特征重要性排序相关推荐

最新文章

热门文章