特征重要性排序–Permutation Importance

参考：Permutation Importance | Kaggle

相比于其他衡量特征重要性的方法，Permutation Importance的优点：

计算量低
广泛使用和容易理解
与我们要测量特征重要性的属性一致

Permutation Importance的计算是在模型训练完成后进行的，即，模型参数不再改变。如果我们将验证集中的单独一列的数据进行打乱，并保持其他列和目标值不变，那么，预测打乱后的验证集的结果会怎么变化？

上图示例是将第二列的数据进行shaffle，如果模型预测对该列特征的依赖性很大，那么打乱后，预测精度会受到很大的影响。

具体实施流程：

训练模型
打乱其中一列的数据，用该数据集进行预测，评估预测精度下降来提现该特征变量的重要性
将验证数据集还原，并重复第二步，分析其他特征变量

代码示例：

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifierdata = pd.read_csv('../input/fifa-2018-match-statistics/FIFA 2018 Statistics.csv')
y = (data['Man of the Match'] == "Yes")  # Convert from string "Yes"/"No" to binary
feature_names = [i for i in data.columns if data[i].dtype in [np.int64]]
X = data[feature_names]
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)
my_model = RandomForestClassifier(n_estimators=100,random_state=0).fit(train_X, train_y)import eli5
from eli5.sklearn import PermutationImportanceperm = PermutationImportance(my_model, random_state=1).fit(val_X, val_y)
eli5.show_weights(perm, feature_names = val_X.columns.tolist())

像大部分数据科学中的结果一样，当打乱单个列的时候的结果变化会存在一定随机性，我们通过重复这个过程多次打乱来测量permutation importance计算的随机性大小。

我们通过重复这个过程多次打乱来测量permutation importance计算的随机性大小。

经常会遇到一些负的值，在这种情形下，在打乱（噪声）数据上的预测会得到比真实数据更高精度的结果，该特征的重要性接近于0，但存在一定的机会导致在打乱数据上的预测会更精确。这种情形一般更容易发生在小数据集，因为会有更大几率好运。

特征重要性排序--Permutation Importance相关推荐

随机森林的特征重要性排序
OOB计算用未被选择到的学习的数据,做验证集计算.不必另外做validation了 Feature Selection 如果没有做好这部分,也是有缺点的: 其中最致命的就是,可能得到的是错误的答案, ...
使用XGboost模块XGBClassifier、plot_importance来做特征重要性排序——修改f1,f2等字段
如果你还不知道如何使用XGboost模块XGBClassifier.plot_importance来做特征重要性排序,戳这个网址即可. 下面我们讲一个全网都没好好讲的问题:如何修改f1,f2成对应的特 ...
随机森林特征重要性（Variable importance）评估方法
Random Forest Variable importance 算法介绍实现算法流程分类回归实验实验1:waveform数据集(分类) 实验2:superconductivity数据集 ...
gbdt 回归特征重要性排序_RandomForest、GBDT、XGBoost、lightGBM 原理与区别
RF,GBDT,XGBoost,lightGBM都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善基本学习器的泛化能力和鲁棒性. 根据基本学习器 ...
随机森林做特征重要性排序和特征选择
随机森林模型介绍: 随机森林模型不仅在预测问题上有着广泛的应用,在特征选择中也有常用. 随机森林是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和 ...
gbdt 回归特征重要性排序_gbdt、xgb、lgb、cat面经整理——from牛客
注意,下文的原始的gbdt是以sklearn中的gbdt的实现为例子来阐述的,因为gbdt的改进版本有很多,为了叙述方便,使用这个最为人所知的实现来描述. 你有自己用过别的模型然后调参之类的吗?能说一 ...
利用随机森林进行特征重要性排序
第一步就是导包,这里我们主要需要用到的就是sklearn和pandas 我们先对自己的数据集进行一下处理 import numpy as np import pandas as pd testset= ...
LR模型特征重要性排序
1.特征重要性的意义 LR模型也就是逻辑回归模型,作为一个简单的常用的模型,其有非常多的优点,除了模型简单,容易实现分布式,还有一个重要的优点就是模型的可解释性非常好.因为每个特征都对应一个模型参数w ...
随机森林对特征重要性排序
two methods: 1.Mean decrease impurity 不纯度降低大概是对于每颗树,按照impurity(gini /entropy /information gain)给特征 ...

特征重要性排序--Permutation Importance

特征重要性排序–Permutation Importance

特征重要性排序--Permutation Importance相关推荐

最新文章

热门文章