Partial Dependence Plots - 部分依赖图实践

今天我们来聊一聊如果解读一个特征对模型的影响~

说起特征对模型的影响，我们需要看两方面：

一是通过PermutationImportance函数查看特征重要性（Feature Importance)，这个是研究某一个特征对模型预测影响的大小；
另一个是部分依赖图，反映这个特征如何影响了预测。

上一篇推送我们已经介绍了特征重要性的知识，今天重点聊一聊部分依赖图的原理和应用。

介绍

PDP会展示一个或两个特征对模型预测的边际效应，我们可以通过绘制特征和预测目标之间的一维关系或二维关系图来了解特征与目标之间的关系。
比如我们想知道，保持其他所有特征不变，哪个特征对留存的提升影响最大？在两组不同人群上，模型预测出的健康水平差异是由他们的负债水平引起的，还是其他原因？

类似于线性回归或者逻辑回归中的系数，可以解释各个特征对模型结果的影响，部分依赖图是对复杂模式中特征的影响进行描绘。

工作原理

与 permutation importance 相似，Partial Dependence Plots 也是在训练好（拟合好的）的模型上进行的。
工作过程：多次改变某一特征的数值，从而产生一系列的预测结果。比如研究年龄特征会不会对留存有影响，我们可以把年龄段从小到大排列，一次看不同年龄段得到的预测结果，以年龄为横坐标，相应的预测输出为纵轴，可以用pdp_plot画出来。

代码示例

假设我们已经有一个用决策树训练好的模型
例子引用于知乎文章 https://zhuanlan.zhihu.com/p/100454991

可以用PDPBox库来生产部分依赖图，看’Goal Scored’这个feature是如何影响这个决策树模型的。
1. 训练模型

// A code block
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
data = pd.read_csv('../input/fifa-2018-match-statistics/FIFA 2018 Statistics.csv')
y = (data['Man of the Match'] == "Yes")  # Convert from string "Yes"/"No" to binary
feature_names = [i for i in data.columns if data[i].dtype in [np.int64]]
X = data[feature_names]
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)
tree_model = DecisionTreeClassifier(random_state=0, max_depth=5, min_samples_split=5).fit(train_X, train_y)

2. 调用pdp函数 pdp_isolate

// A code block
from matplotlib import pyplot as plt
from pdpbox import pdp, get_dataset, info_plots# Create the data that we will plot
pdp_goals = pdp.pdp_isolate(model=tree_model, dataset=val_X, model_features=feature_names, feature='Goal Scored')# pdp_isolate函数解释
#model : 一个训练好的模型；
# dataset: pandas DataFrame data set on which the model is trained，这里是train_test_split取出test X集；
# model_features: 你要观察的feature or feature list整体, 如果做过one-hot-encoding的features, feature list是必须的；
# feature: 要观察的某个feature；
#num_grid_points: integer, optional, default=10，number of grid points for numeric feature

3. 画图 pdp_plot

# plot it
pdp.pdp_plot(pdp_goals, 'Goal Scored')
plt.show()

图形输出：

这个图怎么读？

y轴表示的是模型预测相较于基线值或最左边的值的变化。
蓝色阴影部分表示置信区间
这个图的结论：进一个球会显著地增加获得最佳球员称号地机会，但是进更多的球似乎对预测的影响不大。

但是决策树模型比较简单，未必能看到真实的情况，也可以用随机森林或者其他算法再模拟一遍，来检验特征对模型预测的影响。
再看一下随机森林的例子：

# Build Random Forest model
rf_model = RandomForestClassifier(random_state=0).fit(train_X, train_y)pdp_dist = pdp.pdp_isolate(model=rf_model, dataset=val_X, model_features=feature_names, feature=feature_to_plot)pdp.pdp_plot(pdp_dist, feature_to_plot)
plt.show()

这个图的解读是，”如果所有球员一共跑动了100km的话，球队会更有可能斩获最佳球员。但是跑动得更多的话，可能性就会下降一些。“ （引用子知乎https://zhuanlan.zhihu.com/p/100454991）

在实操过程中，要注意数据集的大小，以及模拟出的曲线光滑程度，像上面决策树的曲线就是过于简单，无法很真实的表现现实情况，，随机森林的光滑形态看上去比决策树的阶跃函数更可信。所以在对任意一个模型进行解释的时候，要特别注意选用的方式。