最近时晴又发现了个炼丹神器Shapash,就迫不及待的要推荐给大家.这是个python的开源库,可以让炼丹师们在炼丹过程中理解自己为什么能练出"好"丹.相信诸位炼丹师和我一样,不仅追求一个好的模型,同时也追究模型的可解释性,废话不多说,我们看看"太阳女神"如何解释我们的模型吧.

Shapash

shapash适用于很多模型:Catboost,Xgboost,LightGBM,Sklearn Ensemble等.可以简单的用pip进行安装:

$pip install shapash

我们用一个实际的例子来说明shapash的用法.我们先训练一个回归模型,用于预测房价.数据下载链接:https://www.kaggle.com/c/house-prices-advanced-regression-techniques

先用shapash读入数据:

import pandas as pd
from shapash.data.data_loader import data_loading
# house_dict里面是特征名到特征含义的映射house_df, house_dict = data_loading('house_prices')
y_df=house_df['SalePrice'].to_frame()
X_df=house_df[house_df.columns.difference(['SalePrice'])]

看下数据如下:

对类别特征进行编码:

from category_encoders import OrdinalEncodercategorical_features = [col for col in X_df.columns if X_df[col].dtype == 'object']
encoder = OrdinalEncoder(cols=categorical_features).fit(X_df)
X_df=encoder.transform(X_df)

我们可以看到,所有特征都变成数值了:

找个任意的回归模型训练,这里我用随机森林:

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
Xtrain, Xtest, ytrain, ytest = train_test_split(X_df, y_df, train_size=0.75)
reg = RandomForestRegressor(n_estimators=200, min_samples_leaf=2).fit(Xtrain,ytrain)
#预估测试集
y_pred = pd.DataFrame(reg.predict(Xtest), columns=['pred'], index=Xtest.index)

这里我们不探讨该模型效果,直接看看如何用"太阳女神"解释该模型:

from shapash.explainer.smart_explainer import SmartExplainer
xpl = SmartExplainer(features_dict=house_dict) # Optional parameter
xpl.compile(x=Xtest,model=reg,preprocessing=encoder,# Optional: use inverse_transform methody_pred=y_pred # Optional
)

然后使用一行代码,就可以解释模型了:

app = xpl.run_app()

我们可以看到特征重要性:

已经特征多大程度影响预估:

当我们选择特征重要性最低的特征时,可以发现该特征影响的样本较少,影响值的范围也小了很多(-2000~2000).

此外还有一些可视化的特性等待大家探索:

算法模型该如何解释?相关推荐

  1. R语言DALEX包的model_profile函数对caret包生成的多个算法模型的连续变量进行分析、使用Acumulated Local Effects (ALE)方法解释某个连续特征和目标值关系

    R语言使用DALEX包的model_profile函数对caret包生成的多个算法模型的连续变量进行分析.使用Acumulated Local Effects (ALE)方法解释某个连续特征和目标值y ...

  2. R语言使用DALEX包的model_profile函数对caret包生成的多个算法模型的离散变量进行分析、使用偏依赖图(Partial Dependence Plots)解释某个离散特征和目标y的关系

    R语言使用DALEX包的model_profile函数对caret包生成的多个算法模型的离散变量进行分析.使用偏依赖图(Partial Dependence Plots)解释某个离散特征和目标值y的关 ...

  3. R语言使用DALEX包的model_profile函数对h2o包生成的多个算法模型的连续变量进行分析、使用偏依赖图(Partial Dependence Plots)解释某个离散特征和目标值y的关系

    R语言使用DALEX包的model_profile函数对h2o包生成的多个算法模型的连续变量进行分析.使用偏依赖图(Partial Dependence Plots)解释某个离散特征和目标值y的关系 ...

  4. knn聚类还是分类_数据分析基本算法模型之KNN算法

    最近失业了...sad 休息了一个月,然后就想着找工作的事情.浏览了一些职位的JD,发现上面都会写了解机器学习算法模型,掌握回归.分类.聚类balabala.这就让我有点蛋疼了,这些在之前工作上都没怎 ...

  5. DL之BP:神经网络算法简介之BP算法简介(链式法则/计算图解释)、案例应用之详细攻略

    DL之BP:神经网络算法简介之BP算法简介(链式法则/计算图解释).案例应用之详细攻略 相关文章:DL之DNN之BP:神经网络算法简介之BP算法/GD算法之不需要额外任何文字,只需要八张图讲清楚BP类 ...

  6. 史上最大,人工智能算法模型 GPT-3 问世,这意味着什么?

    作者 | 谭婧 来源 | 亲爱的数据 封图 | CSDN 付费下载自东方 IC 2020年,年中. 人类历史上最大的人工智能模型,来到人间. 这个体格巨大的北鼻,哭声嘹亮,告知全世界:"我写 ...

  7. 预测算法模型_如何测量预测模型或算法的准确性第1部分。

    预测算法模型 在开发预测模型和算法时,无论是线性回归模型还是ARIMA模型 ,重要的是量化模型对未来观测的适应程度. 计算模型的正确性的最简单方法之一是使用预测值和实际值之间的误差. 从那里开始,有几 ...

  8. NVIDIA-TLT训练行人检测模型(一)----算法模型的训练(finetuning)

    前言 在博客阅读前需要说明,本博文为系列文章,通过阅读文章,您将会学习到如下内容: 使用NVIDIA Transfer Learning Toolkit 工具训练(finetuning)出一个行人检测 ...

  9. 数学建模基本算法模型

    全国大学生数学建模竞赛中常用的算法模型包括但不限于以下几种: 线性回归模型:用于建立变量之间线性关系的模型,常用于预测和分析数据. 逻辑回归模型:用于建立变量之间的非线性关系,常用于分类问题和概率预测 ...

最新文章

  1. 思维dp ---- Codeforces Round #722 (Div. 1) B. Kavi on Pairing Duty [思维dp + 数学]
  2. MvvmLight:Command
  3. Spring Data(二)查询
  4. 信息系统项目管理师:第6章:项目进度管理(2)-章节重点汇总
  5. 复练-关于面试的技能树-自信从容的参加面试
  6. centos 下 sphinx安装和配置
  7. 宜信开源|微服务任务调度平台SIA-TASK入手实践
  8. 博士德服务器帐套维护密码忘记,T+账套主管的密码忘记了,怎么办
  9. Jmeter性能测试脚本搭建与测试步骤流程
  10. joy数据向量化处理
  11. Java判断图片文件格式,不是根据文件后缀判断
  12. 微信小程序毕业设计 基于微信小程序在线考试系统开题报告
  13. U盘数据恢复工具哪个好?
  14. vue element-ui列表中el-switch 开关,使用0和1
  15. 关于达芬奇调色台的那些事儿
  16. class6_os_demo2
  17. 服务器v3 v4性能,至强E5 v4性能表现测试
  18. 从零开始的命令行CLI
  19. D3 二维图表的绘制系列(二十六)盒须图
  20. 正点原子 linux 开发板学习 uboot 篇 一

热门文章

  1. Python高级特性(一)
  2. python基础07_tuple_dict
  3. Android 开发工具类 27_多线程下载大文件
  4. tomcat无法启动(JVM错误)
  5. java 广播地址,根据ip地址跟子网掩码获取广播地址的java实现
  6. python股票数据预处理_Python股票处理之六_数据预处理A
  7. EndNote 20的同步功能如何使用?及新版下载
  8. JavaSE(二十)——面向对象的概念及三个基本特征
  9. 视觉SLAM学习--RTAB MAP学习(待完善)
  10. gnuplot绘图学习