风控模型黑箱可解释,试下这个方法来演示
模型的开发,目前在互金领域场景中因为变量多,开发周期短,目前用得最多的就是XGB、LGB这类的机器学习模型。
比如我们之前跟大家输出的关于个人信贷反欺诈评分卡的开发内容里,我们用的就是lightgbm来建模的,相关的操作细节如下:
关于这一类机器学习模型,虽然说有黑箱的内容在里面,但常规上我们还是可以用特征重要性,也就是feature_importance来查看特征对模型重要度的贡献:
【图:绘制lgb模型的特征重要性的排序图】
关于模型特征可解释性的的内容,除了如以上提供的模型都有importance这一接口外,目前常用的还有SHAP这一个模型可解释性的内容,今天我们跟大家讲讲这个内容,而且还会实操一个只能用SHAP来演绎模型特征重要性的算法。
一.SHAP介绍
可解释机器学习在这几年慢慢成为了机器学习的重要研究方向。作为数据科学家需要防止模型存在偏见,且帮助决策者理解如何正确地使用我们的模型。越是严苛的场景,越需要模型提供证明它们是如何运作且避免错误的证据
关于模型解释性,除了线性模型和决策树这种天生就有很好解释性的模型意外,sklean中有很多模型都有importance这一接口,可以查看特征的重要性。如这里提到的特征重要性的内容:
关于特征的重要性,比如上面我们用xgboost这种集成模型时是用feature_importance方法的。那对于某些算法,比如异常检测中的孤立森林算法,只能用shap value来表达。
二.如何实现SHAP
实现SHAP,可以直接调用SHAP模块就能实现。本次在实操过程中,我们用之前跟大家介绍过的孤立森林这个算法,来特别实现,因为孤立森林接口直接调不出feature_importance的。
如上所述,shap是Python开发的一个"模型解释"包,可以解释任何机器学习模型的输出。其名称来源于SHapley Additive exPlanation,在合作博弈论的启发下shap构建一个加性的解释模型,所有的特征都视为“贡献者”。对于每个预测样本,模型都产生一个预测值,shap value就是该样本中每个特征所分配到的数值。
Python中shap值的计算由shap这个package实现,下面我们对训练出的base_iforest模型,计算其shap值。先引用package并且获得解释器explainer,再获取各个样本的shap值,然后调用summary_plot绘制重要性排序图,可以看到绘制出的图表类似xgboost的feature_importance图,shap value可理解为一个特征对目标变量影响程度的绝对值的均值作为这个特征的重要性。
关于本文所提及的机器学习模型相关的数据集跟代码实操内容,可以同步至知识星球后台,查看完整版本内容,欢迎星球同学移步到知识星球查收完整内容:
…
~原创文章
风控模型黑箱可解释,试下这个方法来演示相关推荐
- 计算机中丢失ucore46.dll,Creo6.0 Purge功能 如果试过各种方法还不能使用,可以试下这个方法...
Creo 如果试过各种方法还不能使用Purge功能,可以试下这个方法 Creo6.0 无法使用Purge功能处理方法 1.在CREO安装路径中搜索ucore46.dll(我的在路径D:\Program ...
- 笔记本PS/2键盘无法使用,试下这个方法
用360清理了一下系统,再开机键盘就不灵了,鼠标却可以用. 打开设备管理器,看到PS/2标准键盘有个黄色的感叹号. 属性显示PS/2 标准键盘 Windows 无法加载这个硬件的设备驱动程序.驱动程序 ...
- 《如何搭建小微企业风控模型》第十节 单变量分析(下)节选
<如何搭建小微企业风控模型>第十节 单变量分析(下)节选 第一章 小微企业数据风控技术的框架 小微企业数据贷发展情况概述 搭建小微企业风控模型所需知识 风控模型概览 第二章 强相关变量:企 ...
- 《如何搭建小微企业风控模型》第六节节选 特征工程(下)
<如何搭建小微企业风控模型>第六节节选 特征工程(下) 第一章 小微企业数据风控技术的框架 小微企业数据贷发展情况概述 搭建小微企业风控模型所需知识 风控模型概览 第二章 强相关变量:企业 ...
- 风控模型师面试准备--技术篇(逻辑回归、决策树、集成学习)
原文地址:https://zhuanlan.zhihu.com/p/56175215 编辑于2019-02-12,持续更新中,有风控建模工作经验的,或者想转行风控建模的小伙伴可以互相交流下... 一. ...
- 风控模型师面试准备--技术篇
转载:https://zhuanlan.zhihu.com/p/56175215 一.算法 逻辑回归 决策树 集成学习(随机森林,Adaboost,GBDT,XGBOOST,LightGbm) 二.特 ...
- 风控模型共享如何打掉黑产?
你可能经常能听到共享单车.共享充电宝.共享雨伞.共享汽车.共享住宅--在共享经济的火热大潮下,只有你想不到,没有创业者做不到~ 但你听说过共享安全吗? 纳尼?安全怎么共享?这事儿靠谱么~ 从网络安全的 ...
- 如何量化样本偏差对信贷风控模型的影响?
风控是信贷业务的核心,业务实践中经常会出现样本选择性偏差(sample bias),从而影响模型效果,影响信贷业务.而很多风控模型也都只能基于有偏样本建立.对于样本偏差对风控模型的影响,很多模型同学一 ...
- 风控策略和模型的区别_风控模型之产品赢利分析与策略优化
欢迎加入全国风控微信群组:免费加入,详情可添加管理Vivian:wmyd80回复微信群组 之前我们说过,产品上线后并不是一成不变的,而是需要后续赢利分析数据表现不断调整,其风控模型策略也是不断优化的. ...
最新文章
- win7乱码 字符集解决方案
- mysql导出如何不区分大小写_mysql 不区分大小写
- 在线自动下载最新版本jquery
- linux udp端口大数据包,Linux协议栈中UDP数据报从网卡到用户空间流程总结
- 限定概率抽奖_守护星已点亮,内测皮肤得到没?从天美抽奖概率分析:地址什么梗...
- mysql命令参数_MySQL命令行参数完整版
- C++ static、const和static const 以及它们的初始化
- Less 官方文档学习笔记
- 分类与聚类及聚类算法分类
- qt 当前窗口句柄_QT获取Windows系统所有窗口句柄
- 接口管理平台YApi坑死我了(超级详细实操教程) - 421篇
- EditPlus 使用 json 格式化
- 中山大学3D游戏设计读书笔记 unity3D Note2
- 完美解决远程电脑浏览器空白显示问题
- 帧率、分辨率、码流的概念
- C语言读写中文时出现乱码的解决
- php酷狗音乐API接口,酷狗音乐抓取api
- 职业生涯规划需要考虑的三大要点
- 雨听 | 英语学习笔记(十七)~作文范文:大学生的书单
- (翻译)网站品质与配色相关