可解释机器学习- LIME模型讲解|interpretable machine learning-LIME
Contents
- 原理
- 计算流程
- 优势
- 劣势
- Reference
原理
- LIME生成了一个新的数据集,数据集由扰动的样本(permuted samples)和黑箱模型对应的预测构成。LIME在这个数据集上训练一个可解释模型(比如lasso或决策树),该模型根据生成样本与真实样本的近似程度(proximity)来加权
- 如何生成扰动的样本:
- 对于图像和文字,可以通过隐藏一些像素点(pixels)或单词
- 对于表格数据(tabular),LIME对于每一个特征单独进行扰动,比如说从正态分布中采样,该正太分布由特征的均值和方差决定
- LIME是在保持可解释模型复杂度较低的情况下,尽可能减小loss(可解释模型与原始模型的接近程度,也就是对扰动后产生的数据集拟合)
- 但在实际应用中,用户需要确定复杂度
计算流程
- 选择ML模型和需要解释的样本点
- 生成样本
- 根据生成样本,使用blackbox模型产生预测值
- 对样本进行加权,权重是生成样本点和参考点的相似程度,相似程度通过不同的核函数进行计算(比如RBF kernel)
- 加权线性回归,回归系数就是对应特征的解释
使用InterpretML对 PCA+Random Forest组合成的黑箱模型进行解释,结果如下
- 如何使用请参考:https://blog.csdn.net/qq_41103204/article/details/125796207
优势
- 即使替换了底层(underlying)的机器学习模型,仍然可以用局部的可解释模型进行解释
- 当使用lasso或者决策树的时候,解释是简短的(有选择性的),并且是可以比较的(contrastive)。但需要更全面的解释的时候,LIME就不合适了
- 可用于表格数据(tabular),文本和图像
- 保真度度量fidelity measure (可解释模型与黑盒预测的近似程度) 使我们很好地了解了可解释模型在解释感兴趣的数据实例附近的黑盒预测方面的可靠性
- 用局部代理模型创建的解释可以使用除原始模型所用以外的其他 (可解释) 特征。当然,这些可解释的特征必须从数据实例中派生。文本分类器可以将抽象词嵌入作为特征,但解释可以基于句子中是否存在词。回归模型可以依赖于某些属性的不可解释的转换,但是可以使用原始属性来创建解释。与其他方法相比,对LIME 使用可解释特征可能是一个很大的优势,尤其是当模型使用不可解释特征进行训练时。
- 比如上面的例子,分类模型Random Forest是基于PCA降维后的特征,但是LIME可以把PCA+Random Forest当成一个黑箱,直接在原始数据上进行解释。
劣势
- 当对表格式数据使用 LIME 时,**正确定义邻域(correct definition of the neighborhood)**是一个很大的未解决的问题,需要尝试不用的核函数,来看解释是否合理
- 采样可能不合理。现在只通过高斯分布来采样,忽略了特征之间的相关性,这会导致一些不可能的数据出现在训练样本中
- 解释不稳定(instability)。两个相近的样本点,解释非常不同
从第一张图可以看到,正确的邻域应该是绿色圆圈表示的区域,要尽可能包括ML的线形区域。但是不同的核函数的宽度会带来不同的邻域,如图二。
Reference
- https://interpret.ml/
- https://christophm.github.io/interpretable-ml-book/
- https://towardsdatascience.com/lime-explain-machine-learning-predictions-af8f18189bfe
可解释机器学习- LIME模型讲解|interpretable machine learning-LIME相关推荐
- 【机器学习笔记】可解释机器学习-学习笔记 Interpretable Machine Learning (Deep Learning)
[机器学习笔记]可解释机器学习-学习笔记 Interpretable Machine Learning (Deep Learning) 目录 [机器学习笔记]可解释机器学习-学习笔记 Interpre ...
- zz[读书笔记]《Interpretable Machine Learning》
[读书笔记]<Interpretable Machine Learning> Jul 19, 2019 看到这本书,特意翻了下微博妖僧老冯_之前的一条微博,这样写道:"在机器学习 ...
- 可解释机器学习(Explainable/ Interpretable Machine Learning)的原理和应用(李宏毅视频课笔记)
文章目录 0 前言 1 Introduction of Explainable/ Interpretable ML 1.1 Why we need Explainable ML? 1.2 Interp ...
- 机器学习与优化基础(Machine Learning and Optimization)
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自|新机器视觉 引用大佬Pedro Domingos的说法: ...
- 量子领域的机器学习人工智能(三)(Machine learning artificial intelligence in the quantum domain)
Machine learning & artificial intelligence in the quantum domain 摘要( Abstract) Ⅵ.机器学习的量子增强( QUANT ...
- 机器学习神书推荐 Hands on Machine Learning
欢迎点击「算法与编程之美」↑关注我们! 本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章. 本次为大家推荐的是一本机器学习神书英文原版<Hands- ...
- 初识机器学习——吴恩达《Machine Learning》学习笔记(八)
神经网络 人工神经网络(英语:Artificial Neural Network,ANN),简称神经网络(Neural Network,NN)或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经 ...
- MIT机器学习基础(Foundations of Machine Learning, author: Mehryar Mohri et al.)
1. 简介 本章是对机器学习的初步介绍,包括一些关键的学习任务和应用,基本定义,术语,以及对一些一般场景的讨论. 1.1 何为机器学习 机器学习可以广泛地定义为使用经验来提高性能或进行准确预测的计 ...
- 机器学习面试知识点汇总(Machine Learning Core Concepts Collection)
Core Concepts List 我们将在这一部分罗列一些面试可能涉及到的小的知识点,只作巩固和补充,如果需要详细了解,还需要详细查证相关的论文. 1.在预测阶段执行 BN 是必要的吗?(没必要也 ...
- 机器学习 —— 概率图模型(Homework: CRF Learning)
概率图模型的作业越往后变得越来越有趣了.当然,难度也是指数级别的上涨啊,以至于我用了两个周末才完成秋名山神秘车牌的寻找,啊不,CRF模型的训练. 条件随机场是一种强大的PGM,其可以对各种特征进行建模 ...
最新文章
- expm1_Java Math类静态double expm1(double d)及其示例
- ForkJoinPool 偷任务
- linux如何关掉正在启动的服务器,Linux服务管理(如何关闭或禁用不需要的服务)?...
- Message Unable to connect to SQL Server '(local)'
- 搭建本地git代码管理,实现内网Windows进行代码管理
- Qt-QThread
- 计算机专业论文答辩ppt,计算机专业毕业答辩ppt模板
- vnr懒人版教程_【转载】Galgame老司机实用工具:VNR使用教程
- 最新抖音下载无水印视频
- 怀旧小霸王游戏机网页源码
- oppo8.0系统最简单激活xposed框架的经验
- mysql 为表添加索引
- HTML5用audio标签做一个最简单的音频播放器
- 【微信小程序/实现】实现获取微信个人信息
- 管理者树立威信,牢记这“6字诀”!
- 计算机组成原理学习笔记——校验码
- 哨兵2号Sentinel-2分幅条带介绍与MGRS网格矢量文件获取
- 一些常用的免费、开源办公软件
- C++开源游戏推荐,《金庸群侠传》复刻版和3D重制版
- SEO伪原创工具图片转文字ocr识别工具