文章目录

  • CXPlain: Causal Explanations for Model Interpretation under Uncertainty(不确定性下的模型因果解释)
    • 现有方法
    • 问题定义
    • 因果解释模型(CXPlain)
    • 因果关系的目标
    • 因果关系解释模型
    • 不确定度重要性估计
    • 试验部分
      • 量化特征重要性估计中的不确定性

CXPlain: Causal Explanations for Model Interpretation under Uncertainty(不确定性下的模型因果解释)

思路:将为机器学习模型的决策提供解释的任务作为因果学习任务,并训练因果解释(CXPlain)模型,以便在另一个机器学习模型中估计某些输入导致的输出
贡献

  1. 引入因果解释(CXPlain)模型,这是一种新的学习方法,用于准确估计任何机器学习模型的特征重要性。
  2. 提出了一种基于bootstrap重采样的方法来对CXPlain提供的特征重要性分数进行不确定性估计。
  3. 我们的实验表明,CXPlain比现有的不确定模型的方法(在评估时)更准确,速度也更快,而且它所分配的特征重要度分数的不确定度估计数与以前未见的测试数据上所提供的重要度分数的准确性密切相关。

现有方法

都是一些解释模型常用的方法:比如基于梯度的方法,量化模型对输入敏感性的方法(LIME,SHAP),测量去除特征后模型置信度变化的方法,模拟模型的方法(代理模型)

从这个图片可以看出来,该篇所述模型具有各种优点,我们一起来看看究竟是怎么实现的

问题定义

预测模型f^\hat ff^​,输入XXX包含ppp个特征或者特征组,输出y^∈Rk\hat y \in \mathbb R^ky^​∈Rk,预测模型根据目标函数:y×y^→sy×\hat y\rightarrow sy×y^​→s计算出loss s∈Rs \in \mathbb Rs∈R,不需要了解模型做了什么。同时给出样本协变量X和输出y作为训练数据,目标是训练一个解释模型f^exp\hat f_{exp}f^​exp​产生准确估计A^\hat AA^,其中的每个aia_iai​对应于预测模型对于特征xix_ixi​的权重。

因果解释模型(CXPlain)


这种灵活的框架的优点,我们不需要再训练或调整预测模型f^\hat ff^​解释其决策。为了训练解释模型,我们使用一个因果目标函数来量化单个输入特征或一组输入特征对预测模型准确性的边际贡献。从本质上说,这种方法将为给定的预测模型生成特征重要性估计的任务转换为一个监督学习任务,我们可以用现有的监督机器学习模型来解决这个任务。

因果关系的目标

要训练一个因果关系模型,必须知道优化的目标,最初的目标是专家来指定的,这里作者作者定义的因果关系目标是由格兰杰定义的,定义一个因果关系xi→yix_i \rightarrow y_ixi​→yi​,如果如果我们使用所有信息,比刨除xix_ixi​能更好的预测y^\hat yy^​。这样的关系基于两个假设:(1)我们的一组可用变量X包含了所建模的因果问题的所有相关变量(2)xix_ixi​在时间上领先于y^\hat yy^​。在一般的设置下,这些假设都不能从观测数据中得到证实,但是在这里我们模型先天的通过输入产生输出和预测输出,所以我们可以使用定义来衡量一个输入特征对于模型f^\hat ff^​预测表现的边际提升。

定义 εX{i}\varepsilon_{X\\\{i\}}εX{i}​为不包括特征xix_ixi​时模型产生的误差,εX\varepsilon_XεX​是模型考虑全部输入时的模型误差


这里有很多方法来产生X∖{i}X\setminus\{i\}X∖{i},比如可以置为0或者取xix_ixi​的平均值

然后计算εX{i}\varepsilon_{X\\\{i\}}εX{i}​,和εX\varepsilon_XεX​

定义xix_ixi​关于模型预测误差减少的贡献为上述两个error的差值:

最后正则化权重,并约束wi∈[0,1]且∑iwi=1w_i \in [0,1]且\sum_iw_i=1wi​∈[0,1]且∑i​wi​=1


然后就可以得到因果目标函数 Lcasual=1N∑l=0N−1KL(ΩXl,A^Xl)L_{casual}=\frac {1}{N}\sum^{N-1}_{l=0}KL(\Omega_{X_l},\hat A_{X_l})Lcasual​=N1​∑l=0N−1​KL(ΩXl​​,A^Xl​​),这里的Ω\OmegaΩ是实际计算出来的wiw_iwi​分布,A^\hat AA^是预测模型对于wiw_iwi​分布的估计ai^\hat{a_i}ai​^​
(这里作者采用的方法很类似于SHAP,或者假定特征间独立分布,计算边际贡献时,没有考虑到特征组间的相互作用)

KL为KL散度,度量两个分布wi(X)和A^(i)=a^iw_i(X)和\hat A(i)=\hat a_iwi​(X)和A^(i)=a^i​之间的距离,然后就可以使用有监督的方法来对解释模型进行训练
但是这里也引出了一个问题,对于高维数据要如何选择特征?:作者在这里以图片举例,可以使用非重叠的图片区域用作我的特征组,这样可以大大缩小特征数量(但是我觉得选择合理特征组也是对于解释性很重要的一点,是根据人为选择,还是根据规则来调控,这里文章没有给出我们答案)

因果关系解释模型

理论上,任何的能够自定义训练目标的机器学习模型都能够用于因果解释模型的建立,这里主要关心深度神经网络的解释模型,因为对于不同任务,能够从高维特征中提取高级特征表示,所以对应于图像使用卷积,对于文本应用注意力RNN等,后有试验结果比较了使用深度模型和使用单层或者多层感知机的结果。

不确定度重要性估计

提供了一种用于量化CXPlain预测出的权重a^i\hat a_ia^i​的不确定度估计uiu_iui​,这里在为每个特征赋予权重aia_iai​的可信度γ=1−α\gamma =1-\alphaγ=1−α的情况下,置信度区间CIi,γ=[ci,α2,ci,1−2α]CI_{i,\gamma}=[c_{i,\frac {\alpha}{2}},c_{i,1-\frac {2}{\alpha}}]CIi,γ​=[ci,2α​​,ci,1−α2​​],这里确定了置信区间的上下界,这里CIi,γCI_{i,{\gamma}}CIi,γ​的区间宽度ui=ci,1−α2−ci,α2u_i=c_{i,1-\frac {\alpha}{2}}-c_{i,\frac {\alpha}{2}}ui​=ci,1−2α​​−ci,2α​​可以用于量化a^i\hat a_ia^i​的不确定度

为了训练因果解释模型的bootstrap ensemble,我们首先从原始训练集中随机抽取NNN个训练样本XXX。然后,我们使用前面提到的因果目标训练一个解释模型,直到在训练集的选定子集上收敛。我们重复此过程M次,以获得M个解释模型的bootstrap ensemble(附录B中的算法)。我们使用bootstrap ensemble的属性a^i\hat a_ia^i​的中位数作为bootstrap ensemble的权重,并将α2\frac{\alpha}{2}2α​和1−α21-\frac{α}{2}1−2α​分位数分别作为CI的上下限。bootstrap sample

试验部分

  1. CXPlain的特征重要性估计性能与现有的最新方法相比如何?
  2. CXPlain的计算性能与现有的与模型无关和特定于模型的特征重要性估计方法相比如何?
  3. 通过CXPlain模型的自举重采样计算的不确定性估计是否与它们准确确定特征重要性的能力在质量和数量上相关联?


mask掉一些由解释模型判定为重要性高的像素点后产生的效果
计算Δlog−odds\Delta log-oddsΔlog−odds计算mask前后模型预测结果概率p的差值,越大越好,说明mask掉了关键的部分

量化特征重要性估计中的不确定性

为了定量定性研究由解释模型得到的特征权重,分析了在不确定的MNIST测试样本上,其不确定性估计uiu_iui​是否与特征重要性估计中的误差相关。为了确定bootstrap ensemble数量如何影响CXPlain模型的自举集合的不确定性估计性能,我们评估了M个bootstrap ensemble模型。同时采用随机选择不确定估计值作为baseline
因为不知道特征权重真实值,所以用特征排名误差来进行估计定义特征排名误差:


其中rankb(i)rank_b(i)rankb​(i)定义了xix_ixi​的顺序(从0到p-1)在b的条件下,其中Δlog−odds(i)\Delta log-odds(i)Δlog−odds(i)代表真实值排名(即消除某个像素后结果的改变量,而f^exp\hat f_{exp}f^​exp​代表解释模型关于xix_ixi​的预测)

这里选取置信度为90%,不确定估计ui=ci,95%−ci,5%u_i=c_{i,95\%}-c_{i,5\%}ui​=ci,95%​−ci,5%​,在MINIST上选取测试集中的100张未见过的样本,如果我们的不确定性估计被很好地校准,我们将期望看到不确定性估计uiu_iui​和排列误差REi{RE}_iREi​的大小之间的高度相关性,因为这将表明不确定性估计uiu_iui​精确地量化了特征重要性估计在以前看不到的样本图像上的可信度。(这里需要仔细理解一下,主要通过采样之间的关系来判断不确定性估计的准确度。

创新和总结:主要通过训练一个因果解释模型通过样本采样来预判属性重要性,关键是采取了bootstrap sample方法,可能在一定程度上能够很好地表示样本的真实分布,同时能够给出不确定性分数,从而能够在解释不符合预期时及时发现。(这里假设模型对于特征利用的重要性也符合一定的分布,从而通过监督训练的方式来估计模型参数重要性,然后使用bootstraps sample来估计模型总体特征重要性分布)。

CXPlain: Causal Explanations for Model Interpretation under Uncertainty相关推荐

  1. Generative Causal Explanations for Graph Neural Networks

    Generative Causal Explanations for Graph Neural Networks 1 Introduction  该文献提出一种模型不可知算法Gem,适用于各种图学习任 ...

  2. pytorch 模型同一轮两次预测结果不一样_2020年的最新深度学习模型可解释性综述[附带代码]...

    最近low-level vision的炼丹经常出现各种主观评测上的效果问题,无法定位出其对于输入数据的对应关系,出现了问题之后很难进行针对性解决. 这个时候一个很自然的问题就是,都2020年了,深度学 ...

  3. 深度学习可解释性的相关论文

    深度学习关于模型可解释性的相关论文,及部分代码 从GitHub:awesome_deep_learning_interpretability转载 一.按时间 Year Publication Pape ...

  4. Paper:《A Unified Approach to Interpreting Model Predictions—解释模型预测的统一方法》论文解读与翻译

    Paper:<A Unified Approach to Interpreting Model  Predictions-解释模型预测的统一方法>论文解读与翻译 导读:2017年11月25 ...

  5. 美联储SR 11-7:模型风险管理指南(Guidance on Model Risk Management)-万字收藏

    各位学员好,前天有个<python信用评分卡建模(附代码)>课程学员向我提问.她在银行工作,银行对金融风控模型验证和压力测试非常重视.目前不清楚如果对风控模型压力测试. 这个问题很专业,很 ...

  6. 2020年 ICLR 国际会议最终接受论文(poster-paper)列表(三)

    来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2020-02-21     2020年的ICLR会议将于今年的4月26日-4月30日在Mil ...

  7. 收藏 | 图神经网络的解释性综述

    来源:图与推荐本文约1.5w字,干货满满,建议收藏本文对近期提出的 GNN 解释技术进行了系统的总结和分析,归纳对比了该问题的解决思路. 图神经网络的可解释性是目前比较值得探索的方向,今天解读的202 ...

  8. 【ICLR2019】Poster 论文汇总

    ICLR2019 Poster 文章汇总, 共478 papers Convolutional Neural Networks on Non-uniform Geometrical Signals U ...

  9. CVPR 2018 paper list(论文列表)

    原文链接:http://cvpr2018.thecvf.com/program/main_conference 52 Embodied Question Answering Abhishek Das ...

最新文章

  1. Android开源项目第二篇——工具库篇
  2. vue ui框架_你为什么要使用前端框架Vue?
  3. Dalvik内存管理
  4. 实现拼团_生鲜商家如何使用微信拼团小程序做水果生鲜拼团活动?
  5. Java核心(三):代码块的作用
  6. jquery.cookie.js 使用小结
  7. 简历要求中“ 扎实的JAVA基础”的学习方法
  8. centos的一次性任务at和周期性任务crontab
  9. VLOOKUP函数返回错误值#N/A的两种解决方法
  10. matlab求刚度,matlab直接刚度法计算结构频率
  11. php微信页面缓存数据,微信页面入口文件被缓存解决方案
  12. 使用AD域管理您的本地计算机密码
  13. JDK 11 下载安装,配置idea
  14. 微电影后期制作的流程
  15. 计算机安装win10系统还原,预装win10的ThinkPad笔记本电脑一键恢复出厂系统步骤
  16. 在VS 2019中使用HDF5的C API遍历HDF5数据集
  17. 【异步电路碎碎念1】 —— 到底什么是异步电路
  18. 智能优化算法——粒子群算法原理(附代码)
  19. 【spark内置函数】lit和typedLit
  20. C++课程设计------通讯录管理系统

热门文章

  1. 浅谈Web大数据可视化平台开发流程
  2. 一文带你了解移动入库指南(详细版)
  3. 初识MIMO(六):MU-MIMO的仿真
  4. RT-thread实现USB虚拟U盘 模拟读卡器读写sd0
  5. 微信网址打开php,微信打开网址添加在浏览器中打开提示
  6. ちょっとした難しい言葉まとめ③
  7. 数据结构翻转课堂答疑实录——概述
  8. 深度学习之文本摘要自动生成
  9. NYOJ 1248 海岛争霸 河南省赛真题 Floyd 或者 并查集
  10. dubbo 中文官网