原文:《Interpretable machine learning》 Christophm

规则拟合

就是以决策规则的形式,检测特征间的交互。(决策规则见笔记四)

两部分:

  1. 从决策树间创建规则。
  2. 将原特征和新规则作为输入,匹配线性模型。

通过将分割的决策组合成规则,可以将树中的每条路径转换为决策规则:
解释和实例

RuleFit最终估算的是一个线性模型,所以与常规线性模型的解释是相同的。唯一的区别是该模型具有来自决策规则的新特征。

自行车租赁实例:

最重要的规则是:“days_since_2011 > 111 & weathersit in(“GOOD”,“MISTY”)”,对应的权重是793。其解释是:如果days_since_2011 > 111和weathersit in(“GOOD”、“MISTY”),那么当所有其他特性值保持不变时,预测的自行车数量将增加793辆。


特征重要性的度量包括原始特征项的重要性和特征出现在的所有决策规则。

1.理论

step 1:规则泛化
一个树的集合可以用这个通用的公式来描述:

M:树的数量 fm(x) :预测函数

创建规则:

Tm : m树中用到的特征集 I:指示函数

实例化:自行车租赁数据集的一个虚构的例子:

step 2:稀疏线性模型(减少特征)
和线性模型一致,引入lasso,增加规则特征。

step 3:特征重要性:
介绍了几种衡量特征重要性的方法。

2.优缺点

优点:

  1. RuleFit自动将特征交互添加到线性模型中。
  2. RuleFit可以处理分类和回归任务。
  3. 易于解释。

缺点:

  1. 有时RuleFit会创建许多规则,随着模型中特征数量的增加,可解释性逐渐降低。
  2. 线性模型,权重的解释仍然是不直观的。

《解释性机器学习》笔记(五):Rule Fit 规则拟合相关推荐

  1. 【Datawhale可解释性机器学习笔记】预备知识学习

    人工智能黑箱子灵魂之问 AI的脑回路是怎样的? AI如何做出决策? 是否符合人类的直觉和常识 如何衡量不同特征对AI预测结果的不同贡献? AI什么时候work?AI什么时候不work? AI有没有过拟 ...

  2. 机器学习笔记(五)神经网络

    5.神经网络 5.1神经元模型 神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应.对这句话的理解,简单提要下,主角是简单单元(输入单 ...

  3. 斯坦福2014机器学习笔记五----正则化

    版权声明:本文为博主原创文章,转载请指明转载地址 一.纲要 欠拟合和过拟合 代价函数正则化 正则化线性回归 正则化逻辑回归 二.内容详述 1.欠拟合和过拟合 欠拟合,也叫高偏差,就是没有很好的拟合数据 ...

  4. 机器学习笔记(五)回归模型

    1.线性回归模型 1.广义线性模型 也就是x和y的线性组合也就是: y = w1x1+w2x2-+wnxn+b coef_是系数矩阵w =[w1,w2-wn],intercept_就是截距 2.普通最 ...

  5. 吴恩达机器学习笔记五之神经网络

    本节目录: 1.非线性假设 2. 神经元和大脑 3. 模型表示 4. 特征的直观理解 5. 样本的直观理解 6. 多类分类 1 非线性假设 假设我们希望训练一个模型来识别视觉对象(例如识别一张图片上是 ...

  6. 机器学习笔记~五种常见的聚类算法简介

    参考:https://towardsdatascience.com/the-5-clustering-algorithms-data-scientists-need-to-know-a36d136ef ...

  7. 机器学习笔记三—卷积神经网络与循环神经网络

    系列文章目录 机器学习笔记一-机器学习基本知识 机器学习笔记二-梯度下降和反向传播 机器学习笔记三-卷积神经网络与循环神经网络 机器学习笔记四-机器学习可解释性 机器学习笔记五-机器学习攻击与防御 机 ...

  8. 机器学习笔记:过拟合和欠拟合

    1 过拟合介绍 如果模型设计的太复杂,可能会过拟合 下图的1~5分别代表最高项为1~5次幂的线性回归问题: 当模型太复杂的时候,虽然训练集上我们得到较小的误差,但是在测试集上,误差就奇大无比 复杂模型 ...

  9. 吴恩达《机器学习》学习笔记五——逻辑回归

    吴恩达<机器学习>学习笔记五--逻辑回归 一. 分类(classification) 1.定义 2.阈值 二. 逻辑(logistic)回归假设函数 1.假设的表达式 2.假设表达式的意义 ...

最新文章

  1. 转:百万级访问量网站的技术准备工作
  2. Linux 下打包报错:enospc (no space left on device)
  3. 我国计算机网络事业发展,金标尺公考
  4. Spring框架IOC和AOP的实现原理
  5. SynchronizationContext
  6. [Leedcode][JAVA][第990题][等式方程的可满足性][并查集]
  7. ApiBoot - ApiBoot Quartz 使用文档
  8. C/C++混淆点-逗号运算符
  9. 【python基础知识】error C1083: 无法打开包括文件: “numpy/arrayobject.h”: No such file
  10. matlab中if语句中的结果返回,matlab中if 语句后面的判别式不能是算术表达式?或者说变量?...
  11. 在百度上搜不到的资源是在哪找的?就在这些强大的资源搜索网站呀
  12. 计算机软件实习每日学习打卡(5)20201218
  13. Apche OFBiz 反序列化漏洞复现
  14. pandoc md 文件转化pdf(中文字体)
  15. 论文投稿系列之Cover Letter写法(一)
  16. 解除网卡绑定(多台电脑上网)
  17. chrome设置浏览器网页编码
  18. C++判断系统位数(64位或32位)
  19. excel中的CTRL+E格式选取
  20. ubuntu重新安装驱动

热门文章

  1. OFDM专题之子载波间干扰问题(二)
  2. PHP面试MySQL数据库的索引
  3. 浅谈微博精准推荐——用户行为挖掘与相似用户挖掘
  4. C#写的NoSQL开源项目/系统(系列)
  5. 分享ASP.NET+jQuery MiniUI后台购物管理
  6. 有关(int)和(int)的区别
  7. python 六边形架构_通过纯css3代码实现六边形边框
  8. Firefox浏览器的安装
  9. 华为机试第11题python
  10. jittor和pytorch生成网络对比之wgan