Feature Importance

闲话

几周没用CSDN,发现编辑器的字体变了。最近看了几篇讲特征重要性的文章。在这里【简要】记录一下我的总结,对不熟悉相关知识的读者做个导航。

优点

  • 知道数据中的特征对预测的重要性,可以让我们对模型/数据的理解更加深刻——可解释性。
  • 降维
  • 特征选择——减少参数/提升效率/提升效果

主要类型

  1. 相关系数
    一些基础的机器学习模型,例如线性回归(linear regression)、logistic regression等模型,其中的权重等可以看作是重要性
  2. 模型本身带来的特征重要性
    类似于决策树/随机森林(Decision Tree)、XGBoost等模型,模型本身就可以输出特征重要性等信息。
  3. 特征扰动
    对数据集中的某一类feature进行shuffle,然后在测试集上进行(多次)测试,查看模型效果的(平均)下降程度,下降的越多代表重要性越高。(优点:无需重新训练模型,独立于模型/数据。)

其他

读者还可以关注一些模型可解释性的论文。

搜索的关键词:Interpretability, explainable, causal inference, mutual information, sharpley, interpretable machine learning, XAI

  1. Aaron Fisher, Cynthia Rudin, and Francesca Dominici. All Models are Wrong, but Many are Useful: Learning a Variable’s Importance by Studying an Entire Class of Prediction Models Simultaneously. Journal of Machine Learning Research, 20 (177): 1-81, 2019.

机器学习中的特征重要性 Feature Importance相关推荐

  1. 基于模型(Model-based)进行特征选择(feature selection)并可视化特征重要性(feature importance)

    基于模型(Model-based)进行特征选择(feature selection)并可视化特征重要性(feature importance) sklean 中的 SelectFromModel进行特 ...

  2. 机器学习中的特征是什么?机器学习知识点详解

    在机器学习中,特征(feature)指的是描述一个实例的属性或特征,也可以称为自变量(independent variable)或输入变量(input variable).特征是机器学习中非常重要的概 ...

  3. 随机森林计算特征重要性_随机森林中计算特征重要性的3种方法

    随机森林计算特征重要性 The feature importance describes which features are relevant. It can help with a better ...

  4. 用 XGBoost 在 Python 中进行特征重要性分析和特征选择

    使用诸如梯度增强之类的决策树方法的集成的好处是,它们可以从训练有素的预测模型中自动提供特征重要性的估计. 在本文中,您将发现如何使用Python中的XGBoost库来估计特征对于预测性建模问题的重要性 ...

  5. 机器学习中的特征——特征选择的方法以及注意点

    机器学习中的特征--特征选择的方法以及注意点 https://blog.csdn.net/google19890102/article/details/40019271 关于机器学习中的特征我有话要说 ...

  6. 使用XGBoost在Python中进行特征重要性分析和特征选择

    [翻译自 : Feature Importance and Feature Selection With XGBoost in Python] [说明:Jason Brownlee PhD大神的文章个 ...

  7. 机器学习中的特征工程——分类变量的处理

    出品 | CDA数据分析研究院,转载需授权 文章目录 分类变量 概念 判断 类型 少类别分类变量处理方法 独热编码(One-hot encoding) 虚拟编码(Dummy coding) 效应编码( ...

  8. 机器学习中的特征工程

    机器学习中的特征工程 什么是特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器 ...

  9. 机器学习中的特征缩放(feature scaling)浅谈

    引言 在运用一些机器学习算法的时候不可避免地要对数据进行特征缩放(feature scaling),比如:在随机梯度下降(stochastic gradient descent)算法中,特征缩放有时能 ...

最新文章

  1. 推荐系统--用户行为和实验设计
  2. [react] useEffect和useLayoutEffect有什么区别?
  3. 推荐几个超会整活儿的Go公众号
  4. 【十三】Jmeter:“CSV 数据文件设置”参数化请求中出现带有逗号的参数值
  5. NFS挂载及写入故障
  6. 多线程专题之线程同步(1)
  7. Dynamips ADSL实验之一pppoeoa(工大瑞普修正版)
  8. 关于游戏运营策划管理相关必备知识
  9. 安装cad提示command_win7系统安装CAD软件失败总是提示“错误1327”怎么解决
  10. 《拼多多为什么崛起?》总结笔记
  11. 服务器电源维修书籍,380G5服务器电源维修经历.pdf
  12. ios13.5.1降级_升级iOS 14尝鲜后 无法降级iOS13.5.1?
  13. django经度纬度计算两点距离实例及微信商家付款给用户接口实例
  14. antd表格分页控件显示英文page
  15. matlab语言帮助系统题目,西电 matlab语言考试题2009年
  16. 同态加密能否拯救云计算
  17. 第4季2:并口、MIPI、LVDS的简介
  18. python破解md5_python怎么使用md5加密解密
  19. utm坐标和经纬度相互转换
  20. Excel同一单元格中有中英文,提取英文

热门文章

  1. 使用appfox工具测试登录有图片验证码接口的问题
  2. switchport port-security aging
  3. 小米一体化微水滴形态转轴,揭露小米MIX Fold 2的轻薄秘密
  4. 一行代码教你七夕情人节如何告白❤—动漫3D相册(音乐+文字)HTML+CSS+JavaScript
  5. C语言负整数在内存中的存储
  6. ppt怎么加注解文字_演讲PPT注释字幕添加方法
  7. 面试须知的前端渲染和后端渲染
  8. 家庭中的交换机如何选择?几种常见的交换机选择避坑方法需要知道
  9. FPGA三分频电路的实现
  10. JS,统计图表大全--三、饼形图(饼图及环形图)